Uvod v korpusno jezikoslovje

Tomaž Erjavec
Odsek za tehnologije znanja
Institut "Jožef Stefan"
Jamova 39
1000 Ljubljana

20. april 2004

Objavljeno na:
http://nl.ijs.si/et/talks/korpus/
http://nl.ijs.si/et/talks/korpus/korpusno.html
http://nl.ijs.si/et/talks/korpus/korpusno-slides.html

1. Pregled

1.1. Kaj je korpus?

korpus = corpus ?
 • Enciklopedija slovenskega jezika (J. Toporošič, 1992)
  termina korpus ne vsebuje;
 • SSKJ
  korpus 3. knjiž. redko zbirka "korpus srednjeveških fresk";
  iskanje preko ZRC: "korpus"
 • The Collins English Dictionary (1986):
  1. a collection or body of writings, esp. by a single author or topic.
 • Guidelines of the Expert Advisory Group on Language Engineering Standards, EAGLES:
  Korpus: Zbirka kosov jezika, ki so izbrani in urejeni po eksplicitnih jezikoslovnih kriterijih, z namenom, da služijo kot vzorec jezika.
  Računalniški korpus: korpus, ki je zapisan na standarden in enovit način za poljubne iskalne naloge.

1.2. Korpusi o korpusu

1.3. Področja uporabe

Raziskava dejanskega jezika: deskriptivnost, performansa, empirično jezikoslovje.
 • Slovaropisje: pokritje in ažurnost;
  enojezični slovarji, terminološki, dvojezični
 • Jezikoslovje: preverjanje hipotez, iskanje zakonitosti
  leksika, oblikoslovje, skladnja semantika, pragramtika,...
 • Prevodoslovje: vir prevodov in kontekstov
  pomnilniki prevodov, strojno prevajanje
 • Učenje jezikov: primeri iz prakse
  "idiomsko poučevanje", gradnja kurikulov
 • Razvoj jezikovne tehnologij: podatkovne baze za induktivno učenje in testiranje
  metode analize in označevanja; strojno (podprto) prevajanje: prevodne ustreznice

1.4. Odlike korpusa

 1. avtentičnost:
  korpus ustreza kriterijem, glede na katere je bil narejen
 2. količina:
  čim večji, tem boljši
 3. kakovost:
  zapis in oznake korpusa so pravilne
 4. enostavnost:
  računalniški zapis korpusa je razumljiv
 5. dokumentiranost:
  korpus je opremljen z bibliografskimi in drugimi podatki

1.5. Zvrstnost korpusov

 • Korpusi pisnega jezika, govorni in govorjeni korpusi (avtentičnost / cena)
  npr. katalog agencije ELRA
 • referenčni korpusi (reprezentativnost) in korpusi podjezikov (specializiranost)
  npr. BNC, ICE, COLT
 • celoviti in vzorčni korpusi (zgodovinski / pravni razlogi)
  npr. Brown
 • statični in spremljevalni (monitor) korpusi (jezik v spreminjanju)
  npr. Collins CoBuild WordBanks (bivši Bank of English)
 • enojezičnih in večjezični vzporedni in primerljivi korpusi
  npr. Hansard, MLCC

1.6. Zgodovina

(Računalniško) jezikoslovne paradigme:
 • 1950 -- 1960: empirija
  šibki računalniki: frekvenčni seznami
 • 1970 -- 1980: kognitivno modeliranje (tvorbeni pristopi, umetna inteligenca)
  globina / znanost: računalniško jezikoslovje
 • 1990 -- ...: spet empirija, tudi kombinirani pristopi
  količina / uporabnost: jezikovne tehnologije
 • 2000 -- ...: semantični splet
Razvoj korpusov:
 • Prvi poskusi: Brown (1 milion besed) 1964; LOB (tudi 1M) 1974
 • Širjenje referenčnih korpusov: Cobuild Bank of English (>100M) 1980-- ; BNC (100M) 1995; češki CNC (100M) 1998; slovenska FIDA (100M) 1998; hrvaški HNK (100M) 1999...
 • Projekti EU HLT pripomogli k izdelavi jezikovnih virov v '90: HLTcentral; za slovenski jezik npr. TELRI in SQEL
 • Posredniki korpusov: LDC 1992, ELRA 1995

1.7. Stanje sedaj

 1. Knjige:
  Corpus Linguistics by Tony McEnery and Andrew Wilson. Edinburgh: Edinburgh University Press; An Introduction to Corpus Linguistics by Graeme D. Kennedy. Studies in Language and Linguistics, London; Corpus Linguistics : Investigating Language Structure and Use by Douglas Biber, Susan Conrad, Randi Reppen. Cambridge University Press; Lingüística de Corpus by Tony Berber Sardinha, Săo Paulo, Brazil: Manole (2004).
 2. Konference 2004:
  Fourth international conference on Language Resources and Evaluation, LREC'04)
  6th Teaching and Language Corpora Conference, TaLC'04; 5th International Workshop on Linguistically Interpreted Corpora; LINC'04; 5th North American Symposium of the American Association for Applied Corpus Linguistics (AAACL Symposium); 2nd Inter-Varietal Applied Corpus Studies Group International Conference; Workshop on Multimodal Corpora; Workshop on Compiling and Processing Spoken Language Corpora; Workshop on Building Lexical Resources from Semantically Annotated Corpora; Workshop on Assessing the Potential of Corpora; Workshop on XML-Based Richly Annotated Corpora; Workshop on English Linguistics and Education Through Corpora.
 3. Učne vsebine: Univerza v Birminghamu, Univerza Stanford, Univerza v Lancastru, Univerza v Manchestru, Univerza v Koelnu,...

1.8. Korpusi slovenskega jezika

Pisni korpusi:
 1. J. Toporišič (ur.): Besedila slovenskega jezika, 1975.
 2. P. Tancig et al. (IJS): Napadi na JNA, 1989.
 3. M. Hladnik et al. (FF): Literat, 1995--
 4. P. Jakopin et al. (ZRC): TELRI 'Plato' corpus, 1998; Beseda, 1999; Nova beseda, 1999--
 5. T. Erjavec et al. (IJS): MULTEXT-East, 1998--, ELAN, 1999--.
 6. S. Krek et al. (DZS, Amebis, FF, IJS): FIDA, 1998--
 7. Š. Vintar et al. (FF): TRANS, 2002

1.9. Korpusno jezikoslovje v Sloveniji

Srečanja:
Učne vsebine (FF, Univerza v Ljubljani):

2. Izdelava korpusov

2.1. Koraki v pripravi korpusa

 1. Izbira besedilnega fonda:
  jezikoslovni kriteriji; dostopnost; enostavnost; velikost
 2. Avtorske pravice
  občutljivost vira; avtorizacija; uporaba; objava
 3. Shranjevanje digitalnih originalov
  fizični prenos
 4. Pretvorba v enoten format
  oblika in konsistentnost vira; nabori znakov
 5. Jezikovno označevanje
  jezikovno odvisne metode; napake
 6. Dokumentiranje
  ...
 7. Uporaba / Prenos
  mrežni konkordančnik; lokalne analize; gradnja modelov; licenčne pogodbe; posredniške hiše

2.2. Kaj lahko označimo v korpusu?

Označevanje = interpretacija
 • Dokumentacija o korpusu (primer)
 • Zgradbo besedila (primer)
 • Osnovno jezikoslovni podatki: povedi, besede (primer), ločila, okrajšave (primer)
 • Oblikoslovne podatke in osnovne oblike besed
 • Skladnjo (primer iz korpusa Negra, primer iz SDT)
 • Poravnave (primer)
 • Termine, kazalke, pragmatiko, intonacijo,...

2.3. Metode označevanja

 • ročno, npr. dokumentacija, prve oblikoslovne oznake
  urejevalnik XML; namenski urejevalniki
 • polavtomatsko: oblikoslovne in druge jezikoslovne oznake
  cikličen pristop: ročno, strojno, validacija
 • strojno, z ročno napisanimi pravili: tokenizacija
  uporaba platform temelječih na regularnih izrazih
 • z modeli, avtomatsko naučenimi iz označenih korpusov: oblikoslovno označevanje
  "supervised learning"; skrite markovske verige, induktivno logično programiranje
 • z modeli, naučenimi iz neoznačenih korpusov: poravnave
  "unsupervised leaning"; apriorne hevristike, clustering
 • dober pregled področja

2.4. Računalniški zapis korpusa

Dober zapis mora zagotoviti trajnost, dokumentiranost, dostopnost, izmenljivost:
 • Za definiranje osnovnega zapisa služi standard Extended Markup Language, XML
 • XML ima pridruženo skupino standardov / orodij, ki definirajo in omogočajo transformacije (XSLT), pravilnost zapisa (DTD, XML Schema, ISO Relax BG), poizvedovanje (XPath, XQuery), ...
 • Nabor oznak za označevanje korpusov (in drugih jezikovnih virov) definirajo mednarodna priporočila Text Encoding Initiative, TEI
XML/TEI tehnogije so uporabna še dosti širše kot samo za korpuse:

2.5. Primeri TEI zapisa korpusov

Zapis glave:
<teiHeader
 id="ecmr.H"
 type="text"
 lang="sl-en"
 creator=ET
 status="update"
 date.created="1999-04-13"
 date.updated="1999-06-22"
>
<fileDesc>
 <titleStmt>
 <title lang="sl">Ekonomsko ogledalo; 13 &scaron;tevilk 98/99</title>
 <title lang="en">Slovenian Economic Mirror; 13 issues, 98/99</title>
 <respstmt>
  <name>Andrej Skubic, FF</name>
  <resp lang="sl">Zagotovitev digitalnega originala, poravnava</resp>
  <resp lang="en">Provision of digital original, alignment</resp>
  <name>Toma&zcaron; Erjavec, IJS</name>
  <resp lang="sl">Tokenizacija, pretvorba v TEI</resp>
  <resp lang="en">Tokenisation, conversion to TEI</resp>
 </respStmt>
 </titleStmt>
...
Struktura besedila:
<quote id="Osl.1.8.18" rend="center;it">
 <lg id="Osl.1.8.18.1">
  <l id="Osl.1.8.18.1.1">Tam pod kostanjevim drevesom</l>
  <l id="Osl.1.8.18.1.2">izdala si me,</l>
  <l id="Osl.1.8.18.1.3">izdal sem te,</l>
  <l id="Osl.1.8.18.1.4">ne da bi trenila z očesom.</l>
 </lg>
</quote>
<p id="Osl.1.8.19">
 <s id="Osl.1.8.19.1">Trije možje se niso niti ganili.</s>
 <s id="Osl.1.8.19.2">Toda ko je <name>Winston</name> znova
pogledal v Rutherfordov propadli obraz, je opazil, da so njegove oči
polne solz.</s>
...
Oblikoslovno označevanje:
<s id="Osl.1.2.2.1">
<w lemma="biti" ana="Vcps-sma">Bil</w>
<w lemma="biti" ana="Vcip3s--n">je</w>
<w lemma="jasen" ana="Afpmsnn">jasen</w><c>,</c>
<w lemma="mrzel" ana="Afpmsnn">mrzel</w>
<w lemma="aprilski" ana="Aopmsn">aprilski</w>
<w lemma="dan" ana="Ncmsn">dan</w>
<w lemma="in" ana="Ccs">in</w>
<w lemma="ura" ana="Ncfpn">ure</w>
<w lemma="biti" ana="Vcip3p--n">so</w>
<w lemma="biti" ana="Vmps-pfa">bile</w>
<w lemma="trinajst" ana="Mcnpnl">trinajst</w><c>.</c>
</s>

<fs id="Vcps-sma" select="sl" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a"/>
<fs id="Vcps-sman----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.n V13.n"/>
<fs id="Vcps-smay----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.y V13.n"/>
<fs id="Vcps-sna" select="sl" feats="V0. V1.c V2.p V3.s V5.s V6.n V7.a"/>
<fs id="Vcps-snan----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.n V7.a V8.n V13.n"/>

<fLib type="Verb">
<f id="V0." select="en ro sl cs bg et hu hr sr sl-rozaj" name="PoS"><sym value="Verb"/></f>
<f id="V1.m" select="en ro sl cs bg et hu hr sr sl-rozaj" name="Type"><sym value="main"/></f>
<f id="V1.a" select="en ro sl cs bg et hu hr sr sl-rozaj" name="Type"><sym value="auxiliary"/></f>
<f id="V1.o" select="en ro sl cs et hr sr sl-rozaj" name="Type"><sym value="modal"/></f>
<f id="V1.c" select="ro sl cs hr sr sl-rozaj" name="Type"><sym value="copula"/></f>
<f id="V1.b" select="en" name="Type"><sym value="base"/></f>

Poravnava:
<linkGrp id="Oslen.1" type="body" targtype="s" domains="Oen Osl">
 <link xtargets="Osl.1.2.2.1 ; Oen.1.1.1.1">
 <link xtargets="Osl.1.2.2.2 ; Oen.1.1.1.2">
 <link xtargets="Osl.1.2.3.1 ; Oen.1.1.2.1">
 <link xtargets="Osl.1.2.3.2 ; Oen.1.1.2.2">
...
 <link xtargets="Osl.1.2.6.5 ; Oen.1.1.5.5">
 <link xtargets="Osl.1.2.6.6 ; Oen.1.1.5.6 Oen.1.1.5.7">
 <link xtargets="Osl.1.2.6.7 ; Oen.1.1.5.8">
...

3. Primeri uporabe

3.1. Leksika

 • Konkordance in kolokacije
  “You shall know a word by the company it keeps.” (Firth, 1957)
 • Indukcija večjezičnih slovarjev:
  • D. Tufiş, Ana-Maria Barbu: Revealing translators knowledge: statistical methods in constructing practical translation lexicons for language and speech processing, in International Journal on Speech Technology, Vol.5, No. 3, 2002 Kluwer Pbls.
  • Nancy Ide, Tomaž Erjavec and Dan Tufiş: Sense Discrimination with Parallel Corpora, in Proceedings of the SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. ACL2002, July Philadelphia 2002, pp. 56-60.
  Avtomatsko zgrajeni 7-jezični slovar '1984' korpusa EU projekta MULTEXT-East:
  prvih 100 vnosov

3.2. Avtomatsko prevajanje

 • VIČIČ, Jernej, ERJAVEC, Tomaž. Statistično strojno prevajanje na osnovi vzporednih korpusov. ERK 2002, 23.-25. 2002.
Prevajalnik Menola
Slovenska poved: evropi vlada veliki brat
Prevod ELAN:   europe government big brother
Prevod Biblija: evropi brother chief upright .
Prevod češko:  evropi vláda velké bratr .

3.3. Konkordance na nl2.ijs.si

Na nl.ijs.si sta trenutno dva vmesnika:
Megleno iskanje in regularni izrazi:
 1. Iskanje niza "hoditi" (išči)
 2. Iskanje niza "hodi.*" (išči)
 3. Iskanje niza ".*hodi.*" (išči)
 4. Iskanje niza "[bcčdfghjklmnprsštvzž]{5,}" (išči)
Prikaz rezultatov:
 1. ".*hod.*" kot frekvenčni seznam (išči)
 2. "prihodki" kot KWIC (išči)
 3. "prihodki" dvojezično (išči)
Dvojezično iskanje:
 1. "prihodki" in "income" (išči)
 2. "prihodki" in ne "income" (išči)
 3. "community" in ne "skupnost" (išči)
Besede, leme in oznake:
 1. Beseda "iti" v '1984' (išči)
 2. Lemma "iti" v '1984' (išči)
 3. Lemma "iti" v '1984' kot seznam zadetkov (išči)
Vpliv izbire korpusa:
 1. "šel" v '1984' (išči) v 'VAYNA' (išči) v 'GORE' (išči)
 2. "okrevanje" v 'ELAN-SL' (išči) in "sožitje" (išči)
Večbesedna iskanja in kolokacije:
 1. "star* mam*" v 'ELAN-SL' (išči)
 2. "* and death" v 'ELAN-EN' (išči)

4. Korpusno jezikoslovje v prihodnje

4.1. Količina

 • Večanje količine neposredno dostopnih besedil: "Splet kot korpus"
 • Večanje kapacitete računalnikov: Moorov zakon

4.2. Kompleksnost

 • Pogloblitev analiz:
  skladnja, deiktične strukture, skladenjske vloge (tektogramatika), pragmatika, dialog...
 • Izdelava multimodalnih korpusov:
  kombiniranje besedila, zvočnega zapisa in posnetkov
 • Povečanje večplastnosti in povezanosti:
  so-obstoj raznovrstnih oznak; notranja in zunanja povezanost oznak
 • Razvoj orodij in okolij:
  natančnost, robustnost, nenadzorovano učenje, meta-učenje

4.3. Razvoj korpusnega jezikoslovja za manjše jezike

Slovenščina: dva koraka zadaj
 • raznovrstni, kvalitetni, javno dostopni korpusi
 • tehnologija oblikoslovnega označevanja
 • skladenjsko označeni korpusi
 • aplikacija že razvitih metod
 • kurikularni razvoj...