Uvod v korpusno jezikoslovje

Tomaž Erjavec
Odsek za tehnologije znanja
Institut "Jožef Stefan"
Jamova 39
1000 Ljubljana

20. april 2004

Objavljeno na:
http://nl.ijs.si/et/talks/korpus/
http://nl.ijs.si/et/talks/korpus/korpusno.html
http://nl.ijs.si/et/talks/korpus/korpusno-slides.html

1. Pregled

1.1. Kaj je korpus?

korpus = corpus ?
  • Enciklopedija slovenskega jezika (J. Toporošič, 1992)
    termina korpus ne vsebuje;
  • SSKJ
    korpus 3. knjiž. redko zbirka "korpus srednjeveških fresk";
    iskanje preko ZRC: "korpus"
  • The Collins English Dictionary (1986):
    1. a collection or body of writings, esp. by a single author or topic.
  • Guidelines of the Expert Advisory Group on Language Engineering Standards, EAGLES:
    Korpus: Zbirka kosov jezika, ki so izbrani in urejeni po eksplicitnih jezikoslovnih kriterijih, z namenom, da služijo kot vzorec jezika.
    Računalniški korpus: korpus, ki je zapisan na standarden in enovit način za poljubne iskalne naloge.

1.2. Korpusi o korpusu

1.3. Področja uporabe

Raziskava dejanskega jezika: deskriptivnost, performansa, empirično jezikoslovje.
  • Slovaropisje: pokritje in ažurnost;
    enojezični slovarji, terminološki, dvojezični
  • Jezikoslovje: preverjanje hipotez, iskanje zakonitosti
    leksika, oblikoslovje, skladnja semantika, pragramtika,...
  • Prevodoslovje: vir prevodov in kontekstov
    pomnilniki prevodov, strojno prevajanje
  • Učenje jezikov: primeri iz prakse
    "idiomsko poučevanje", gradnja kurikulov
  • Razvoj jezikovne tehnologij: podatkovne baze za induktivno učenje in testiranje
    metode analize in označevanja; strojno (podprto) prevajanje: prevodne ustreznice

1.4. Odlike korpusa

  1. avtentičnost:
    korpus ustreza kriterijem, glede na katere je bil narejen
  2. količina:
    čim večji, tem boljši
  3. kakovost:
    zapis in oznake korpusa so pravilne
  4. enostavnost:
    računalniški zapis korpusa je razumljiv
  5. dokumentiranost:
    korpus je opremljen z bibliografskimi in drugimi podatki

1.5. Zvrstnost korpusov

  • Korpusi pisnega jezika, govorni in govorjeni korpusi (avtentičnost / cena)
    npr. katalog agencije ELRA
  • referenčni korpusi (reprezentativnost) in korpusi podjezikov (specializiranost)
    npr. BNC, ICE, COLT
  • celoviti in vzorčni korpusi (zgodovinski / pravni razlogi)
    npr. Brown
  • statični in spremljevalni (monitor) korpusi (jezik v spreminjanju)
    npr. Collins CoBuild WordBanks (bivši Bank of English)
  • enojezičnih in večjezični vzporedni in primerljivi korpusi
    npr. Hansard, MLCC

1.6. Zgodovina

(Računalniško) jezikoslovne paradigme:
  • 1950 -- 1960: empirija
    šibki računalniki: frekvenčni seznami
  • 1970 -- 1980: kognitivno modeliranje (tvorbeni pristopi, umetna inteligenca)
    globina / znanost: računalniško jezikoslovje
  • 1990 -- ...: spet empirija, tudi kombinirani pristopi
    količina / uporabnost: jezikovne tehnologije
  • 2000 -- ...: semantični splet
Razvoj korpusov:
  • Prvi poskusi: Brown (1 milion besed) 1964; LOB (tudi 1M) 1974
  • Širjenje referenčnih korpusov: Cobuild Bank of English (>100M) 1980-- ; BNC (100M) 1995; češki CNC (100M) 1998; slovenska FIDA (100M) 1998; hrvaški HNK (100M) 1999...
  • Projekti EU HLT pripomogli k izdelavi jezikovnih virov v '90: HLTcentral; za slovenski jezik npr. TELRI in SQEL
  • Posredniki korpusov: LDC 1992, ELRA 1995

1.7. Stanje sedaj

  1. Knjige:
    Corpus Linguistics by Tony McEnery and Andrew Wilson. Edinburgh: Edinburgh University Press; An Introduction to Corpus Linguistics by Graeme D. Kennedy. Studies in Language and Linguistics, London; Corpus Linguistics : Investigating Language Structure and Use by Douglas Biber, Susan Conrad, Randi Reppen. Cambridge University Press; Lingüística de Corpus by Tony Berber Sardinha, Săo Paulo, Brazil: Manole (2004).
  2. Konference 2004:
    Fourth international conference on Language Resources and Evaluation, LREC'04)
    6th Teaching and Language Corpora Conference, TaLC'04; 5th International Workshop on Linguistically Interpreted Corpora; LINC'04; 5th North American Symposium of the American Association for Applied Corpus Linguistics (AAACL Symposium); 2nd Inter-Varietal Applied Corpus Studies Group International Conference; Workshop on Multimodal Corpora; Workshop on Compiling and Processing Spoken Language Corpora; Workshop on Building Lexical Resources from Semantically Annotated Corpora; Workshop on Assessing the Potential of Corpora; Workshop on XML-Based Richly Annotated Corpora; Workshop on English Linguistics and Education Through Corpora.
  3. Učne vsebine: Univerza v Birminghamu, Univerza Stanford, Univerza v Lancastru, Univerza v Manchestru, Univerza v Koelnu,...

1.8. Korpusi slovenskega jezika

Pisni korpusi:
  1. J. Toporišič (ur.): Besedila slovenskega jezika, 1975.
  2. P. Tancig et al. (IJS): Napadi na JNA, 1989.
  3. M. Hladnik et al. (FF): Literat, 1995--
  4. P. Jakopin et al. (ZRC): TELRI 'Plato' corpus, 1998; Beseda, 1999; Nova beseda, 1999--
  5. T. Erjavec et al. (IJS): MULTEXT-East, 1998--, ELAN, 1999--.
  6. S. Krek et al. (DZS, Amebis, FF, IJS): FIDA, 1998--
  7. Š. Vintar et al. (FF): TRANS, 2002

1.9. Korpusno jezikoslovje v Sloveniji

Srečanja:
Učne vsebine (FF, Univerza v Ljubljani):

2. Izdelava korpusov

2.1. Koraki v pripravi korpusa

  1. Izbira besedilnega fonda:
    jezikoslovni kriteriji; dostopnost; enostavnost; velikost
  2. Avtorske pravice
    občutljivost vira; avtorizacija; uporaba; objava
  3. Shranjevanje digitalnih originalov
    fizični prenos
  4. Pretvorba v enoten format
    oblika in konsistentnost vira; nabori znakov
  5. Jezikovno označevanje
    jezikovno odvisne metode; napake
  6. Dokumentiranje
    ...
  7. Uporaba / Prenos
    mrežni konkordančnik; lokalne analize; gradnja modelov; licenčne pogodbe; posredniške hiše

2.2. Kaj lahko označimo v korpusu?

Označevanje = interpretacija
  • Dokumentacija o korpusu (primer)
  • Zgradbo besedila (primer)
  • Osnovno jezikoslovni podatki: povedi, besede (primer), ločila, okrajšave (primer)
  • Oblikoslovne podatke in osnovne oblike besed
  • Skladnjo (primer iz korpusa Negra, primer iz SDT)
  • Poravnave (primer)
  • Termine, kazalke, pragmatiko, intonacijo,...

2.3. Metode označevanja

  • ročno, npr. dokumentacija, prve oblikoslovne oznake
    urejevalnik XML; namenski urejevalniki
  • polavtomatsko: oblikoslovne in druge jezikoslovne oznake
    cikličen pristop: ročno, strojno, validacija
  • strojno, z ročno napisanimi pravili: tokenizacija
    uporaba platform temelječih na regularnih izrazih
  • z modeli, avtomatsko naučenimi iz označenih korpusov: oblikoslovno označevanje
    "supervised learning"; skrite markovske verige, induktivno logično programiranje
  • z modeli, naučenimi iz neoznačenih korpusov: poravnave
    "unsupervised leaning"; apriorne hevristike, clustering
  • dober pregled področja

2.4. Računalniški zapis korpusa

Dober zapis mora zagotoviti trajnost, dokumentiranost, dostopnost, izmenljivost:
  • Za definiranje osnovnega zapisa služi standard Extended Markup Language, XML
  • XML ima pridruženo skupino standardov / orodij, ki definirajo in omogočajo transformacije (XSLT), pravilnost zapisa (DTD, XML Schema, ISO Relax BG), poizvedovanje (XPath, XQuery), ...
  • Nabor oznak za označevanje korpusov (in drugih jezikovnih virov) definirajo mednarodna priporočila Text Encoding Initiative, TEI
XML/TEI tehnogije so uporabna še dosti širše kot samo za korpuse:

2.5. Primeri TEI zapisa korpusov

Zapis glave:
<teiHeader
  id="ecmr.H"
  type="text"
  lang="sl-en"
  creator=ET
  status="update"
  date.created="1999-04-13"
  date.updated="1999-06-22"
>
<fileDesc>
 <titleStmt>
  <title lang="sl">Ekonomsko ogledalo; 13 &scaron;tevilk 98/99</title>
  <title lang="en">Slovenian Economic Mirror; 13 issues, 98/99</title>
  <respstmt>
   <name>Andrej Skubic, FF</name>
   <resp lang="sl">Zagotovitev digitalnega originala, poravnava</resp>
   <resp lang="en">Provision of digital original, alignment</resp>
   <name>Toma&zcaron; Erjavec, IJS</name>
   <resp lang="sl">Tokenizacija, pretvorba v TEI</resp>
   <resp lang="en">Tokenisation, conversion to TEI</resp>
  </respStmt>
 </titleStmt>
...
Struktura besedila:
<quote id="Osl.1.8.18" rend="center;it">
  <lg id="Osl.1.8.18.1">
    <l id="Osl.1.8.18.1.1">Tam pod kostanjevim drevesom</l>
    <l id="Osl.1.8.18.1.2">izdala si me,</l>
    <l id="Osl.1.8.18.1.3">izdal sem te,</l>
    <l id="Osl.1.8.18.1.4">ne da bi trenila z očesom.</l>
  </lg>
</quote>
<p id="Osl.1.8.19">
  <s id="Osl.1.8.19.1">Trije možje se niso niti ganili.</s>
  <s id="Osl.1.8.19.2">Toda ko je <name>Winston</name> znova
pogledal v Rutherfordov propadli obraz, je opazil, da so njegove oči
polne solz.</s>
...
Oblikoslovno označevanje:
<s id="Osl.1.2.2.1">
<w lemma="biti" ana="Vcps-sma">Bil</w>
<w lemma="biti" ana="Vcip3s--n">je</w>
<w lemma="jasen" ana="Afpmsnn">jasen</w><c>,</c>
<w lemma="mrzel" ana="Afpmsnn">mrzel</w>
<w lemma="aprilski" ana="Aopmsn">aprilski</w>
<w lemma="dan" ana="Ncmsn">dan</w>
<w lemma="in" ana="Ccs">in</w>
<w lemma="ura" ana="Ncfpn">ure</w>
<w lemma="biti" ana="Vcip3p--n">so</w>
<w lemma="biti" ana="Vmps-pfa">bile</w>
<w lemma="trinajst" ana="Mcnpnl">trinajst</w><c>.</c>
</s>

<fs id="Vcps-sma" select="sl" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a"/>
<fs id="Vcps-sman----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.n V13.n"/>
<fs id="Vcps-smay----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.y V13.n"/>
<fs id="Vcps-sna" select="sl" feats="V0. V1.c V2.p V3.s V5.s V6.n V7.a"/>
<fs id="Vcps-snan----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.n V7.a V8.n V13.n"/>

<fLib type="Verb">
<f id="V0."  select="en ro sl cs bg et hu hr sr sl-rozaj" name="PoS"><sym value="Verb"/></f>
<f id="V1.m"  select="en ro sl cs bg et hu hr sr sl-rozaj" name="Type"><sym value="main"/></f>
<f id="V1.a"  select="en ro sl cs bg et hu hr sr sl-rozaj" name="Type"><sym value="auxiliary"/></f>
<f id="V1.o"  select="en ro sl cs et hr sr sl-rozaj" name="Type"><sym value="modal"/></f>
<f id="V1.c"  select="ro sl cs hr sr sl-rozaj" name="Type"><sym value="copula"/></f>
<f id="V1.b"  select="en" name="Type"><sym value="base"/></f>

Poravnava:
<linkGrp id="Oslen.1" type="body" targtype="s" domains="Oen Osl">
  <link xtargets="Osl.1.2.2.1 ; Oen.1.1.1.1">
  <link xtargets="Osl.1.2.2.2 ; Oen.1.1.1.2">
  <link xtargets="Osl.1.2.3.1 ; Oen.1.1.2.1">
  <link xtargets="Osl.1.2.3.2 ; Oen.1.1.2.2">
...
  <link xtargets="Osl.1.2.6.5 ; Oen.1.1.5.5">
  <link xtargets="Osl.1.2.6.6 ; Oen.1.1.5.6 Oen.1.1.5.7">
  <link xtargets="Osl.1.2.6.7 ; Oen.1.1.5.8">
...

3. Primeri uporabe

3.1. Leksika

  • Konkordance in kolokacije
    “You shall know a word by the company it keeps.” (Firth, 1957)
  • Indukcija večjezičnih slovarjev:
    • D. Tufiş, Ana-Maria Barbu: Revealing translators knowledge: statistical methods in constructing practical translation lexicons for language and speech processing, in International Journal on Speech Technology, Vol.5, No. 3, 2002 Kluwer Pbls.
    • Nancy Ide, Tomaž Erjavec and Dan Tufiş: Sense Discrimination with Parallel Corpora, in Proceedings of the SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. ACL2002, July Philadelphia 2002, pp. 56-60.
    Avtomatsko zgrajeni 7-jezični slovar '1984' korpusa EU projekta MULTEXT-East:
    prvih 100 vnosov

3.2. Avtomatsko prevajanje

  • VIČIČ, Jernej, ERJAVEC, Tomaž. Statistično strojno prevajanje na osnovi vzporednih korpusov. ERK 2002, 23.-25. 2002.
Prevajalnik Menola
Slovenska poved: evropi vlada veliki brat
Prevod ELAN:     europe government big brother
Prevod Biblija:  evropi brother chief upright .
Prevod češko:    evropi vláda velké bratr .

3.3. Konkordance na nl2.ijs.si

Na nl.ijs.si sta trenutno dva vmesnika:
Megleno iskanje in regularni izrazi:
  1. Iskanje niza "hoditi" (išči)
  2. Iskanje niza "hodi.*" (išči)
  3. Iskanje niza ".*hodi.*" (išči)
  4. Iskanje niza "[bcčdfghjklmnprsštvzž]{5,}" (išči)
Prikaz rezultatov:
  1. ".*hod.*" kot frekvenčni seznam (išči)
  2. "prihodki" kot KWIC (išči)
  3. "prihodki" dvojezično (išči)
Dvojezično iskanje:
  1. "prihodki" in "income" (išči)
  2. "prihodki" in ne "income" (išči)
  3. "community" in ne "skupnost" (išči)
Besede, leme in oznake:
  1. Beseda "iti" v '1984' (išči)
  2. Lemma "iti" v '1984' (išči)
  3. Lemma "iti" v '1984' kot seznam zadetkov (išči)
Vpliv izbire korpusa:
  1. "šel" v '1984' (išči) v 'VAYNA' (išči) v 'GORE' (išči)
  2. "okrevanje" v 'ELAN-SL' (išči) in "sožitje" (išči)
Večbesedna iskanja in kolokacije:
  1. "star* mam*" v 'ELAN-SL' (išči)
  2. "* and death" v 'ELAN-EN' (išči)

4. Korpusno jezikoslovje v prihodnje

4.1. Količina

  • Večanje količine neposredno dostopnih besedil: "Splet kot korpus"
  • Večanje kapacitete računalnikov: Moorov zakon

4.2. Kompleksnost

  • Pogloblitev analiz:
    skladnja, deiktične strukture, skladenjske vloge (tektogramatika), pragmatika, dialog...
  • Izdelava multimodalnih korpusov:
    kombiniranje besedila, zvočnega zapisa in posnetkov
  • Povečanje večplastnosti in povezanosti:
    so-obstoj raznovrstnih oznak; notranja in zunanja povezanost oznak
  • Razvoj orodij in okolij:
    natančnost, robustnost, nenadzorovano učenje, meta-učenje

4.3. Razvoj korpusnega jezikoslovja za manjše jezike

Slovenščina: dva koraka zadaj
  • raznovrstni, kvalitetni, javno dostopni korpusi
  • tehnologija oblikoslovnega označevanja
  • skladenjsko označeni korpusi
  • aplikacija že razvitih metod
  • kurikularni razvoj...