Uvod v korpusno jezikoslovje

Tomaž Erjavec
Odsek za tehnologije znanja
Institut "Jožef Stefan"
Jamova 39
1000 Ljubljana

20. april 2004

Objavljeno na:
http://nl.ijs.si/et/talks/korpus/
http://nl.ijs.si/et/talks/korpus/korpusno.html
http://nl.ijs.si/et/talks/korpus/korpusno-slides.html

1. Pregled
- 1.1. Kaj je korpus?
- 1.2. Korpusi o korpusu
- 1.3. Področja uporabe
- 1.4. Odlike korpusa
- 1.5. Zvrstnost korpusov
- 1.6. Zgodovina
- 1.7. Stanje sedaj
- 1.8. Korpusi slovenskega jezika
- 1.9. Korpusno jezikoslovje v Sloveniji
2. Izdelava korpusov
- 2.1. Koraki v pripravi korpusa
- 2.2. Kaj lahko označimo v korpusu?
- 2.3. Metode označevanja
- 2.4. Računalniški zapis korpusa
- 2.5. Primeri TEI zapisa korpusov
3. Primeri uporabe
- 3.1. Leksika
- 3.2. Avtomatsko prevajanje
- 3.3. Konkordance na nl2.ijs.si
4. Korpusno jezikoslovje v prihodnje
- 4.1. Količina
- 4.2. Kompleksnost
- 4.3. Razvoj korpusnega jezikoslovja za manjše jezike

1. Pregled

1.1. Kaj je korpus?

korpus = corpus ?

Enciklopedija slovenskega jezika (J. Toporošič, 1992)
termina korpus ne vsebuje;
SSKJ
korpus 3. knjiž. redko zbirka "korpus srednjeveških fresk";
iskanje preko ZRC: "korpus"
The Collins English Dictionary (1986):
1. a collection or body of writings, esp. by a single author or topic.
Guidelines of the Expert Advisory Group on Language Engineering Standards, EAGLES:
Korpus: Zbirka kosov jezika, ki so izbrani in urejeni po eksplicitnih jezikoslovnih kriterijih, z namenom, da služijo kot vzorec jezika.
Računalniški korpus: korpus, ki je zapisan na standarden in enovit način za poljubne iskalne naloge.

1.2. Korpusi o korpusu

Korpus FIDA:
10 x "#1korpus"
Korpus Nova BESEDA:
643 x "korpus*" (najdeni 4 x jezikovni korpusi) (iskanje po www)
The British National Corpus, BNC
774 x "corpus"
"Korpus" Google:
4,400,000 x "corpus"
2,410 x "korpus, lang:sl"

1.3. Področja uporabe

Raziskava dejanskega jezika: deskriptivnost, performansa, empirično jezikoslovje.

Slovaropisje: pokritje in ažurnost;
enojezični slovarji, terminološki, dvojezični
Jezikoslovje: preverjanje hipotez, iskanje zakonitosti
leksika, oblikoslovje, skladnja semantika, pragramtika,...
Prevodoslovje: vir prevodov in kontekstov
pomnilniki prevodov, strojno prevajanje
Učenje jezikov: primeri iz prakse
"idiomsko poučevanje", gradnja kurikulov
Razvoj jezikovne tehnologij: podatkovne baze za induktivno učenje in testiranje
metode analize in označevanja; strojno (podprto) prevajanje: prevodne ustreznice

1.4. Odlike korpusa

avtentičnost:
korpus ustreza kriterijem, glede na katere je bil narejen
količina:
čim večji, tem boljši
kakovost:
zapis in oznake korpusa so pravilne
enostavnost:
računalniški zapis korpusa je razumljiv
dokumentiranost:
korpus je opremljen z bibliografskimi in drugimi podatki

1.5. Zvrstnost korpusov

Korpusi pisnega jezika, govorni in govorjeni korpusi (avtentičnost / cena)
npr. katalog agencije ELRA
referenčni korpusi (reprezentativnost) in korpusi podjezikov (specializiranost)
npr. BNC, ICE, COLT
celoviti in vzorčni korpusi (zgodovinski / pravni razlogi)
npr. Brown
statični in spremljevalni (monitor) korpusi (jezik v spreminjanju)
npr. Collins CoBuild WordBanks (bivši Bank of English)
enojezičnih in večjezični vzporedni in primerljivi korpusi
npr. Hansard, MLCC

1.6. Zgodovina

(Računalniško) jezikoslovne paradigme:

1950 -- 1960: empirija
šibki računalniki: frekvenčni seznami
1970 -- 1980: kognitivno modeliranje (tvorbeni pristopi, umetna inteligenca)
globina / znanost: računalniško jezikoslovje
1990 -- ...: spet empirija, tudi kombinirani pristopi
količina / uporabnost: jezikovne tehnologije
2000 -- ...: semantični splet

Razvoj korpusov:

Prvi poskusi: Brown (1 milion besed) 1964; LOB (tudi 1M) 1974
Širjenje referenčnih korpusov: Cobuild Bank of English (>100M) 1980-- ; BNC (100M) 1995; češki CNC (100M) 1998; slovenska FIDA (100M) 1998; hrvaški HNK (100M) 1999...
Projekti EU HLT pripomogli k izdelavi jezikovnih virov v '90: HLTcentral; za slovenski jezik npr. TELRI in SQEL
Posredniki korpusov: LDC 1992, ELRA 1995

1.7. Stanje sedaj

Knjige:
Corpus Linguistics by Tony McEnery and Andrew Wilson. Edinburgh: Edinburgh University Press; An Introduction to Corpus Linguistics by Graeme D. Kennedy. Studies in Language and Linguistics, London; Corpus Linguistics : Investigating Language Structure and Use by Douglas Biber, Susan Conrad, Randi Reppen. Cambridge University Press; Lingüística de Corpus by Tony Berber Sardinha, Săo Paulo, Brazil: Manole (2004).
Konference 2004:
Fourth international conference on Language Resources and Evaluation, LREC'04)
6th Teaching and Language Corpora Conference, TaLC'04; 5th International Workshop on Linguistically Interpreted Corpora; LINC'04; 5th North American Symposium of the American Association for Applied Corpus Linguistics (AAACL Symposium); 2nd Inter-Varietal Applied Corpus Studies Group International Conference; Workshop on Multimodal Corpora; Workshop on Compiling and Processing Spoken Language Corpora; Workshop on Building Lexical Resources from Semantically Annotated Corpora; Workshop on Assessing the Potential of Corpora; Workshop on XML-Based Richly Annotated Corpora; Workshop on English Linguistics and Education Through Corpora.
Učne vsebine: Univerza v Birminghamu, Univerza Stanford, Univerza v Lancastru, Univerza v Manchestru, Univerza v Koelnu,...

1.8. Korpusi slovenskega jezika

Pisni korpusi:

J. Toporišič (ur.): Besedila slovenskega jezika, 1975.
P. Tancig et al. (IJS): Napadi na JNA, 1989.
M. Hladnik et al. (FF): Literat, 1995--
P. Jakopin et al. (ZRC): TELRI 'Plato' corpus, 1998; Beseda, 1999; Nova beseda, 1999--
T. Erjavec et al. (IJS): MULTEXT-East, 1998--, ELAN, 1999--.
S. Krek et al. (DZS, Amebis, FF, IJS): FIDA, 1998--
Š. Vintar et al. (FF): TRANS, 2002

Govorjeni korpusi:

Laboratorij za digitalno procesiranje signalov, Maribor:
SpeechDat, ONOMASTICA...
Laboratorij za umetno zaznavanje, sisteme in kibernetiko, Ljubljana:
SQEL, GOPOLIS,...

1.9. Korpusno jezikoslovje v Sloveniji

Srečanja:

Konference JEZIKOVNE TEHNOLOGIJE 2004, 2002, 2000, 1998
13. mednarodni slavistični kongres Tematski blok "Corpus Linguistics for Slavic Languages", 17. avgust 2003, Cankarjev Dom, Ljubljana.
5th TELRI Seminar: Corpus Linguistics: How to Extract Meaning from Corpora
22. - 24. septembra 2000, Filozofska Fakulteta, Ljubljana.
EAMT 2000: European Association for Machine Translation Workshop
10. - 12. maja 2000, Austrotel, Ljubljana.
Workshop on Language Technologies - Multilingual Aspects
8. - 9. julija 1999, FF, Ljubljana
ICML'99: 16th Int. Conference on Machine Learning
30. junija 1999, Bled
- Workshop on Machine Learning in Text Data Analysis
- Learning Language in Logic (LLL) Workshop

Učne vsebine (FF, Univerza v Ljubljani):

Izbirni predmet za filologe na FF: Besedilo in računalniki
Oddelek za splošno in primerjalno jezikoslovje
Oddelek za prevajanje in tolmačenje, FF, Univerza v Ljubljani (Š. Vintar)

2. Izdelava korpusov

2.1. Koraki v pripravi korpusa

Izbira besedilnega fonda:
jezikoslovni kriteriji; dostopnost; enostavnost; velikost
Avtorske pravice
občutljivost vira; avtorizacija; uporaba; objava
Shranjevanje digitalnih originalov
fizični prenos
Pretvorba v enoten format
oblika in konsistentnost vira; nabori znakov
Jezikovno označevanje
jezikovno odvisne metode; napake
Dokumentiranje
...
Uporaba / Prenos
mrežni konkordančnik; lokalne analize; gradnja modelov; licenčne pogodbe; posredniške hiše

2.2. Kaj lahko označimo v korpusu?

Označevanje = interpretacija

Dokumentacija o korpusu (primer)
Zgradbo besedila (primer)
Osnovno jezikoslovni podatki: povedi, besede (primer), ločila, okrajšave (primer)
Oblikoslovne podatke in osnovne oblike besed
Skladnjo (primer iz korpusa Negra, primer iz SDT)
Poravnave (primer)
Termine, kazalke, pragmatiko, intonacijo,...

2.3. Metode označevanja

ročno, npr. dokumentacija, prve oblikoslovne oznake
urejevalnik XML; namenski urejevalniki
polavtomatsko: oblikoslovne in druge jezikoslovne oznake
cikličen pristop: ročno, strojno, validacija
strojno, z ročno napisanimi pravili: tokenizacija
uporaba platform temelječih na regularnih izrazih
z modeli, avtomatsko naučenimi iz označenih korpusov: oblikoslovno označevanje
"supervised learning"; skrite markovske verige, induktivno logično programiranje
z modeli, naučenimi iz neoznačenih korpusov: poravnave
"unsupervised leaning"; apriorne hevristike, clustering
dober pregled področja

2.4. Računalniški zapis korpusa

Dober zapis mora zagotoviti trajnost, dokumentiranost, dostopnost, izmenljivost:

Za definiranje osnovnega zapisa služi standard Extended Markup Language, XML
XML ima pridruženo skupino standardov / orodij, ki definirajo in omogočajo transformacije (XSLT), pravilnost zapisa (DTD, XML Schema, ISO Relax BG), poizvedovanje (XPath, XQuery), ...
Nabor oznak za označevanje korpusov (in drugih jezikovnih virov) definirajo mednarodna priporočila Text Encoding Initiative, TEI

XML/TEI tehnogije so uporabna še dosti širše kot samo za korpuse:

dokumentacija: pričujoče prosojnice, kot izroček, ali v izvornem XML
za označevanje slovarjev: angleško-slovenski, japonsko-slovenski
za zapis tekstnokritičnih del

2.5. Primeri TEI zapisa korpusov

Zapis glave:

<teiHeader
  id="ecmr.H"
  type="text"
  lang="sl-en"
  creator=ET
  status="update"
  date.created="1999-04-13"
  date.updated="1999-06-22"
>
<fileDesc>
 <titleStmt>
  <title lang="sl">Ekonomsko ogledalo; 13 &scaron;tevilk 98/99</title>
  <title lang="en">Slovenian Economic Mirror; 13 issues, 98/99</title>
  <respstmt>
   <name>Andrej Skubic, FF</name>
   <resp lang="sl">Zagotovitev digitalnega originala, poravnava</resp>
   <resp lang="en">Provision of digital original, alignment</resp>
   <name>Toma&zcaron; Erjavec, IJS</name>
   <resp lang="sl">Tokenizacija, pretvorba v TEI</resp>
   <resp lang="en">Tokenisation, conversion to TEI</resp>
  </respStmt>
 </titleStmt>
...

Struktura besedila:

<quote id="Osl.1.8.18" rend="center;it">
  <lg id="Osl.1.8.18.1">
    <l id="Osl.1.8.18.1.1">Tam pod kostanjevim drevesom</l>
    <l id="Osl.1.8.18.1.2">izdala si me,</l>
    <l id="Osl.1.8.18.1.3">izdal sem te,</l>
    <l id="Osl.1.8.18.1.4">ne da bi trenila z očesom.</l>
  </lg>
</quote>
<p id="Osl.1.8.19">
  <s id="Osl.1.8.19.1">Trije možje se niso niti ganili.</s>
  <s id="Osl.1.8.19.2">Toda ko je <name>Winston</name> znova
pogledal v Rutherfordov propadli obraz, je opazil, da so njegove oči
polne solz.</s>
...

Oblikoslovno označevanje:

<s id="Osl.1.2.2.1">
<w lemma="biti" ana="Vcps-sma">Bil</w>
<w lemma="biti" ana="Vcip3s--n">je</w>
<w lemma="jasen" ana="Afpmsnn">jasen</w><c>,</c>
<w lemma="mrzel" ana="Afpmsnn">mrzel</w>
<w lemma="aprilski" ana="Aopmsn">aprilski</w>
<w lemma="dan" ana="Ncmsn">dan</w>
<w lemma="in" ana="Ccs">in</w>
<w lemma="ura" ana="Ncfpn">ure</w>
<w lemma="biti" ana="Vcip3p--n">so</w>
<w lemma="biti" ana="Vmps-pfa">bile</w>
<w lemma="trinajst" ana="Mcnpnl">trinajst</w><c>.</c>
</s>

<fs id="Vcps-sma" select="sl" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a"/>
<fs id="Vcps-sman----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.n V13.n"/>
<fs id="Vcps-smay----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.y V13.n"/>
<fs id="Vcps-sna" select="sl" feats="V0. V1.c V2.p V3.s V5.s V6.n V7.a"/>
<fs id="Vcps-snan----n" select="cs" feats="V0. V1.c V2.p V3.s V5.s V6.n V7.a V8.n V13.n"/>

<fLib type="Verb">
<f id="V0."  select="en ro sl cs bg et hu hr sr sl-rozaj" name="PoS"><sym value="Verb"/></f>
<f id="V1.m"  select="en ro sl cs bg et hu hr sr sl-rozaj" name="Type"><sym value="main"/></f>
<f id="V1.a"  select="en ro sl cs bg et hu hr sr sl-rozaj" name="Type"><sym value="auxiliary"/></f>
<f id="V1.o"  select="en ro sl cs et hr sr sl-rozaj" name="Type"><sym value="modal"/></f>
<f id="V1.c"  select="ro sl cs hr sr sl-rozaj" name="Type"><sym value="copula"/></f>
<f id="V1.b"  select="en" name="Type"><sym value="base"/></f>

Poravnava:

<linkGrp id="Oslen.1" type="body" targtype="s" domains="Oen Osl">
  <link xtargets="Osl.1.2.2.1 ; Oen.1.1.1.1">
  <link xtargets="Osl.1.2.2.2 ; Oen.1.1.1.2">
  <link xtargets="Osl.1.2.3.1 ; Oen.1.1.2.1">
  <link xtargets="Osl.1.2.3.2 ; Oen.1.1.2.2">
...
  <link xtargets="Osl.1.2.6.5 ; Oen.1.1.5.5">
  <link xtargets="Osl.1.2.6.6 ; Oen.1.1.5.6 Oen.1.1.5.7">
  <link xtargets="Osl.1.2.6.7 ; Oen.1.1.5.8">
...

3. Primeri uporabe

3.1. Leksika

Konkordance in kolokacije
“You shall know a word by the company it keeps.” (Firth, 1957)
Indukcija večjezičnih slovarjev:
- D. Tufiş, Ana-Maria Barbu: Revealing translators knowledge: statistical methods in constructing practical translation lexicons for language and speech processing, in International Journal on Speech Technology, Vol.5, No. 3, 2002 Kluwer Pbls.
- Nancy Ide, Tomaž Erjavec and Dan Tufiş: Sense Discrimination with Parallel Corpora, in Proceedings of the SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. ACL2002, July Philadelphia 2002, pp. 56-60.
Avtomatsko zgrajeni 7-jezični slovar '1984' korpusa EU projekta MULTEXT-East:
prvih 100 vnosov

3.2. Avtomatsko prevajanje

VIČIČ, Jernej, ERJAVEC, Tomaž. Statistično strojno prevajanje na osnovi vzporednih korpusov. ERK 2002, 23.-25. 2002.

Prevajalnik Menola

Slovenska poved: evropi vlada veliki brat
Prevod ELAN:     europe government big brother
Prevod Biblija:  evropi brother chief upright .
Prevod češko:    evropi vláda velké bratr .

3.3. Konkordance na nl2.ijs.si

Na nl.ijs.si sta trenutno dva vmesnika:

Megleno iskanje in regularni izrazi:

Iskanje niza "hoditi" (išči)
Iskanje niza "hodi.*" (išči)
Iskanje niza ".*hodi.*" (išči)
Iskanje niza "[bcčdfghjklmnprsštvzž]{5,}" (išči)

Prikaz rezultatov:

".*hod.*" kot frekvenčni seznam (išči)
"prihodki" kot KWIC (išči)
"prihodki" dvojezično (išči)

Dvojezično iskanje:

"prihodki" in "income" (išči)
"prihodki" in ne "income" (išči)
"community" in ne "skupnost" (išči)

Besede, leme in oznake:

Beseda "iti" v '1984' (išči)
Lemma "iti" v '1984' (išči)
Lemma "iti" v '1984' kot seznam zadetkov (išči)

Vpliv izbire korpusa:

"šel" v '1984' (išči) v 'VAYNA' (išči) v 'GORE' (išči)
"okrevanje" v 'ELAN-SL' (išči) in "sožitje" (išči)

Večbesedna iskanja in kolokacije:

"star* mam*" v 'ELAN-SL' (išči)
"* and death" v 'ELAN-EN' (išči)

4. Korpusno jezikoslovje v prihodnje

4.1. Količina

Večanje količine neposredno dostopnih besedil: "Splet kot korpus"
Večanje kapacitete računalnikov: Moorov zakon

4.2. Kompleksnost

Pogloblitev analiz:
skladnja, deiktične strukture, skladenjske vloge (tektogramatika), pragmatika, dialog...
Izdelava multimodalnih korpusov:
kombiniranje besedila, zvočnega zapisa in posnetkov
Povečanje večplastnosti in povezanosti:
so-obstoj raznovrstnih oznak; notranja in zunanja povezanost oznak
Razvoj orodij in okolij:
natančnost, robustnost, nenadzorovano učenje, meta-učenje

4.3. Razvoj korpusnega jezikoslovja za manjše jezike

Slovenščina: dva koraka zadaj

raznovrstni, kvalitetni, javno dostopni korpusi
tehnologija oblikoslovnega označevanja
skladenjsko označeni korpusi
aplikacija že razvitih metod
kurikularni razvoj...