next up previous contents
Naprej: Standardi in označevanje korpusov Navzgor: Računalniške zbirke besedil Nazaj: Kazalo

Uvod

Korpus je zbirka besedil, ki so izbrana tako, da karakterizirajo stanje ali raznovrstnost nekega jezika. Uporaben je kot osnova, na kateri gradimo opise jezika, ali pa kot sredstvo za preverjanje hipotez o jeziku. Korpusi so dandanes že standardno shranjeni na računalnikih, saj ti po eni strani omogočajo kompaktno in poceni hranjenje ter razpečevanje ogromnih količin besedil, po drugi strani pa ta besedila lahko z njimi bolj učinkovito izkoriščamo. Uporabnost nekega korpusa je odvisna od njegove velikosti pa tudi urejenosti, tj., kako podrobno je dokumentiran in označen, ter standardiziranosti njegovega zapisa.

Veja jezikoslovja, ki je korpuse tradicionalno uporabljala, je leksikografija; pri izdelavi slovarjev metode introspekcije ne zadoščajo in se je nujno opreti na govor (parole). V formalnem in računalniškem jezikoslovju ta pristop ni nujno edini.

Nekaj zgodovine

Računalniški korpusi in (predvsem kvantitativne) obravnave le-teh so bile popularne že v petdesetih in šestdesetih letih, nato pa so doživele zaton, predvsem zaradi velikega vpliva teorij N. Chomskega. Pretvorbeno-tvorbena slovnica in njene naslednice namreč jemljejo kot predmet preučevanja ``notranji jezik'', tj. človeško sposobnost produkcije jezika. Kriterij za ustreznost primerov, ki jih ti pristopi obravnavajo, je občutek govorcev o njihovi pravilnosti. Zbirke jezika so tako manj zanimive, saj vsebujejo napake in moteče elemente, po drugi strani pa relativno malo teoretično zanimivih primerov. Ne samo v formalnem, temveč tudi v računalniškem jezikoslovju je od konca šestdesetih in približno do sredine osemdesetih let v ospredju zanimanje za formalizacije jezika, ki temeljijo na pravilih in udejanjajo idealizirano znanje govorcev jezika.

Faktorjev, ki so v osemdesetih letih vplivali na ponovni prodor empirično podprtega jezikoslovja, je več. Programi za skladenjsko analizo so sicer lahko minuciozno razčlenili neki točno določen stavek, vendar pa so dosegali zelo slabe rezultate na odprtem besedilu. Razlog za to je bil predvsem v premajhnem pokritju njihovih slovarjev in pravil, pri čemer pa je izdelava teh podatkov izredno zamudno, pa tudi zahtevno delo. Ta problem, t. i.  ``knowledge acquisition bottleneck'', je tipičen ne samo za računalniško jezikoslovje, pač pa za večino področij umetne inteligence. Postalo je jasno, da je za napredek tega področja potrebno začeti zajemati vire informacij o domeni obravnave (npr.  o onesnaženosti jezer ali diagnozah bolnikov) in se na njihovi osnovi (pol)avtomatsko učiti zakonitosti, ki v tej domeni vladajo. V računalniškem jezikoslovju so takšni jezikovni viri še posebej kompleksni in je njihovo zbiranje temu primerno težje, s čimer postane tudi rezultat toliko pomembnejši. Zbiranje se je osredotočilo na bolj ali manj formalno zapisane računalniško berljive slovarje, predvsem pa na korpuse kot osnovne vire jezika.

Obenem je nova generacija programov, ki temeljijo na statističnih zakonitostih besedila, pokazala obetavne rezultate. Ti programi so po svoji naravi sicer nepopolni, so pa bolj robustni in imajo v povprečju precej večje pokritje od simboličnih pristopov, poleg tega pa se lahko učijo iz primerov. Lažje je ročno označiti neko besedilo, na katerem se bo program učil, kot pa pisati pravila, ki naj bi te označbe zagotovila. Poleg tega je ročno označen ali pregledan jezikovni vir lahko koristen tudi v druge namene, ročno napisana pravila pa uporabna samo skupaj s programom, za katerega so bila napisana.

To nas pripelje do pomembne razlike med računalniškimi korpusi petdesetih let in sedanjimi korpusi. V pedesetih letih so bila besedila tipično zbrana za neki povsem določen namen in v formatu, ki ga je podpirala programska oprema, ki naj bi besedilo obdelala. Ker jezikovni viri danes pomenijo dragoceno blago, ki ga je potrebno ohraniti pa tudi širiti, se v njihovo izdelavo vlaga več truda, zapisuje pa se jih v skladu z mednarodnimi standardi in priporočili.

Nenazadnje je bliskoviti dvig količine in kvalitete računalniških korpusov pripisati tudi tehnološkemu napredku na področju računalništva in z njim spremembi glavne namembnosti računalnikov. Računalniki se vedno bolj uporabljajo kot orodje za procesiranje besedil, s čimer postajajo t. i.  jezikovne tehnologije profitno področje, obenem pa se začenja vprašanje ``računalniške pismenosti'' nekega jezika povezovati z njegovo identiteto. Programi, ki naj bi pomagali pri pripravi, izmenjevanju, urejanju, predstavitvi in dostopu do jezikovnih informacij za neki jezik, tipično potrebujejo urejene vire znanja o tem jeziku. Do takšnih virov najlaže pridemo s pomočjo besedilnih zbirk. Obenem je vse več besedil dostopnih neposredno na računalnikih in jih je temu primerno lažje pretvoriti v korpus.

V ilustracijo napredka računalniških korpusov lahko primerjamo velikost prvega označenega referenčnega korpusa z današnjimi korpusi (britanske) angleščine. Korpus LOB (Lancaster-Oslo/Bergen) [GLS87], izdelan leta 1986, je vseboval milijon besed, korpus BNC (British National Corpus) izdelan leta 1994, pa sto milijonov besed -- v tiskani obliki bi ta besedila zavzela približno deset metrov polic. Na količino korpusov in zanimanje zanje kaže tudi ustanovitev ``posredniških hiš' za korpuse in druge jezikovne vire. Tako je bil leta 1992 v Združenih Državah z vladno podporo ustanovljen Linguistic Data Consortium, ki združuje v svoji ponudbi preko štirideset pisnih in govorjenih korpusov ter slovarskih baz. Pred nedavnim je tej pobudi sledila tudi Evropska unija s financiranjem ustanovitve organizacije ELRA (European Linguistic Resources Association).

Količina in raznovrstnost jezikovnih virov je seveda največja za anlgeški jezik. V zadnjih desetih letih je bilo mnogo takšnih virov, na prvem mestu korpusov, izdelanih tudi za jezike Evropske unije, k čemer so v veliki meri prispevale tudi iniciative Evropske unije. Za jezike vzhodno- in srednjeevropskih držav je stanje slabše in obenem precej raznovrstno. Določene države imajo na področju (računalniškega) jezikoslovja že dolgo tradicijo (npr.  Češka in Madžarska), kar se odraža tudi v stanju njihove jezikovne infrastrukture. Tako imajo npr.  na filozofski fakulteti v Pragi že oddelek, katerega edina naloga je zagotoviti 20 milijonov besed velik referenčni korpus, ki bo nato podlaga novemu slovarju češkega jezika.

V Sloveniji dostopnih in obenem standardiziranih jezikovnih virov še nimamo. Edini javni referenčni korpus slovenskega jezika [Top75] je precej majhen, obstaja samo v knjižni obliki in je star dvajset let. Svetla izjema temu stanju so na WWW objavljena besedila slovenskih klasikov [Hla], ki imajo prednost, da so dostopna in že do precejšnje mere urejena, ravno tako pa, glede na svojo starost, večinoma ne podležejo več zakonu o avtorskih pravicah. Vendar pa ravno zaradi starosti besedil ne podajajo slike sodobnega slovenskega jezika. Dosti slovenskih besedil, ki bi bila lahko osnova za korpuse, obstaja seveda tudi v računalniški obliki, vendar pa niso standardizirana, predvsem pa je njihova dostopnost omejena na institucije, ki so jih proizvedle (npr.  založbe, časopisne hiše), ali pa na institucije, ki so sodelovale v njihovi pripravi.

Tipologija korpusov

S širjenjem računalniških korpusov se je pojavila tudi potreba po ovrednotenju ter razvrstitvi korpusov. Z opisom karakteristik, s katerimi lahko neki korpus ovrednotimo, in z definiranjem zvrsti korpusov, ki jih je med seboj smiselno razlikovati, se je ukvarjala skupina za tipologijo korpusov pri evropski iniciativi Eagles (Expert Advisory Group for Language Engineering).

Po tipologiji Eagles [Sin94] so karakteristike nekega korpusa naslednje:

Zvrsti korpusov pa so:

Uporabnost

In kje so korpusi pravzaprav uporabni? Najbolj evidentno področje je seveda slovaropisje. Prvi slovar, izdelan izključno na osnovi računališkega korpusa, je bil Colinsov CoBuild English Language Dictionary iz leta 1987 [Sin87]. Danes je uporaba računalniških korpusov v angleških leksikografskih hišah že standardna, posebej še za specializirane slovarje. Tako npr.  v Cambridge University Press pri izdelavi učnega špansko-angleškega slovarja uporabljajo korpus popravljenih nalog španskih učencev angleščine, saj le-te najbolje pokažejo na tipične napake, na katere lahko slovar potem opozori.

Uporaba korpusov je še posebej zanimiva za dinamična in z gospodarstvom neposredno povezana področja jezika, kot je terminologija. V korpusih lahko odkrijemo že uporabljene termine, njihove prevode ali razlage, s čimer je omogočeno bolj ažurno in cenejše izdelovanje slovarjev.

Ena prvih možnih uporab korpusa je za raznovrstne (formalne, socialne, literarne) jezikoslovne študije, predvsem za preverjanje teorij o jeziku skozi iskanje distribucije in konkretnih primerov izbranih pojavov. To velja toliko bolj za jezikovno ali kako drugače označene korpuse. V primerjavi z neobdelanim besedilom lahko v označenem korpusu iščemo bistveno bogatejše vzorce. Tako bi npr.  za skladenjske raziskave bil zanimiv korpus, v katerem so besede oblikoslovno označene, za sociolingvistične pa npr.  korpus, kjer je premi govor označen s spolom govorca.

Nenazadnje so računalniški korpusi pomembni za razvoj področja jezikovnih tehnologij, pa če so to pripomočki za avtorje, učenje jezikov ali prevajanje, programi za analizo in sintezo govora itd. Vsi takšni programi potrebujejo 'zavest' o jeziku, pri katerem naj bi bili v pomoč, tj. potrebujejo računalniške jezikovne vire: slovarje, pravila in distribucije elementov določenega jezika. Mnogo teh virov je mogoče (pol)avtomatsko zajeti iz korpusov.


next up previous contents
Naprej: Standardi in označevanje korpusov Navzgor: Računalniške zbirke besedil Nazaj: Kazalo

Tomaž Erjavec