next up previous contents
Naprej: Procesiranje korpusov Navzgor: Računalniške zbirke besedil Nazaj: Uvod

Standardi in označevanje korpusov

Računalniški korpusi besedil so dragoceni viri jezikovnih podatkov tako zaradi mnogoterih možnih uporab kot zaradi količine dela, ki ga je potrebno vložiti v njihovo izgradnjo. Ko to premoženje imamo, je smiselno omogočiti (1) njegovo čim širšo uporabo (tj.  izmenljivost) in (2) ga zavarovati pred zastaranjem.

Na prvi pogled ravno računalniki zadovoljujejo ti dve želji, saj je razmnoževanje računalniških podatkov, za razliko od ostalih dobrin, praktično zastonj, digitalna informacija pa ne podleže zobu časa. Vendar morajo biti računalniški zapisi podrobno definirani, obenem pa so računalniki predmet bliskovitega tehnološkega razvoja. Zaradi tega se izkaže, da imajo besedila, hranjena na računalniških medijih, zaenkrat bistveno manjšo izmenljivost in trajnost kot pa tiskana besedila.

Problemi digitalnega zapisa besedil se začnejo že pri zapisu črk. Popolna računalniška podpora in soglasje o naborih znakov obstaja samo za angleško abecedo, medtem ko bomo v Sloveniji našli deset načinov kako so na računalnikih zapisani č, š in ž. Ker se vedno več besedil, ki sestavljajo korpus, zajema neposredno iz digitalnih virov, je problem različnih formatov dokumentov še posebej pereč; če se razlikujejo že zapisi črk, so toliko bolj različni načini zapisa odstavkov, premega govora, naslovov, opomb, bibliografskih podatkov, itd. Razlikujejo se glede na programsko opremo, s katero je bilo besedilo narejeno, po videzu, kakršnega naj bi imelo tiskano besedilo, in glede na osebo, ki je besedilo napisala. Vendar so vsi ti podatki v korpusu vsaj potencialno pomembni, saj tvorijo del besedil, ki jih hočemo zajeti. Če v korpusu niso enotno in prepoznavno označeni, bo ta informacija izgubljena za uporabnike korpusa.

Četudi nam uspe pri izgradnji korpusa to zmedo na našem računalniku v lastno zadovoljstvo urediti, bodo na drugih računalnikih z drugimi operacijskimi sistemi in drugimi programi podatki vseeno neuporabni ali pa bodo vsaj zahtevali veliko truda za njihovo konverzijo v cilnji zapis. V primeru, da korpus še dodatno označimo (npr.  s skladnjo, prevodi, leksikografskimi podatki), bo problem seveda še bistveno hujši. Izmenljivost takšnih zapisov je majhna.

Podobno majhna je tudi trajnost računalniških podatkov: besedila na petnajst let starem magnetnem traku so danes težko uporabna, podobno tudi besedila, napisana na urejevalniku teksta iz tistega časa. Ne enih ne drugih danes ne moremo več brati ali pa je v to potrebno vložiti precej truda.

Edino standardizacija lahko reši problem izmenljivosti in trajnosti digitaliziranih besedil. Poglavje v nadaljevanju obravnava tri nivoje tega procesa. Z osnovno in najbolj natančno definirano stopnjo računalniškega zapisa strukture besedil se ukvarja standard SGML (Standard Generalized Markup Language) mednarodne organizacije za standardizacijo ISO (International Organization for Standardization). Z zapisom in konkretnim označevanjem strukture besedil predvsem za namene znanstvene obravnave jezika se ukvarjajo s SGML skladna priporočila iniciative za označevanje besedil TEI (Text Encoding Initiative). Konkretno obliko zapisa računalniških korpusov za namene jezikovnih tehnologij pa podaja s TEI skladen zapis z imenom CES (Corpus Encoding Standard), ki nastaja oz. je nastajal v okviru evropske iniciative Eagles ter projektov MULTEXT in MULTEXT-East.

SGML: Standardni posplošeni jezik za označevanje

SGML (Standard Generalised Markup Language) [Gol90] je ISO standard 8879, ki določa jezik za predstavitev dokumentov, nad katerimi bodo delovali programi za procesiranje besedil. Razlogi za izdelavo tega standarda so bili deloma omenjeni že zgoraj. V razvitih državah podjetja porabijo veliko časa in s tem denarja za iskanje in pripravo informacij, ki so pretežno besedila. Zato prihaja do potrebe po načinu zapisa, ki bo izmenljiv, odporen na tehnološke spremembe in ki bo omogočal uporabo dokumentov v različne namene. SGML je poskus takšnega zapisa.

SGML je prvenstveno jezik za označevanje dokumentov, pri čemer lahko oznake opisujejo kakršnokoli informacijo, ki je dodana osnovnemu besedilu, npr.  podatek, da je neki niz v besedilu naslov, ime ali beseda, da je neka beseda glagol, da ima neki termin povezavo s svojo razlago, da neki stavek spremlja slika ali njegov prevod in da neki monolog govori Hamlet v prvem dejanju neke tragedije.

SGML se glede na ostale jezike za označevanje dokumentov odlikuje v treh karakteristikah:

Poudarek na opisnem namesto postopkovnem označevanju

Za razliko od mnogih drugih formatov zapisa besedil (npr.  Microsoftov RTF) so oznake SGML namenjene opisu lastnosti besedila, ki ga zajemajo, ne pa postopku, ki te lastnosti realizira na konkretnem mediju: oznaka npr.  pove, da del besedila, ki ga zajema, predstavlja odstavek, ne pa, da je potrebno izpustiti prazno vrstico in za določeno mero zamakniti začetek naslednje vrstice. Opisno označeni podatki imajo to prednost, da vsebujejo informacije v bolj prečiščeni obliki in jih je zato lažje uporabiti v različne namene. Tako je en sam dokument (npr.  slovar knjižnega jezika ali pa komplet tehničnih priročnikov) uporaben za izdajo v knjižni ali pa multimedialni CD-ROM obliki.

Koncept tipa dokumenta

SGML bi lahko poimenovali tudi jezik za metaoznačevanje dokumentov, saj standard ne spregovori besede o tem, katere oznake moramo uporabljati in v kakšnih odnosih so te oznake med seboj. Namesto tega vpelje SGML pojem tipa dokumenta in z njim formalno definicijo tipa dokumenta DTD (Document Type Definition). Šele DTD konkretno določa, kako mora biti nek dokument strukturiran in kako izgledajo njegove oznake. Nek DTD tako predstavlja gramatiko za določen tip dokumentov, npr.  za knjige, tabele, terminološke slovarje, scenarije, itd. Takšen pristop omogoča široko aplikacijo standarda, saj tako lahko pokriva dokumente z izrazito različno strukturo. Verjetno je, vsaj posredno, najbolj znana definicija tipa dokumenta tista za HTML (Hypertext Markup Language), ki jo morajo upoštevati vse pravilno narejene strani svetovnega omrežja WWW (World Wide Web).

Neodvisnosti od konkretnega zapisa besedil

Eden od osnovnih ciljev SGML je, da so v njem zapisani podatki, prenosljivi z ene strojne in programske opreme na drugo brez izgube informacije. SGML zato vsebuje splošen mehanizem za nadomeščanje nizov ob procesiranju dokumenta. Z entitetami SGML je mogoče preseči neskladnosti in pomanjkljivosti v naborih znakov različnih specifičnih računalniških sistemov, saj lahko za neprenosljive znake definiramo opisna imena, tj.  entitete.

*

Prostor tu ne dopušča obširnejše obravnave standarda SGML. Naj zadošča opomba, da v tujini vedno več podjetij, ki imajo opravka z velikimi količinami besedil (npr.  proizvajalci opreme za svojo dokumentacijo, založniki, knjižnice itd.), prehaja na ta standard, obstaja pa tudi že kar nekaj podjetij, predvsem v ZDA in Zahodni Evropi, ki se ukvarjajo izključno s SGML, bodisi z izdelovanjem programske opreme ali pa, pogosteje, z omogočanjem končnim uporabnikom, da preidejo na ta standard. V Sloveniji zaenkrat še ni zaslediti aplikacij tega standarda ali pa njegove obravnave v literaturi; izjema je edino WWW stran V. Batagelja, ki podaja uvod v SGML [Bat95].

TEI: Iniciativa za zapis besedil

TEI (Text Encoding Initiative) [IV95] se je začela na konferenci, ki je bila leta 1987 na Vassar College v New Yorku. Tam se je zbralo okoli trideset predstavnikov arhivarstva, znanstvenih ustanov ter raziskovalnih projektov, da bi obravnavali možnost izdelave standardnega zapisa besedil in da bi podali priporočila o njegovem obsegu, strukturi, vsebini in načinu izdelave. O zaželjenosti takšne pobude priča, da je TEI dobil podporo vseh najvplivnejših strokovnih združenj s področja računalniške obravnave besedil kot tudi s strani ameriške vlade in evropske unije. TEI je prvi osnutek svojih priporočil (TEI P1) izdal leta 1990, drugega pa leta 1992. Medtem ko sta bila tako P1 kot P2 še osnutka, predstavlja leta 1994 izdan TEI P3 [SMB94] zaključek prve faze dela TEI.

TEI je kot osnovo svojega zapisa vzel SGML. TEI P3 je nabor definicij tipov dokumentov in entitet, ki za široko paleto zvrsti besedil določa konkretne oznake in njihovo strukturo. Skorajda bolj pomembnih pa je 1200 strani dokumentacije, ki podaja pomen posameznih oznak, opisuje DTD-je ter izpelje način za njihovo kombiniranje ter nadgradnjo.

TEI P3 pozna tri vrste naborov oznak, ki jih sestavljamo v t. i.  modelu Chicago pizze. Vsaka pizza ima dve nujni sestavini: paradižnik in sir. Podobno TEI loči središčne oznake ('core tags'), ki so obvezne v vseh, s TEI skladnih dokumentih. Središčne oznake določajo definicijo naborov znakov, oznake, ki so na voljo v vseh TEI dokumentih (npr.  oznake za naslove in odstavke) ter glavo dokumenta, ki vsebuje bibliografske podatke o dokumentu.

Vsaka pizza ima tudi testo kot osnovo, vendar se njegova zvrst (vsaj v Chicagu) lahko izbere: lahko je tanko in hrustljavo, lahko debelo in mehko, ne pa more biti oboje hkrati. Podobno se tudi besedila delijo na različne zvrsti, ki so med seboj razmeroma dobro ločene. Osnovni nabori oznak ('base tag sets') v TEI P3 obsegajo osnovne nabore za leposlovje, poezijo, gledališče, zapis govora, tiskane slovarje ter terminološke baze.

Končno imajo pizze lahko tudi več dodatkov, npr.  šunko in gobice, TEI pa dodatne nabore oznak ('additional tag sets'). Ti opisujejo raznovrstna dodatna označevanja, ki predstavljajo določeno interpretacijo besedila ali pa netekstualne elemente besedil, kot so navzkrižne povezave (za stvarna kazala) ali pa slike. Takih naborov je vsega skupaj devet, med njimi so nabor za analitične mehanizme (npr.  skladenjsko analizo), nabor za dokumentiranje uredniških posegov, nabor za imena in datume in končno tudi nabor za jezikovne korpuse.

figure89
Slika: Primera TEI označenih dokumentov

Za konec poglejmo v sliki 1 še primera dveh delov dokumentov, ki sta zapisana v standardu SGML in skladno s priporočili TEI. Na levi je primer besedila, označenega s skladenjsko analizo, na desni pa del glave dokumenta, ki bi bila uporabna za zapis radijskih poročil. Bralec bo opazil, da so TEI oznake angleške: čeprav je v TEI obliki možno strukturirati zapis poljubnega jezika, ostaja metajezik zapisa angleški.

Vsi veliki korpusi, izdelani v zadnjih nekaj letih, so če že ne dosledno sledili, pa vsaj upoštevali TEI priporočila, saj so le-ta najbolj podrobna in natančna določila za označevanje jezikovnih virov.

CES: Standard za zapis korpusov

Kljub temu, da TEI P3 podaja tudi določila za zapis korpusov, so ta po eni strani za določene namene preveč kompleksna, po drugi pa v določenih podrobnostih tudi še pomanjkljiva. V okviru iniciative Evropske unije Eagles in evropskih projektov MULTEXT ter MULTEXT-East je v izdelavi SGML definicija tipa dokumenta z imenom CES (Corpus Encoding Standard) [IPDV96]. CES je v veliki meri skladen s priporočili TEI, vendar je enostavnejši in bolj ekspliciten, saj je njegova specifična domena opis večjezikovnih korpusov predvsem za namene jezikovnih tehnologij.

CES določa osnovni zapis in obseg označevanja, ki ga mora korpus zadovoljiti, da ga lahko še smatramo za standardiziranega. CES opredeli tri nivoje take standardizacije, kjer vsak višji nivo dodatno standardizira korpus:

  1. CES-1 dokument ima s TEI skladno glavo, tj. bibliografske in ostale podatke o korpusu, telo dokumenta pa je označeno, v skladu s CES-definicijo dokumenta, z osnovno strukturo, tj. z glavnimi razdelki besedila do nivoja odstavkov.
  2. CES-2 dokument ustreza nivoju CES-1, poleg tega pa vsebuje TEI oznake, na katere se lahko sklepa iz tipografskih informacij v originalnem besedilu: premi govor, imena, številke, datumi itd.
  3. CES-3 dokument mora vsebovati CES-2 oznake, poleg tega pa ustreza dodatnim zahtevam za označevanje stavkov in premega govora. Vse izključno tipografske informacije so odstranjene iz besedila in kvečjemu ohranjene kot vrednosti atributov.
  4. Nivo jezikovnega označevanja: poleg osnovnih nivojev je korpus možno tudi dodatno označiti z jezikovnimi informacijami. CES obravnava dvoje takšnih označevanj, in sicer oblikoslovno označevanje besed in pa zapis poravnav v vzporednem korpusu, tj. zapis poravnave nekega elementa v originalu z njegovim prevodom.

next up previous contents
Naprej: Procesiranje korpusov Navzgor: Računalniške zbirke besedil Nazaj: Uvod

Tomaž Erjavec