Priporočila za oblikoslovno označevanje JOS

1. Ozadje

Gor: Vsebina Naslednji: 2. Definicije oblikoskladenjskih kategorij

Pričujoče specifikacije definirajo nabor oblikoskladenjskih lastnosti in njihovo preslikavo v oblikoskladenjske oznake, ter podajo seznam oblikoskladenjskih oznak, primernih za označevanje besednih pojavnic v slovenskih besedilih. Predlog je skladen s priporočili MULTEXT-East V4 za slovenski jezik, pri čemer je bila prejšnja verzija teh priporočil, MULTEXT-East V3 med drugim uporabljena za oblikoskladenjsko označevanje korpusov Fida in FidaPLUS.

Oblikoskladenjske specifikacije MULTEXT(-East) temeljijo na delu skupine EAGLES in določajo strukturo in vsebino veljavnih oblikoskladenjskih oznak ali MSD-jev (morpho-syntactic descriptions). Specifikacije za vsak posamezen jezik opredelijo, katere so veljavne oznake in kaj pomenijo. Tako na primer določajo, da je niz
Sometn
veljaven MSD za slovenščino, in da je ekvivalenten naboru naslednjih lastnosti:
samostalnik, vrsta = občni, spol = moški, število = ednina, sklon = tožilnik, živost = ne
Ker je slovenščina oblikoskladenjsko izjemno bogat jezik z velikim številom lastnosti pri pregibnih besednih vrstah, je število veljavnih oznak precej večje kot pri večini zahodnoevropskih jezikov – okoli 1.900.
Izhodišče pri odločanju o prenovi nabora oznak MULTEXT-East V3 je bila ocena, da osnovni način formalnega zapisa in struktura oznak dobro služi svojemu namenu, da pa prihaja do težav pri določenih lastnostih in njihovih vrednostih, predvsem pri nekaterih dovoljenih kombinacijah lastnost-vrednost, ter pri pripisovanju nekaterih MSD-jev določenim lemam in oblikam. Nadaljnja težava, tokrat celotnega nabora priporočil MULTEXT-East, je razvrstitev lastnosti v črkovni niz MSD-jev. Ker specifikacije veljajo za celo vrsto različnih jezikov, tiste lastnosti, ki so značilne samo za določen jezik, končajo na koncu črkovnega niza s praznimi mesti pri lastnostih, ki jih jezik ne izkazuje. Tako lahko pride do izjemno dolgih črkovnih nizov, kot je npr. MULTEXT-East oblikoskladenjska oznaka
Gppspe--n-----d
Smiselno je bilo torej dovoliti prerazporeditev mesta lastnosti glede na posamezen jezik, kar omogoči, da so nizi krajši, hkrati pa s pomočjo preslikave lastnosti in vrednosti ohranimo kompatibilnost označevanja z drugimi jeziki.

Namen prenove oblikoskladenjskih priporočil je bil med drugim tudi standardizacija nabora oznak za slovenščino. Zato je bila opravljena analiza označevanja korpusa FidaPLUS ter razmeroma obsežen pregled drugih naborov oznak za slovenščino ter za druge jezike. Pri slovenskem jeziku sta bila upoštevana nabora oznak, uporabljena pri označevanju korpusa LC-STAR (Verdonik et al., 2004) ter korpusa Nova beseda. Zadnji se od prvih dveh temeljno razlikuje, saj ne uporablja pozicijskega načela pri pripisovanju lastnosti in se močno opira na tradicionalni slovnični opis jezika (Lönneker, 2005). Od drugih jezikov so bili podrobneje analizirani nabori CLAWS za angleški jezik ter češki nabor AJKA ter nabor oznak, uporabljen pri označevanju Češkega nacionalnega korpusa ter Praške odvisnostne drevesnice.

Končni nabor oznak JOS v osnovi ohranja nabor MULTEXT-East V3, vendar postopek preslikave med obstoječimi oznakami v korpusu FidaPLUS po sistemu MULTEXT-East V3 in novimi po sistemu JOS oziroma MULTEXT-East V3 ni trivialen, kajti pri pretvorbi je potrebno upoštevati tudi besedno obliko in/ali lemo.

Pričujoče specifikacije so na voljo v angleškem in slovenskem jeziku, to velja ne samo za samo besedilo, temveč tudi za kategorije, lastnosti in vrednosti. S pomočjo priporočil in ustrezne skript XSLT je tako denimo mogoče prevesti slovensko oznako
Sometn
v angleško
Ncmsan
ki ustreza lastnostim
Noun, Type = common, Gender = masculine, Number = singular, Case = accusative, Animate = no
To omogoča enostavno prehajanje med oznakami v angleškem in slovenskem jeziku.

Specifikacije imajo sledečo strukturo. V drugem delu definiramo kategorije (te v glavnem ustrezajo besednim vrstam), in vsaki pripišemo njenje atribute in njihove vrednosti. Poleg tabele z definicijo atributov in vrednosti so pri vsaki definiciji tudi naštete vse njene veljavne oblikoskladenjske oznake, skupaj s primeri uporabe. V tretjem delu so nato podani sinoptični seznami kategorij, atributov, vrednosti in oblikoskladenjskih oznak. Uporaba slednjih je ilustrirana s frekvencami in primeri iz korpusa. Specifikacije imajo tudi dva dodatka. V prvem so opisane, po kategorijah, spremembe priporočil JOS glede na MULTEXT-East, v drugem pa pregled oblikoskladenjskega označevanja po drugih priporočilih.

Gor: Vsebina Naslednji: 2. Definicije oblikoskladenjskih kategorij



Tomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Datum: 2010-03-07
Avtorske pravice za to izdajo ureja licenca Creative Commons Priznanje avtorstva 3.0 Slovenija.