Gor: Vsebina Naslednji: 2. Definicije oblikoskladenjskih kategorij
Pričujoče specifikacije definirajo nabor oblikoskladenjskih lastnosti in njihovo preslikavo v oblikoskladenjske oznake, ter podajo seznam oblikoskladenjskih oznak, primernih za označevanje besednih pojavnic v slovenskih besedilih. Predlog je skladen s priporočili MULTEXT-East V4 za slovenski jezik, pri čemer je bila prejšnja verzija teh priporočil, MULTEXT-East V3 med drugim uporabljena za oblikoskladenjsko označevanje korpusov Fida in FidaPLUS.
Namen prenove oblikoskladenjskih priporočil je bil med drugim tudi standardizacija nabora oznak za slovenščino. Zato je bila opravljena analiza označevanja korpusa FidaPLUS ter razmeroma obsežen pregled drugih naborov oznak za slovenščino ter za druge jezike. Pri slovenskem jeziku sta bila upoštevana nabora oznak, uporabljena pri označevanju korpusa LC-STAR (Verdonik et al., 2004) ter korpusa Nova beseda. Zadnji se od prvih dveh temeljno razlikuje, saj ne uporablja pozicijskega načela pri pripisovanju lastnosti in se močno opira na tradicionalni slovnični opis jezika (Lönneker, 2005). Od drugih jezikov so bili podrobneje analizirani nabori CLAWS za angleški jezik ter češki nabor AJKA ter nabor oznak, uporabljen pri označevanju Češkega nacionalnega korpusa ter Praške odvisnostne drevesnice.
Končni nabor oznak JOS v osnovi ohranja nabor MULTEXT-East V3, vendar postopek preslikave med obstoječimi oznakami v korpusu FidaPLUS po sistemu MULTEXT-East V3 in novimi po sistemu JOS oziroma MULTEXT-East V3 ni trivialen, kajti pri pretvorbi je potrebno upoštevati tudi besedno obliko in/ali lemo.
Specifikacije imajo sledečo strukturo. V drugem delu definiramo kategorije (te v glavnem ustrezajo besednim vrstam), in vsaki pripišemo njenje atribute in njihove vrednosti. Poleg tabele z definicijo atributov in vrednosti so pri vsaki definiciji tudi naštete vse njene veljavne oblikoskladenjske oznake, skupaj s primeri uporabe. V tretjem delu so nato podani sinoptični seznami kategorij, atributov, vrednosti in oblikoskladenjskih oznak. Uporaba slednjih je ilustrirana s frekvencami in primeri iz korpusa. Specifikacije imajo tudi dva dodatka. V prvem so opisane, po kategorijah, spremembe priporočil JOS glede na MULTEXT-East, v drugem pa pregled oblikoskladenjskega označevanja po drugih priporočilih.
Gor: Vsebina Naslednji: 2. Definicije oblikoskladenjskih kategorij