Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.7 Predlog Next: Appendix B.9 Členek
Table of contents
Slovenski del nabora oznak v specifikacijah MULTEXT-East V3 predvideva dve kategoriji za besedno vrsto veznik (za obravnavo veznikov v tem viru glej Erjavec, 2004: 183), in sicer vrsto ter obliko. Prva kategorija prinaša delitev na priredne ter podredne veznike, druga pa delitev na eno- ter večbesedne veznike:
1 vrsta | priredni podredni | p d |
2 oblika | enobesedni večbesedni | e v |
V specifikacijah je med dodatnimi opombami navedeno, da:
se vezniški pari tipa ali-ali in niti-niti ne obravnavajo kot dvodelni vezniki, pač pa kot dva enodelna veznika,
bi se morali večbesedni vezniki, ki so dejansko neločljive leksemske enote (kljub temu da, medtem ko) obravnavati kot celota – to naj bi tokenizator upošteval in te tipe besednih zvez tokeniziral kot eno samo enoto, s pomočjo podčrtajev (medtem_ko).
Poglavje Kombinacije prinaša tri možnosti: priredni enobesedni veznik (in, ali), podredni enobesedni veznik (da, ki, ali) ter podredni večbesedni veznik (medtem_ko). Prirednega večbesednega veznika kombinacije ne predvidevajo.
Vezniška besedna vrsta je v naboru oznak za označevanje korpusa POS-beseda členjena na podredno ter priredno podskupino (Lönneker in Jakopin, 2004):
tip | razmerje, ki ga izraža | primer |
veznik | priredno/podredno | in |
Razen tega Jakopin in Bizjak, 1997 ločujeta naslednje kategorije, ki so (glede na podane primere) povezane z vezniško besedno vrsto:
tip | oznaka | primer |
Člen (particle) | Č | kar |
Negativni člen | ČZ | ne |
Vezniški člen | ČV | ali |
Slovenščini prilagojene oblikoskladenjske oznake, izdelane po direktivah projekta LC-STAR, vezniške besedne vrste ne členijo na nikakršen način (Verdonik et al., 2004). Literatura (Verdonik et al., 2003) tudi ne prinaša informacij o tem, da bi bili vezniki na kakršenkoli način posebej obravnavani na ravni leksikona.
Nabor oznak PDT predvideva za označevanje veznikov naslednji sistem (Hana et al., 2005):
kot veznik (j) na osnovni stopnji označevanja besednih vrst,
na drugi, natančnejši stopnji označevanja besednih vrst bodisi kot podredni veznik (,) ali kot priredni veznik (^).
Ajka predvideva dve kategoriji pri označevanju veznikov, in sicer:
tip veznika | priredni podredni |
tip oblike | tip z dodanim morfemom -s |
Sistem oznak CLAWS 7 prinaša za označevanje veznikov naslednje kategorije:
CC | Priredni veznik (npr. and, or) |
CCB | Protivni priredni veznik (but) |
CS | Podredni veznik (npr. if, because, unless, so, for) |
CSA | As kot veznik |
CSN | Than kot veznik |
CST | That kot veznik |
CSW | Wheter kot veznik |
Po tem sistemu so vezniki torej členjeni na priredne ter podredne, pri prirednih je izpostavljena kategorija protivnih prirednih veznikov, pogosto (oz. drugače kot ostali) rabljeni vezniki as, than, that ter wheter pa so izpostavljeni kot ločene kategorije.
CLAWS 5, CLAWS 2 in CLAWS 1
CLAWS 5 loči tri skupine veznikov, priredne (CJC), podredne (CJS) ter posebej veznik that (CJT). CLAWS 2 prinaša enak nabor kot CLAWS 7, z eno dodatno kategorijo: polpriredni veznik (npr. so, than, yet). CLAWS 1 pa prinaša le dve oznaki za veznike, za priredne (CC) ter podredne (CS).
Kljub temu da nabor oznak MULTEXT-East V3 predvideva označevanje veznikov glede na vrsto ter obliko, vezniki v korpusu FidaPLUS niso označeni po teh načelih, zato podrobnejša evalvacija avtomatskega označevanja, kakršno prinašajo druga poglavja tega poročila, ni možna.
Namesto tega je bil pregledan nabor veznikov, kakor so predstavljeni v Slovenskem pravopisnem slovarju. Vezniki, ki so sicer v tem priročniku izredno podrobno členjeni, so nas zanimali predvsem s stališča prekrivnosti izražanja podrednosti oz. prirednosti – kolikšen delež veznikov se po podatkih slovarja lahko pojavlja v besedilih tako v vlogi podrednega kot tudi prirednega veznika. Rezultati so naslednji (pregledani so bili le enobesedni vezniki):
Samo priredni | Samo podredni | Oboje |
a, ali, ali – ali, ampak, bodi – bodi, bodisi – bodisi, drugače, ergo, in,
kajti, ker, ki, le, ma, namreč, navrh, ne (tudi v parih ne – ampak, ne – marveč,
ne – ne, ne - temveč), niti – niti, odnosno, oziroma, pa, saj, sicer, tako, tedaj,
ter, toda, torej, vendar, vendarle, zakaj | ako, akoprav, akoravno, akotudi, bodisi, če, čeprav, čeravno, četudi, čim (v
paru čim – tem), da, dasi, dasiprav, dasiravno, dasitudi, dočim, dokler, doklič,
ko, kolikor, komaj, magari, odklej, potem ko, preden, predno | kakor, kot, naj, najsi, najsibo, samo, zato |
51,4 % | 38,6 % | 10 % |
Problematični za avtomatsko označevanje so torej vezniki, ki se pojavljajo v tretjem stolpcu. Za vsakega od teh navajamo po en primer podredne ter en primer priredne rabe (iz slovarja):
Kot, kakor: Naredili bodo tako, kot je dogovorjeno. // S filmom so bili zadovoljni tako gledalci kot kritiki.
Naj: Nagovarjajo me, naj se umaknem. // Naj bo dobro ali slabo, kupil bom.
Najsi: Vsak dan gre na sprehod, najsi je še tako slabo vreme. // V tem so si vse ženske enake, najsi živijo v mestu ali na deželi.
Najsibo: Kupil bom lesorez, najsibo holandski ali pa japonski. // Najsibo še tako spreten, tega ne zmore.
Samo: Samo prikaže se, že ji sledijo. // Govori pravilno, samo malo pretiho.
Zato: Ustavili so se, zato da bi se odpočili. // Ne razumeš jih, zato se jeziš.
Teh veznikov je sicer številčno malo, vendar so nekateri od njih v rabi precej pogosti. Zato je kot veznik v korpusu FidaPLUS npr. 100.000–krat, naj 100.000–krat ipd.
Veznik (V)
vrsta | priredni podredni | p d |
Rešitev predvideva obstoj visokokvalitetnega leksikona, v katerem bodo posameznim veznikom pripisani ustrezni atributi. Če takšen leksikon pred označevanjem ni na voljo, se vrsta veznikom ne pripisuje, tj. veznike označujemo le besednovrstno.
Čeprav priznana za pogost jezikovni pojav se večbesednost veznikov na tej stopnji označevanja ne izpostavlja kot posebna kategorija. Večbesednost naj bi se obravnavala na ravni skladenjskega označevanja, na prvem nivoju pa naj bi se vsak element večbesednega veznika označeval kot ločena enota (medtem ko – kombinacija prislova ter veznika).
Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.7 Predlog Next: Appendix B.9 Členek