JOS morphosyntactic specifications for Slovene

Appendix B.8 Veznik

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.7 Predlog Next: Appendix B.9 Členek

Table of contents

Simon Krek
Špela Arhar
5. 7. 2007

Appendix B.8.1 1 Analiza obstoječih rešitev

Appendix B.8.1.1 1.1 MULTEXT-East V3

Slovenski del nabora oznak v specifikacijah MULTEXT-East V3 predvideva dve kategoriji za besedno vrsto veznik (za obravnavo veznikov v tem viru glej Erjavec, 2004: 183), in sicer vrsto ter obliko. Prva kategorija prinaša delitev na priredne ter podredne veznike, druga pa delitev na eno- ter večbesedne veznike:

1 vrsta
priredni
podredni
p
d
2 oblika
enobesedni
večbesedni
e
v

V specifikacijah je med dodatnimi opombami navedeno, da:

  1. se vezniški pari tipa ali-ali in niti-niti ne obravnavajo kot dvodelni vezniki, pač pa kot dva enodelna veznika,

  2. bi se morali večbesedni vezniki, ki so dejansko neločljive leksemske enote (kljub temu da, medtem ko) obravnavati kot celota – to naj bi tokenizator upošteval in te tipe besednih zvez tokeniziral kot eno samo enoto, s pomočjo podčrtajev (medtem_ko).

Poglavje Kombinacije prinaša tri možnosti: priredni enobesedni veznik (in, ali), podredni enobesedni veznik (da, ki, ali) ter podredni večbesedni veznik (medtem_ko). Prirednega večbesednega veznika kombinacije ne predvidevajo.

Appendix B.8.1.2 1.2 POS-beseda

Vezniška besedna vrsta je v naboru oznak za označevanje korpusa POS-beseda členjena na podredno ter priredno podskupino (Lönneker in Jakopin, 2004):

tip
razmerje, ki ga izraža
primer
veznik
priredno/podredno
in

Razen tega Jakopin in Bizjak, 1997 ločujeta naslednje kategorije, ki so (glede na podane primere) povezane z vezniško besedno vrsto:

tip
oznaka
primer
Člen (particle)
Č
kar
Negativni člen
ČZ
ne
Vezniški člen
ČV
ali
Appendix B.8.1.3 1.3 LC-STAR in SImlex

Slovenščini prilagojene oblikoskladenjske oznake, izdelane po direktivah projekta LC-STAR, vezniške besedne vrste ne členijo na nikakršen način (Verdonik et al., 2004). Literatura (Verdonik et al., 2003) tudi ne prinaša informacij o tem, da bi bili vezniki na kakršenkoli način posebej obravnavani na ravni leksikona.

Appendix B.8.1.4 1.4 Praški Treebank

Nabor oznak PDT predvideva za označevanje veznikov naslednji sistem (Hana et al., 2005):

  1. kot veznik (j) na osnovni stopnji označevanja besednih vrst,

  2. na drugi, natančnejši stopnji označevanja besednih vrst bodisi kot podredni veznik (,) ali kot priredni veznik (^).

Appendix B.8.1.5 1.5 Ajka

Ajka predvideva dve kategoriji pri označevanju veznikov, in sicer:

tip veznika
priredni
podredni
tip oblike
tip z dodanim morfemom -s
Appendix B.8.1.6 1.6 BNC

Sistem oznak CLAWS 7 prinaša za označevanje veznikov naslednje kategorije:

CC
Priredni veznik (npr. and, or)
CCB
Protivni priredni veznik (but)
CS
Podredni veznik (npr. if, because, unless, so, for)
CSA
As kot veznik
CSN
Than kot veznik
CST
That kot veznik
CSW
Wheter kot veznik

Po tem sistemu so vezniki torej členjeni na priredne ter podredne, pri prirednih je izpostavljena kategorija protivnih prirednih veznikov, pogosto (oz. drugače kot ostali) rabljeni vezniki as, than, that ter wheter pa so izpostavljeni kot ločene kategorije.

CLAWS 5, CLAWS 2 in CLAWS 1

CLAWS 5 loči tri skupine veznikov, priredne (CJC), podredne (CJS) ter posebej veznik that (CJT). CLAWS 2 prinaša enak nabor kot CLAWS 7, z eno dodatno kategorijo: polpriredni veznik (npr. so, than, yet). CLAWS 1 pa prinaša le dve oznaki za veznike, za priredne (CC) ter podredne (CS).

Appendix B.8.2 2 Analiza označenega vzorca iz korpusa FidaPLUS

Kljub temu da nabor oznak MULTEXT-East V3 predvideva označevanje veznikov glede na vrsto ter obliko, vezniki v korpusu FidaPLUS niso označeni po teh načelih, zato podrobnejša evalvacija avtomatskega označevanja, kakršno prinašajo druga poglavja tega poročila, ni možna.

Namesto tega je bil pregledan nabor veznikov, kakor so predstavljeni v Slovenskem pravopisnem slovarju. Vezniki, ki so sicer v tem priročniku izredno podrobno členjeni, so nas zanimali predvsem s stališča prekrivnosti izražanja podrednosti oz. prirednosti – kolikšen delež veznikov se po podatkih slovarja lahko pojavlja v besedilih tako v vlogi podrednega kot tudi prirednega veznika. Rezultati so naslednji (pregledani so bili le enobesedni vezniki):

Samo priredni
Samo podredni
Oboje
a, ali, ali – ali, ampak, bodi – bodi, bodisi – bodisi, drugače, ergo, in, kajti, ker, ki, le, ma, namreč, navrh, ne (tudi v parih ne – ampak, ne – marveč, ne – ne, ne - temveč), niti – niti, odnosno, oziroma, pa, saj, sicer, tako, tedaj, ter, toda, torej, vendar, vendarle, zakaj
ako, akoprav, akoravno, akotudi, bodisi, če, čeprav, čeravno, četudi, čim (v paru čim – tem), da, dasi, dasiprav, dasiravno, dasitudi, dočim, dokler, doklič, ko, kolikor, komaj, magari, odklej, potem ko, preden, predno
kakor, kot, naj, najsi, najsibo, samo, zato
51,4 %
38,6 %
10 %

Problematični za avtomatsko označevanje so torej vezniki, ki se pojavljajo v tretjem stolpcu. Za vsakega od teh navajamo po en primer podredne ter en primer priredne rabe (iz slovarja):

Kot, kakor: Naredili bodo tako, kot je dogovorjeno. // S filmom so bili zadovoljni tako gledalci kot kritiki.

Naj: Nagovarjajo me, naj se umaknem. // Naj bo dobro ali slabo, kupil bom.

Najsi: Vsak dan gre na sprehod, najsi je še tako slabo vreme. // V tem so si vse ženske enake, najsi živijo v mestu ali na deželi.

Najsibo: Kupil bom lesorez, najsibo holandski ali pa japonski. // Najsibo še tako spreten, tega ne zmore.

Samo: Samo prikaže se, že ji sledijo. // Govori pravilno, samo malo pretiho.

Zato: Ustavili so se, zato da bi se odpočili. // Ne razumeš jih, zato se jeziš.

Teh veznikov je sicer številčno malo, vendar so nekateri od njih v rabi precej pogosti. Zato je kot veznik v korpusu FidaPLUS npr. 100.000–krat, naj 100.000­–krat ipd.

Appendix B.8.3 3 Predlog kategorij in lastnosti

Veznik (V)

vrsta
priredni
podredni
p
d

Rešitev predvideva obstoj visokokvalitetnega leksikona, v katerem bodo posameznim veznikom pripisani ustrezni atributi. Če takšen leksikon pred označevanjem ni na voljo, se vrsta veznikom ne pripisuje, tj. veznike označujemo le besednovrstno.

Čeprav priznana za pogost jezikovni pojav se večbesednost veznikov na tej stopnji označevanja ne izpostavlja kot posebna kategorija. Večbesednost naj bi se obravnavala na ravni skladenjskega označevanja, na prvem nivoju pa naj bi se vsak element večbesednega veznika označeval kot ločena enota (medtem ko – kombinacija prislova ter veznika).

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.7 Predlog Next: Appendix B.9 ČlenekTomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Date: 2010-03-07
This work is licenced under the Creative Commons Attribution 3.0 Slovenia.