JOS morphosyntactic specifications for Slovene

Appendix B.9 Členek

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.8 Veznik Next: Appendix B.10 Medmet

Table of contents

Simon Krek
Špela Arhar
5. 7. 2007

Appendix B.9.1 1 Analiza obstoječih rešitev

Appendix B.9.1.1 1.1 MULTEXT-East V3

Slovenski del nabora oznak v specifikacijah MULTEXT-East V3 ne predvideva dodatne členitve označevanja za besedno vrsto členek (za obravnavo členkov v tem viru glej Erjavec, 2004: 184), posledično tudi niso navedene kombinacijeoznak. Leksikonprinaša en sam primer, in sicer členek še.

Appendix B.9.1.2 1.2 POS-beseda

Jakopin in Bizjak, 1997 prinašata naslednje kategorije, ki glede na primere sicer niso členki, kot jih običajno definirajo jezikovni priročniki (razen morda negativnega členka ne):

tip
oznaka
primer
Člen (particle)
Č
kar
Negativni člen
ČZ
ne
Vezniški člen
ČV
ali

V Lönneker in Jakopin, 2004 so vse tri naštete skupine uvrščene v označevalno skupino X, katere določujoča lastnost je, da se besedne vrste v njej ne pregibajo, prav tako pa niso nadaljnje členjene.

Appendix B.9.1.3 1.3 LC-STAR in SImlex

Slovenščini prilagojene oblikoskladenjske oznake, izdelane po direktivah projekta LC-STAR, členkovne besedne vrste ne členijo na nikakršen način (Verdonik et al., 2004). Literatura (Verdonik et al., 2003) tudi ne prinaša informacij o tem, da bi bili členki na kakršenkoli način posebej obravnavani na ravni leksikona, izpostavlja le probleme pri besednovrstnem določevanju členkov oz. ločevanjem členkov od prislovov.

Appendix B.9.1.4 1.4 Praški Treebank

Nabor oznak PDT za označevanje medmetov predvideva le najsplošnejšo besednovrstno oznako členek (T) (Hana et al., 2005).

Appendix B.9.1.5 1.5 Ajka

Nabor oznak Ajka predvideva nadaljnje označevanje členkov le glede na to, ali gre za obliko, ki ima dodani morfem –s:

Tip oblike
tip z dodanim morfemom -s

(ČAstice?).

Appendix B.9.1.6 1.6 BNC

Obravnava besed, ki jih v slovenščini razvrščamo med členke, je v angleščini zaradi razlik med jezikoma precej drugačna, zato na tem mestu nabora oznak ne navajamo.

Appendix B.9.2 2 Analiza označenega vzorca iz korpusa FidaPLUS

Ker kategorija členkov ni nadaljnje členjena, se edini problemi pojavljajo na ravni besednovrstnega določevanja – so pa ti zato toliko večji. Jezikovni priročniki prinašajo nasprotujoče si informacije o besednovrstni pripadnosti velikega deleža besed, ki naj bi spadale (tudi) v besedno vrsto členkov: npr. besede predvsem, približno, resda, končno, prav, … – ponekod so uvrščene med členke, ponekod med prislove, ponekod kot dvojnice v obe kategoriji. Med enakopisnimi prislovi ter členki naj bi se ločevalo izključno z upoštevanjem semantike konteksta, tj. z uporabo vprašalnice, ki jo v primeru prislovov lahko zastavljamo, v primeru členkov pa ne. Do zadreg, ali je neka beseda v določenem kontekstu členek ali ne, prihaja že na ravni ročnega določevanja, za avtomatsko analizo je naloga torej povsem neizvedljiva.

Možna rešitev problema bi bila takšna, da se besedam, ki se v kontekstu lahko uporabljajo zgolj kot členki – to je, ki nikoli ne omogočajo zastavljanja vprašalnice - (ali pa so enakopisni z besednimi vrstami, ki omogočajo lahko razdvoumljanje, npr. s samostalniki), pripiše besednovrstna oznaka členek, vsem tistim, ki so enakopisni s prislovi, pa vedno le oznaka prislov. Analiza vzorca iz korpusa FidaPLUS je pokazala, da je od 43-ih različnih besed, ki imajo možno členkovno lemo, 21 takih, ki so zaenkrat v leksikonu navedeni le kot členek, dodatni 4-je taki, ki so enakopisni z lahko razdvoumljivimi besednimi vrstami, ter 18 takih, ki so enakopisni (tudi) s prislovi – slednje bi torej po novem označevali le kot prislove, kot členke pa ne. Našteti primeri iz vzorca:

Samo členkovna lema
Členkovna in neprislovna lema
Členkovna in (tudi) prislovna lema
češ, ja, kajpak, komaj, le, menda, morda, najbrž, nemara, pač, pravzaprav, seveda, skoraj, sploh, še, šele, tudi, vsaj, zgolj, zopet, že
celo, no, pa, torej
kar, končno, največ, nazadnje, ne, okoli, okrog, prav, predvsem, približno, ravno, res, resda, resnično, samo, verjetno, zlasti, žal

Na tem mestu je potrebno poudariti, da gornji podatki temeljijo na trenutno izvedenih leksikonsko pogojenih označevalnih rešitvah, ki niso nujno brez napak – prav zato, ker v priročnikih ni enoznačnih odgovorov na vprašanja besednovrstnega razvrščanja. Bistvo tabele je ideja razvrščanja določenega segmenta dvoumnih členkov med prislove; katere besede bodo razvrščene v katero od besednovrstnih kategorij, pa bo tudi v nadaljnje najbrž potrebno reševati leksikonsko, za vsak primer posebej.

Appendix B.9.3 3 Predlog kategorij in lastnosti

Predlog ne predvideva nikakršne oblike podoznačevanja členkov, zgolj besednovrstno – členek (L).

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.8 Veznik Next: Appendix B.10 MedmetTomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Date: 2010-03-07
This work is licenced under the Creative Commons Attribution 3.0 Slovenia.