JOS morphosyntactic specifications for Slovene

Appendix B.5 Zaimek

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.4 Prislov Next: Appendix B.6 Števnik

Table of contents

Nina Ledinek
2. 4. 2007

Appendix B.5.1 1 Analiza obstoječih rešitev

Appendix B.5.1.1 1.1 MULTEXT-East V3

ZAIMEK

Lastnosti
Vrednosti lastnosti
Vrsta
Osebni; kazalni; nedoločnostni; svojilni; vprašalni; oziralnostni; povratni; nikalni; celostni
Oseba
Prva; druga; tretja
Spol
Moški; srednji; ženski
Število
Ednina; množina; dvojina
Sklon
Imenovalnik; rodilnik; dajalnik; tožilnik; mestnik; orodnik
Število svojine
Ednina; dvojina; množina
Spol svojine
Moški; ženski; srednji
Naslonka
Da; ne; navezna
Nanašanje
Osebni; svojilni
Živost
Da; ne
Skladenjska vloga
Samostalniški; pridevniški; prislovni
Appendix B.5.1.2 1.2 POS-beseda

ZAIMEK

Lastnosti
Vrednosti lastnosti
Vrsta
Osebni; povratni osebni; svojilni; povratni svojilni; vprašalni; oziralni; poljubnostni; oziralni poljubnostni; nedoločni; drugostni; totalni; nikalni; istostni; mnogostni; kazalni; poudarni; zaimek kot veznik
Oseba
Prva; druga; tretja
Spol
Moški; srednji; ženski; Y*
Število
Ednina; dvojina; množina
Sklon
Imenovalnik; rodilnik; dajalnik; tožilnik; mestnik; orodnik
Število svojine
Ednina; dvojina; množina
Spol svojine
Moški; ženski; srednji

* Oznaka Y zaznamuje, da »značilnost v oznaki ni posebej zaznamovana« (JAKOPIN IN BIZJAK, 1997). Y se uporablja le pri označevanju osebnih in svojilnih zaimkov.

Z vidika lastnosti in njihovih vrednosti, ki so posameznim vrstam zaimkov pripisane, je mogoče vse zaimke razdeliti v štiri skupine. Zaimku ki ni razen vrste pripisana nobena druga lastnost, povratnoosebni zaimki imajo poleg vrste le oznake za sklon (razen imenovalnika), osebni zaimki so označeni glede na vrsto ter lastnosti spol, oseba, število in sklon, svojilni zaimki imajo poleg tega še oznaki za spol svojine in število svojine, vse ostale vrste zaimkov pa so označene z vrednostmi lastnosti za spol, sklon in število. Za povratnosvojilni zaimek (svoj) vrednost imenovalnik pri lastnosti sklon ni predvidena. Zaimek se je kot prosti glagolski morfem umeščen h glagolu kot posebna vrsta glagola.

Appendix B.5.1.3 1.3 Simlex

ZAIMEK

Lastnosti
Vrednosti lastnosti
Vrsta
Osebni; kazalni; povratni; nedoločni;** vprašalni; oziralni;*** svojilni
Število
Ednina; dvojina; množina; X
Spol
Moški; ženski; srednji; X
Oseba*
Prva; druga tretja; X
Sklon
Imenovalnik; rodilnik; dajalnik; tožilnik; mestnik; orodnik; X

* Kategorija se določuje le pri svojilnih in osebnih zaimkih.

** Med nedoločne zaimke sodijo naslednji tipi zaimkov iz Slovenske slovnice (TOPORIŠIČ 2000): nedoločni, poljubnostni, mnogostni, istostni, drugostni, celostni, nikalni zaimki.

*** Med oziralne zaimke se uvraščata 2 tipa zaimkov iz Slovenske slovnice (TOPORIŠIČ 2000): oziralni, oziralnopoljubnostni zaimki.

V oblikoskladenjskem slovarju Simlex (leksikonu besednih oblik) je zaimkovnim lemam in njihovim oblikam pripisanih še nekaj dodatnih informacij. Zaimki so razdeljeni na pridevniške, prislovne in samostalniške, (osebnim) svojilnim zaimkom pa je, tako je mogoče razumeti, dodana še informacija o spolu in številu lastnika (spol svojine, število svojine).

Appendix B.5.1.4 1.4 Praški Treebank

ZAIMEK

Lastnost
Vrednosti lastnosti*
Vrsta
Predlog z dodanim morfemom -ň (zanj**); oziralni svojilni zaimek katerega, čigar; vprašalni/oziralni zaimek s pridevniško sklanjatvijo; zaimek on za predlogom; povratni zaimek se v neklitični obliki; povratni zaimek se/si; svojilni zaimek svoj; oziralni zaimek kateri za predlogom; kazalni zaimek; oziralni zaimek kar; klitična oblika osebnega zaimka; oziralni zaimek kateri ne za predlogom; vprašalni/oziralni zaimek kdo; nedoločni zaimek ves, sam; samostojno stoječ zaimek svoj, nesvoj, (tentam); osebni zaimek; vprašalni/oziralni zaimek kaj, kaj_pa(co, cožpak); svojilni zaimek; zaimek kaj (co), združen s predlogom; nikalni zaimek; nedoločni zaimek
Spol
Ženski; ženski/srednji; moški (živo); moški (neživo); srednji; moški (živo/neživo)/ženski/srednji; moški (živo/neživo); moški (živo/neživo)/srednji; X
Oseba
Prva; druga; tretja; X
Število
Dvojina; ednina; množina; ednina/dvojina/množina; X
Sklon
Imenovalnik; rodilnik; dajalnik; tožilnik; mestnik; orodnik; vokativ; X
Spol_svojine
Ženski; moški (živo/neživo)/ženski/srednji; moški (živo/neživo)/srednji; X
Število_svojine
Ednina; množina; X
Čas
Sedanjik
Negacija
Nezanikano
Način
Tvornik
Varianta, register, stil ipd.
Manj frekventna, vendar bolj ali manj enakovredna varianta; redko, arhaično, v knjigah; zelo arhaično, pogovorno; zelo arhaično, v knjigah, le v pisnih besedilih (običajno za čas rabe); pogovorna, v javnosti tolerirana varianta; pogovorno, standardno v t. i. obecni češčini; pogovorno, standardno v t. i. obecni češčini, manj frekventna varianta; krajšave; posebne oblike rabe

* Prikazane so le vrednosti lastnosti, s katerimi so zaimki dejansko označeni (druge besedne vrste so lahko označene še z drugimi vrednostmi lastnosti).

** Navedeni zaimki so približni slovenski pomensko-skladenjski ter oblikoslovni ustrezniki čeških zaimkov.

Appendix B.5.1.5 1.5 Ajka

ZAIMEK

Lastnost
Vrednosti lastnosti
Vrsta*
Osebni (x); svojilni (x); kazalni (x); celostni (x); povratni (y); nedoločni (y); vprašalni (y); oziralni (y); nikalni (y)
Število
Ednina; množina; dvojina
Spol
Moški (živo); moški (neživo); ženski; srednji
Oseba
Prva; druga; tretja; prva/druga/tretja
Sklon
Imenovalnik; rodilnik; dajalnik; tožilnik; mestnik; orodnik; vokativ
Stilistična oznaka oblike
Arhaično; knjižno; pesniško; ekspresivno; pogovorno; redko; le v korpusih; regionalno/narečno; zastarelo
Tip oblike
Tip z dodanim morfemom -s

* Vrsta zaimka je v sistemu Ajka obravnavana v dveh podkategorijah (v tabeli sta označeni z (x) in (y), op. N. L.), pri čemer pa (vsaj meni) ni povsem jasno, v čem se podkategoriji razlikujeta.

Posredno so zaimki v sistemu Ajka obravnavani še pri prislovu. V okviru lastnosti te besedne vrste namreč najdemo dve podkategoriji ((x), (y)) zaimkovnih prislovov. V prvo sodijo kazalni, celostni, načinovni in stanjski prislovni zaimki, v drugo pa vprašalni, oziralni, nikalni in nedoločni prislovni zaimki.

Appendix B.5.1.6 1.6 BNC

Besede, ki pomensko ter morfosintaktično približno ustrezajo zaimku v slovenščini, najdemo v Vzorčnem korpusu BNC v razredu besed Členi (A-), določilniki (D-*) in zaimki (P-).

Določilnik oz. determinativ (angl. determiner) je v okviru frazne gramatike obravnavan kot jedro funkcionalne besedne zveze (tj. določilniške besedne zveze), ki vključuje tudi samostalniško zvezo: DP > Spec, D'; D' > D, NP. V strukturnoskladenjskem smislu gre torej za besede, ki se v »samostalniških zvezah« pojavljajo za členom in pred pridevniškimi specifikatorji jedra samostalniške zveze (npr. a few beautiful cats).

ZAIMEK (CLAWS7)

Razred besed (glede na prvo črko oznake)
Kategorija
APPGE
Svojilni zaimek pred jedrom samostalniške fraze (npr. my, your, our)
AT
Člen (npr. the, no)
AT1
Člen – edninski (npr. an, every)
DA
Zadnji določilnik,** sposoben opravljati tudi zaimkovno vlogo, (npr. such, former, same)
DA1
Zadnji določilnik – edninski (npr. little, much)
DA2
Zadnji določilnik – množinski (npr. few, several, many)
DAR
Zadnji določilnik – primerniški (npr. more, less, fewer)
DAT
Zadnji določilnik – presežniški (npr. most, least, fewest)
DB
Prvi določilnik,*** sposoben opravljati tudi zaimkovno vlogo, (all, half)
DB2
Prvi določilnik – množinski (both)
DD
Določilnik,**** sposoben opravljati tudi zaimkovno vlogo, (npr. any, some)
DD1
Določilnik – edninski (npr. this, that, another)
DD2
Določilnik – množinski (these, those)
DDQ
Wh-določilnik (which, what)
DDQGE
Wh-določilnik – rodilniški (whose)
DDQV
Wh-ever-določilnik (whichever, whatever)
PN
Nedoločni zaimek – nevtraliziran glede na število (none)
PN1
Nedoločni zaimek – edninski (npr. anyone, everything, nobody, one)
PNQO
Wh-zaimek – predmetni (whom)
PNQS
Wh-zaimek – osebkov (who)
PNQV
Wh-ever-zaimek (whoever)
PNX1
Povratni nedoločni zaimek (oneself)
PPGE
Osebni svojilni zaimek v »samostalniški« vlogi (npr. mine, yours)
PPH1
Osebni zaimek – 3. os., ed., sr. sp. (it)
PPH1O
Osebni zaimek – 3. os., ed. – predmetni (him, her)
PPH2O
Osebni zaimek – 3. os., mn. – predmetni (them)
PPHS1
Osebni zaimek – 3. os., ed. – osebkov (he, she)
PPHS2
Osebni zaimek – 3. os., mn. – osebkov (they)
PPIO1
Osebni zaimek – 1. os., ed. – predmetni (me)
PPIO2
Osebni zaimek – 1. os., mn. – predmetni (us)
PPIS1
Osebni zaimek – 1. os., ed. – osebkov (I)
PPIS2
Osebni zaimek – 1. os., mn. – osebkov (we)
PPX1
Povratni osebni zaimek – edninski (npr. yourself, itself)
PPX2
Povratni osebni zaimek – množinski (npr. yourselves, themselves)
PPY
Osebni zaimek – 2. os. (you)

* Določilniki so deljeni glede na mesto, v katerem se v kompleksni (razviti) samostalniški frazi pojavljajo.

** Zadnji določilnik stoji za vsemi drugimi določilniki, tj. najbližje jedru samostalniške zveze.

*** Prvi določilnik stoji pred samostalniško frazo in pred vsemi drugimi določilniki.

**** Določilnik stoji na svojem prototipnem mestu, tj. pred jedrnim samostalnikom in drugimi dopolnili.

Določilniki, ki so uvrščeni v nadkategorijo D-, so pravzaprav le tehnično poimenovanje za nadkategorijo določilnik/zaimek, saj zaradi oblikovne in funkcijske prekrivnosti določilnikov in zaimkov konsistentno ločevanje med obema skupinama besed ni možno, ker lahko nekatere besede opravljajo skladenjske vloge druga druge. Tudi členek je razumljen kot določilnik, ki »samostalniško frazo« navadno začenja, ne more pa nastopati kot njeno jedro. Z oznako zaimek (nadkategorija P-) so označene besede, ki lahko opravljajo le zaimkovno vlogo, ne pa tudi določilniške.

Primerjava z drugimi nivoji oz. označevalnimi sistemi CLAWS:

CLAWS1: Delitev zaimkov in zaimku podobnih besed (glede na slovenščino) na kategorije se od sistema CLAWS7 precej razlikuje. Bistveno bolj obsežna je skupina besed, ki sodijo v nadkategorijo člen (A-), saj poleg členov (kategoriji člen in edninski člen) vključuje besede, ki so jedro kvantifikatorskih in kvalifikatorskih funkcijskih fraz, zadnji določilniki v okviru nadkategorije (A-) pa so deljeni glede na število (kot posebna kategorija so izločeni množinski zadnji določilniki) in glede na sklon (izločeni so zadnji določilniki, ki nastopajo v rodilniški frazi, tj. tisti, ki izražajo svojilnost, posebna kategorija so tudi množinski zadnji določilniki v rodilniški frazi). Znotraj nadkategorije določilnik (D-) je uveljavljena delitev glede na število (edninski določilnik, množinski določilnik, množinski ali edninski določilnik), posebna kategorija je namenjena rodilniškim edninskim določilnikom. Ločeno kategorijo sestavljajo tudi določilniki/dvodelni vezniki. V okviru nadkategorije zaimek (P-) je izločena kategorija zaimkov v samostalniški vlogi ter kategorija zaimkov v samostalniški vlogi, ki so del rodilniške fraze. Svojilni zaimki so v kategorije razdeljeni glede na njihovo skladenjsko vlogo (samostalniški svojilni zaimki, svojilni zaimki pred samostalnikom), povratnoosebni pa glede na število (edninski, množinski). Osebni zaimki so v kategorije razdeljeni glede na osebo, število ter sklon. Posebno skupino sestavljajo tudi t. i. wh-besede, ločene kategorije znotraj nje pa so wh-določilniki, svojilnostni wh-zaimki, wh-zaimki, nevtralizirani glede na sklon (imenovalnik oz. tožilnik), wh-zaimki v tožilniku in wh-zaimki v imenovalniku.

CLAWS2: Sistem se skoraj v celoti ujema s sistemom CLAWS7. Dodane ima le tri dodatne kategorije, in sicer: zadnji določilnik, primerniški in množinski; whosever; whoever, whosoever (wh-ever-zaimki so torej dodatno ločeni na kategorije glede na sklon).

CLAWS5: Označevalni sistem CLAWS5 ima zaradi njegove predvidene uporabe na zelo obsežnem korpusu najmanj obsežen nabor kategorij. Besede (ustrezni prevodni ustrezniki), ki bi jih v slovenistiki navadno uvrstili med zaimke, so obravnavane v 8 kategorijah, in sicer členek, svojilni določilnik, splošni določilnik, wh-določilnik (tako označujemo tudi oziralni/vprašalni zaimek which), nedoločni zaimek, osebni zaimek, wh-zaimek in povratni zaimek. Delitev na kategorije je tudi pri tem sistemu v osnovi skladenjska, upoštevane so pomenske lastnosti besed.

CLAWS6 se od sistema CLAWS7 loči le v oznakah za ločila.

CLAWS8: Sistem se le minimalno razlikuje od sistema CLAWS7, in sicer so wh-določilniki in wh-zaimki razdeljeni na vprašalne in oziralne. Dodane so še štiri kategorije, in sicer wh-določilnik v vlogi oziralnega zaimka (which), wh-določilnik v vlogi oziralnega zaimka v rodilniški zvezi (whose), predmetni oziralni wh-zaimek ter osebkov oziralni wh-zaimek, prvotno enotne kategorije (vprašalni/oziralni zaimek ali determinator) pa so omejene na vprašalne zaimke.

Od drugih obravnavanih označevalnih sistemov se CLAWS loči tudi po tem, da so v njem z eno morfosintaktično oznako (lahko) označene tudi stalne besedne zveze oz. zveze, ki so v kolokacijskem smislu dovolj relevantne, pri čemer je »delitev« na besedne zveze izvedena že na ravni tokenizacije.

Appendix B.5.2 2 Predlog kategorij in lastnosti

Appendix B.5.2.1 2.1. Težave

Ločevanje med zaimki in drugimi besednimi vrstami

Ena od večjih težav, s katero se pri avtomatskem morfosintaktičnem označevanju zaimkov v korpusu FidaPLUS srečujemo, je razdvoumljanje lem in besednih oblik glede na besedno vrsto, in sicer zlasti na ravni besednih vrst zaimek – prislov. Do napak pri določanju prihaja najpogosteje pri naslednjih (homonimnih) lemah in oblikah:

  1. Zaimki so označeni kot prislovi: drugačno, kaj, čim, nekaj, nič.

  2. Prislovi so označeni kot zaimki: kaj (oblike kaj, čim, čemu), kak (oblika kako), kolik, koliko (prislovna msd-oznaka ni niti predvidena), kolikor, nekaj, nekak, predme (oblika predenj 'preden' – napačen zapis), tak (oblika tako), takle (oblika takole), tolik (oblika toliko – lema toliko ni predvidena, prav tako ne prislovna msd-oznaka), ves (oblika vse).

Frekvenca navedenih besednovrstno različnih (homonimnih) lem ali njihovih besednih oblik je glede na vzorčni pregled zadetkov v korpusu FidaPLUS (za vsako od lem, ki je v korpusu označena kot zaimkovna, je bilo pregledanih nekaj sto zadetkov, glede na rezultate tega pregleda pa je bila približno ocenjena natančnost analizatorja pri označevanju lem in besednih oblik in njihova frekvenca) pri večini pregledanih primerov preveč uravnotežena, da bi bilo način označevanja mogoče določiti kar glede na »statistično premoč« ene od lem ali oblik. Le v primeru, da je glede na frekvenco njenega pojavljanja statistika močno v prid eni (tj. zaimkovni ali prislovni) od možnih oblik (npr. več kot 80-% verjetnost za pojavljanje ene od oblik), bi veljalo razmisliti o tem, da se ji vedno pripiše le frekventnejša msd-oznaka. Napaka bo tako najbrž vendarle manjša, kot če bi analizator določal oznako glede na kontekst. Možni oblike, pri katerih bi takšno označevanje prišlo v poštev, so npr.: nekako, takole (prislovna msd-oznaka). V drugih primerih bo natančnost razdvoumljanja odvisna od učinkovitosti analizatorja.

Neločevanje med zaimkom in drugimi (tj. neprislovnimi) besednimi vrstami se v korpusu FidaPLUS pojavlja manj pogosto.

Neločevanje med zaimkom in pridevnikom: do težav prihaja pri ločevanju med zaimkovnimi in pridevniškimi oblikami lem drugačen, enak, ostal/ostali. Pri lemi drugačen merilo za delitev njenih besednih oblik na zaimkovne in pridevniške (meni) ni razvidno, pri lemi enak velja, da so za zaimkovne oblike določene tiste, ki se navadno pojavljajo v prilastkovi vlogi, za pridevniške pa tiste, ki nastopajo v povedkovodoločilni vlogi, pri oblikah lem ostal/ostali velja ravno obratno. Veliko oblik prednjo, prednje je označenih napačno, saj analizator v okvir zaimkovne leme predme vključuje oblike pridevnika prednji. Oblike lem drugačen, enak, ostal/ostali bi morale biti uvrščene le v eno besedno vrsto.

Do težav prihaja tudi pri avtomatskem razločevanju med zaimki in števniki. Razdvoumljanju besednih oblik lem en, drug/drugi je posebno težavno, ker je njihov besednovrstni status v določenih kontekstih težko določiti tudi pri ročnem označevanju. Ker se omenjeni zaimki in števniki lahko pojavljajo v enakem skladenjskem okolju, napravi analizator tudi pri označevanju besednovrstno nedvoumnih besed precej napak.

Kot zaimki so označeni še: glagoli: ostal, on (oblika je), členki: kar, vezniki: kaj (oblika čim), kolikor,ta (v zvezi in to), samostalniki: nič, ti (vas), ta (tema), člen: ta, medmeti: tak. Zaimki so označeni tudi kot: samostalniki: koliko, nič, podenje (oblika podnje), vezniki: koliko, kolikor. Sorazmerno velika je frekvenca napak pri označevanju leme ostal, oblike je (v približno 50 % primerov so pri obeh lemah kot zaimki označeni glagoli) in oblike tema (samostalniki so kot zaimki označeni zlasti v primeru, ko je skladenjskega konteksta za natančno razdvoumljanje z avtomatskimi postopki premalo). Napak pri razločevanju med zaimki in drugimi omenjenimi lemami in oblikami je razmeroma malo. Uspešnost pri razdvoumljanju navedenih lem in oblik je odvisna od natančnosti označevalnika. Do napak prihaja tudi zaradi dvobesednosti zaimkov, veznikov (naju dveh, redko kdo, in to, čim – tem) ipd.

Vrsta zaimka

Glede na podatke iz korpusa FidaPLUS analizator z določanjem vrste zaimka večjih težav večinoma nima. Izjema je razločevanje med vprašalnimi in nedoločnostnimi zaimki, razločevanje med oblikama oni,te, ti osebnih in kazalnih zaimkov ter razločevanje med vprašalnimi, nedoločnostnimi in oziralnimi oblikami zaimka kateri. Zanimivo je, da se napaka pri razdvoumljanju oblik oni,te, ti pogosto zgodi, tudi ko je zaimek v vlogi prilastka, katerega odnosnica stoji neposredno za njim. Ker se osebni zaimki redko pojavljajo v vlogi (levih) prilastkov, lahko pričakujemo, da bo pri označevanju korpusa s statističnim označevalnikom frekvenca napak nekoliko manjša.

Analizator ima težave še pri razločevanju oziralnostnih zaimkov kateri s svojilnostnim pomenom ter z označevanjem zaimkov se/si v vlogi prostih glagolskih morfemov. Frekvenca teh zaimkov je v korpusu FidaPLUS nič.

Pri določanju vrste zaimka v korpusu FidaPLUS prihaja do napak tudi zaradi nedoslednega oz. napačnega umeščanja zaimkov glede na lastnost vrsta zaimka že na ravni leksikona. Glede na tip napake je zaimke možno uvrstiti v dve skupini:

  1. Vrednosti lastnosti vprašalni zaimek za zaimek ni predvidena: kak, kolikšen.

  1. Za zaimek je predvidena vrednost lastnosti nedoločnostni zaimek: kakršenkoli, katerikoli, takle, takšenle, tolik, tolikšen.

Nekatere »napake« pri določanju lem

»Napake« pri določanju lem, katerih msd-oznaka se začne na Z:

n.: Kot zaimek je označen vsak mali tiskani n, ki mu sledi pika (tj. n.), in sicer zato, ker n. pogosto nadomešča zaimek naš v zvezi pr. n .š. ('pred našim štetjem). Tudi lastnosti in vrednosti lastnosti ima n. zato označene takšne kot svojilni zaimek. Napaka pri takšnem označevanju je večvrstna:

  1. n. je umeščen v drugo »besedno vrsto« kot druge okrajšave.

  2. Kljub temu da n. sicer res razmeroma pogosto »nadomešča« zaimek naš, uveljavljeni tip označevanja povzroča, da dobijo enako oznako tudi druge kratice in okrajšave (n. pr., n. n., n. d., v 5. n. hiše ipd.), pri katerih n. ni okrajšava za oblike zaimka naš.

  3. Zaimek n. ima predvideno le eno msd-oznako, katere vrednost za sklon je orodnik, vendar se n. relativno frekventno pojavlja tudi v zvezah tipa leta 35 n. št.. Vrednost lastnosti za sklon je v tem primeru rodilnik.

Noben, nobeden in nobena: Lema nobena je edini predstavnik zaimkovne leme v ženskem spolu, zaimek nobeden pa lahko obravnavamo kot obliko zaimka v im. ed. m. sp., in sicer v zelo omejenih skladenjskih vlogah. Do napak pri označevanju korpusa prihaja, ker so oblike zaimka noben umeščene pod tri različne leme.

Obse: Čeprav so v okviru te leme zbrani tudi zaimki obse ('ob sebe'), gre pogosto za napako, saj so kot oblike te leme obravnavane tudi napačno zapisane besede (zlasti obse-žen, obse-gati).

Pose: Kot oblike te leme so obravnavane izključno napačno zapisane besede (zlasti pose-bej).

Glede na simetrijo pri pripisovanju lem (kolik, koliko) je nenavadno, da poleg leme tolik v leksikonu ne obstaja tudi lema toliko.

Pogosto zaimki v korpusu FidaPLUS leme nimajo določene. Glede na frekvenco, s katero se oblike zaimkov v korpusu pojavljajo, bi bilo smiselno kot zaimkovne leme obravnavati npr. še naslednje (v seznamu so upoštevane besede, ki so kot zaimkovne iztočnice vključene v SSKJ in SP): koji, kolikršen, malokateri, marsikak, mnog, mnogokaj, nekoliko, nikogaršnji, obadva, oboj/oboje, prenekateri, redkokateri, redkokdo, sam, tadva, taisti, tistile, toliker, toliko, toti.

Oseba, spol, število, sklon, spol_svojine in število_svojine

Pri avtomatskem določanju lastnosti oseba in vrednosti zanjo analizator večjih napak ne dela, problematično pa je, da je kategorija zaimkom v korpusu pripisana zelo nedosledno (pri zaimkih kaj, nekaj, kdo ipd. oseba npr. je določena, pri zaimkih nihče, kar, kdorkoli ipd. pa ne). Zaimki, ki so glede te lastnosti obravnavani različno, se v tem, na podlagi katerih slovničnih kriterijev jim je mogoče vrednost za lastnost pripisati, večinoma bistveno ne razlikujejo.

Glavna težava pri določanju vrednosti za lastnosti spol, število in sklon ter tudi spol svojine zaimkom v korpusu FidaPLUS je, da se pri njih homonimne oblike pojavljajo v povprečju še pogosteje kot pri drugih besednih vrstah, zato prihaja pri avtomatskem označevanju do napak razmeroma pogosto. Oznake za lastnosti spol, sklon in število so zaimkom pripisane tudi razmeroma nedosledno. Oblika zaimka sama zase o vrednostih za omenjene lastnosti ne daje nedvoumnih informacij, zato jih analizator zaimkom pripiše na podlagi ujemalnega razmerja, skladenjske vloge zaimka ipd., pri čemer pa se zdi, da glavni kriterij za določanje oznak ni vedno isti. Vendar tovrstne tehnike pripisovanja vrednosti lastnosti ne pridejo v poštev, kadar je referent zaimka zelo oddaljen ali določljiv zgolj na podlagi semantične analize, kar se večinoma zgodi, kadar je možno željeno informacijo poiskati le zunaj običajne analitične enote pri korpusni analizi, tj. zunaj stavčne povedi. Podatki o frekvenci v korpusu uporabljenih msd-oznak kažejo, da imajo frekvenco nič oz. manj kot sto najpogosteje tiste oznake, s katerimi so označene homonimne oblike zaimkov.

Naslonka

Analizator večjih težav z določevanjem klitičnih in naveznih oblik zaimkov nima, ker so oblike zaimkov glede na vrednosti lastnosti različne (vrednost lastnosti je določljiva že iz črkovnega niza pojavnice), do redkih napak prihaja le v primeru, da analizator zaimku napačno določi vrsto ali sklon. Do nedoslednosti oz. napak pri označevanju v korpusu FidaPLUS prihaja, ker je lastnost pripisana tudi zaimkom, pri katerih ni relevantna (npr. zaimkom v drugih sklonskih oblikah kot v rodilniški, dajalniški in tožilniški) ali določljiva, tj. v ustreznih sklonih dvojinskih in množinskih oblik osebnih zaimkov (npr. vas, vam ipd.). Za te zaimke sta, tako kot v tradicionalnih jezikoslovnih opisih, predvideni obe vrednosti lastnosti (klitika da, klitika ne), kljub temu da se »klitični« in »neklitični« zaimki po obliki ne ločijo.

Glede na specifikacije sistema MULTEXT-East V3 so navezne oblike osebnih in povratnoosebnih zaimkov (npr. zase, predenj, nanjo) obravnavane kot vrste predloga. V korpusu FidaPLUS so vedno označene kot osebni zaimki, oznake so sporne v tem smislu, da opredeljujejo, da pri omenjenih zaimkih sklon ni relevantna lastnost (vrednost lastnosti sklon je pri teh zaimkih sicer vedno tožilnik), omenjeni zaimki pa naj bi se pojavljali le v prislovni skladenjski vlogi.

Nanašanje

Težav pri avtomatskem določanju lastnosti nanašanje ni, z vidika avtomatske analize podatkov je zato lastnost sprejemljiva. Kljub temu se pojavlja dilema, ali je določanje te lastnosti smiselno. Vrednost svojilni je pripisana le povratnosvojilnemu zaimku svoj, zato je informacijo o pojavljanju oblik tega zaimka (oz. o pojavljanju drugih povratnih zaimkov) mogoče dobiti tudi z iskanjem po lemi. Zdi se, da z uvajanjem te lastnosti zgolj večamo nabor možnih msd-oznak za zaimke, kar zmanjšuje natančnosti pri avtomatski analizi podatkov.

Skladenjska vloga

Skladenjska vloga je ena od kategorij, pri določanju katere naredi avtomatski analizator v korpusu FidaPLUS največ napak. Eden od virov težav pri označevanju je dejstvo, da so možne vrednosti za to lastnost zaimkom že v leksikonu pripisane zelo nedosledno (pri nekaterih zaimkih sta predvideni tako samostalniška kot pridevniška vloga, pri drugih le ena od njih; prislovna skladenjska vloga je pripisana zgolj naveznim oblikam osebnih in povratnoosebnih zaimkov, ti zaimki lahko glede na specifikacije označevalnega sistema nastopajo zgolj v prislovni skladenjski vlogi). Drugi vir težav je, da je lastnost premalo natančno opredeljena v samem sistemu označevanja. V kratkih napotilih in pojasnilih v zvezi z omejitvami pri označevanju specifičnih zaimkov in njihovih oblik ter v opisu možnih kombinacij oznak pri posameznih vrstah zaimkov namreč ni dovolj jasno pojasnjeno, natančno kakšno informacijo kategorija prinaša. Vrednosti samostalniški, pridevniški in prislovni signalizirajo, da naj bi šlo za pretežno oblikoslovno kategorijo, ki sporoča o zaimkovih sistemskih kategorialnih lastnostih glede na njegovo predpostavljeno najfrekventnejšo skladenjsko rabo. V korpusu FidaPLUS pa je kategorija označena, kot da prinaša informacije o funkcijskoskladenjski rabi zaimka glede na trenutni kontekst, pri čemer se pojavi težava, da z obstoječimi vrednostmi za lastnost informacija ni dovolj enoznačno določljiva (kako naj bo npr. označen zaimek v povedkovodoločilni vlogi, zaimek, ki se navadno pojavlja na skladenjskih mestih, ki jih zasedajo samostalniki, v prislovnodoločilni vlogi ipd.). Težavno je tudi označevanje skladenjske vloge zaimkov v primerih tipa Vsak drug bi se odločil drugače, Človek, katerega mama je prišla na obisk … ipd., saj je način označevanja skladenjske vloge pri njih še v večji meri kot pri drugih zvezah, v katerih zaimki nastopajo, odvisen od konvencij izbrane jezikoslovne paradigme.

Glede na to, da za slovenščino predvidevamo tudi skladenjsko označevanje korpusov, se zdi bolje, če kategorijo skladenjska vloga, če jo razumemo kot pretežno skladenjsko kategorijo, upoštevamo v sistemu skladenjskega označevanja. Tudi če kategorijo razumemo kot zlasti oblikoslovno, pa je avtomatsko označevanje zaimkov z njo najbrž (pre)zahtevno, saj od morfološkega analizatorja pričakujemo, da bo sposoben opraviti sicer relativno trivialno skladenjsko analizo povedi in razločevati med homonimnimi samostalniškimi, pridevniškimi ter prislovnimi lemami in oblikami.

Živost

Glede na specifikacije sistema MULTEXT-East V3 je živost pripisana zaimkom moškega spola ednine tožilnika neosebnih zaimkov, pri čemer je opozorjeno, da na živost opozarja končniški morfem -ega. Lastnost je v korpusu FidaPLUS zelo redko pripisana tudi zaimkom, pri katerih ni relevantna (npr. pri tistih, ki alomorfnih končniških morfemov za moški spol ednine tožilnika nimajo), pri čemer jo analizator določa zaimkom moškega spola ednine tožilnika. Zaradi težav pri strojnem določevanju vrednosti lastnosti za sklon, spol in število, pride v korpusu FidaPLUS (glede na pregled vzorčnega nabora povedi iz korpusa) do napak pri določitvi kategorije živosti v približno 75 % primerov, v katerih analizator kategorijo zaimkom določuje. Stopnja napake je gotovo še nekoliko večja, saj analizator zaradi napačne določitve omenjenih treh paradigmatskih lastnosti določenim zaimkom kategorije ne pripisuje, čeprav jo izkazujejo (podatke o stopnji tovrstne napake je pri ročnem pregledu zadetkov težko dobiti).

Ni natančneje pojasnjeno, zakaj se lastnost ne določuje pri zaimkih, ki navadno nastopajo v skladenjskih vlogah, ki jih običajno zasedajo samostalniki (kdo, marsikdo, se, kaj ipd.). Tovrstno označevanje je (lahko) nekoliko sporno, saj je kategorija živosti (glede na to, da se živost glede na označevalni sistem pripisuje tudi nekaterim besedam, ki poimenujejo žive entitete, vendar njihov končniški morfem za moški spol ednine tožilnika o živosti ne sporoča) inherentna ravno tej skupini zaimkov (lastnost je izražena leksikalno, saj slovenščina ločuje med t. i. samostalniškimi zaimki, ki se nanašajo na živo in na neživo stvarnost). Odločitev o nedoločanju kategorije živosti pri osebnih zaimkih je smiselna, ker je uspešnost oz. natančnost analizatorjev pri določanju vrednosti te lastnosti (lahko) majhna.

Appendix B.5.2.2 2.2. Predlog

ZAIMEK

Lastnost
Vrednosti lastnosti
Vrsta
Osebni; svojilni; kazalni; oziralnostni; povratni; nikalni; celostni; vprašalni/nedoločni; svojilnostni oziralni zaimek kateri, čigar; kateri; zaimek/prislov nič; zaimek/prislov nekaj;* se, si
Spol
Moški; srednji; ženski; moški/ženski; moški/srednji; srednji/ženski; moški/ženski/srednji; X
Število
Ednina; množina; dvojina; edina/dvojina; ednina/množina; dvojina/množina; ednina/dvojina/množina; X
Sklon
Kombinacije sklonov
Oseba
Prva; druga; tretja; X
Število svojine
Ednina; dvojina; množina; X
Spol svojine
Ženski; moški/srednji; X
Oblika zaimka
Klitična; neklitična; navezna; X

* Predlagam, da v okviru kategorije nič in nekaj obravnavamo zgolj obliko zaimka/prislova nič, nekaj (ne pa tudi samostalnika, števnika, nedoločnega števnika/zaimka ter drugih oblik zaimkov nič, nekaj).

Pri predlogu sistema morfosintaktičnega označevanja zaimka izhajam iz predpostavke, da se zaimkom pripisujejo večinoma tiste kategorije, ki jih je mogoče določiti iz besedne oblike same.

Z oznako X je označena kategorija:

  1. Kadar ni določljiva.

  2. Kadar za obliko zaimka ni relevantna.

Zaimke, ki jih je možno uvrstiti tudi v kategorijo nedoločnih števnikov, bi sama obravnavala kot posebno podkategorijo števnika: nedoločni števnik/zaimek.

Kot posebno podkategorijo v okviru števnika bi vključila tudi leme en, drug(i): števnik/zaimek en, drug(i).

Prislovne zaimke bi sama obravnavala kot prislove.

Bistvena je individualna obravnava vsakega zaimka oz. manjših skupin zaimkov. Tj. vsaki besedni obliki vsakega zaimka je treba določiti, katere kategorije so zanjo relevantne.

Pojasnilo

Vrsta zaimka

Že nabori oznak za lastnost vrsta zaimka, ki so jih avtorji uvrstili v obravnavane morfosintaktične označevalne sisteme, kažejo na to, da določitev vrednosti za to kategorijo nikakor ni trivialna naloga. Če izhajamo iz predpostavke, da naj bi označevalni sistem, uporabljen za označevanje korpusa, njegovemu potencialnemu uporabniku omogočal iskanje po čim več kategorijah, pri čemer naj bi se te v največji možni meri približale absolutnim, diskretnim kategorijam, hkrati pa naj bi bila dobljena informacija relevantna (tj. podatki so resnični in natančni, torej uporabni), se nam v zvezi z določanjem vrste zaimka takoj zastavi nekaj ključnih vprašanj:

  1. Ali kategorija vrsta zaimka sploh sodi na raven morfosintaktičnega označevanja korpusov?

  2. Ali je mogoče predvidevati, da bo analizator med vrstami zaimka razločeval?

  3. Ko zaimek umestimo v določeno vrsto, ali s tem dovolj enoznačno določimo, kakšne so njegove lastnosti in njihove potencialne vrednosti?

  4. Kakšna naj bo hierarhizacija informacije o morfosintaktičnih lastnostih zaimka z vidika lastnosti vrsta zamka?

Glede na podatke iz korpusa FidaPLUS analizator z določanjem vrste zaimka večjih težav nima (izjema je razločevanje med vprašalnimi in nedoločnostnimi zaimki), z vidika avtomatske analize podatkov je torej kategorija sprejemljiva. Kljub temu se postavlja vprašanje, ali je določanje vrste zaimka v morfosintaktičnem označevalnem sistemu sploh smiselno glede na to, da gre za pretežno pomensko kategorijo. Hkrati velja, da je vrsta zaimka vsaj pri nekaterih zaimkih tudi nekakšna morfosintaktična kategorija, saj definira, katere lastnosti je mogoče zaimkom, uvrščenim vanjo, pripisati (npr. svojilni zaimki, povratni zaimki ipd.). Ker sestavljajo zaimki zaprt nabor besed in ker s kategorijo vrsta zaimka uporabniku hkrati posredujemo dodatno informacijo/opcijo pri iskanju po PoS- oz. msd-oznakah, se zdi ohranitev kategorije v okviru označevalnega sistema smiselna. Ker je od nje delno odvisno tudi, katere druge kategorije so za zaimek sploh relevantne, je primerno, če jo v hierarhizaciji informacij o zaimku uvrstimo na najvišje mesto.

Bistvena težava, ki ob takšni obravnavi zaimkov nastopi, je, da lahko imajo zaimki poleg svojih kanoničnih pomenskih informacij, katerih del je generaliziran kot vrsta zaimka, tudi alternativne pomenske lastnosti, precejšen del slovenskih zaimkov lahko namreč kljub siceršnji umestitvi v eno od vrst zaimkov izkazuje še pomen svojilnosti (npr. njega sin, katere oče,čigar otrok ipd.). Svojilna raba je pri večini zaimkov (glede na vzorčen pregled zadetkov v korpusu FidaPLUS so takšni npr. kogar, druge, tega, istih, vsakogar ipd.) dovolj nefrekventna, da jo je mogoče za potrebe korpusne analize zanemariti. Za nekatere oblike osebnih zaimkov (nje, njih, njemu, njega ipd.) in zlasti za oblike zaimka kateri in čigar pa je ta raba precej značilna. Postavlja se torej vprašanje, ali je smiselno zaimkom, ki načeloma sodijo v določeno semantično kategorijo (tj. vrsta zaimka) in so zato v prevladujočem delu njihovih rab zanje relevantne določene kategorialne lastnosti, pripisovati druge lastnosti in vrednosti zanje, kadar se njihova raba (skl. vloga, pomen) spremeni.Iz besedne oblike same svojilnostni pomen zaimka ni napovedljiv. Če se odločimo, da bomo zaimku različne kategorije glede na njegove pomenske lastnosti pripisovali, od morfosintaktičnega analizatorja zahtevamo, da bo zmožen opraviti tudi enostavno sintaktično (in pomensko) analizo. Glede na to, da se zdi določevanje svojilnostnih lastnosti zaimkov iz vzorcev sopojavljanja besed okoli njega za morfosintaktični analizator zahtevna naloga, se zdi smiselno svojilnostne kategorije (spol svojine ipd.) določevati le pri zaimkih čigar in kateri, za katera je svojilnostni pomen zelo značilen oz. edini možen. Pri vseh ostalih zaimkih pa je verjetnost napake pri določevanju njihove svojilnostne rabe verjetno večja od napake, ki je posledica neoznačevanja svojilnostnih kategorij.

Podatki kažejo, da ima avtomatski analizator težave z razdvoumljanjem homonimnih vprašalnih in nedoločnostnih zaimkov. Ker gre za pretežno semantični kategoriji, ki se (lahko) pojavljata v enakih skladenjskih okoljih, je malo verjetno, da bi bilo konsistentno označevanje teh dveh kategorij glede na formalne značilnosti (kakršne koli vrste) z avtomatskimi postopki izvedljivo. Relevantne podatke je mogoče dobiti z uvajanjem vmesne kategorije vprašalni/nedoločnostni zaimek. Še bolj je za označevanje problematičen zaimek kateri. Oblike homonimnih lem kateri sodijo med vprašalne, nedoločne in oziralne zaimke, poleg tega pa imajo nekatere oblike še svojilnostni pomen in so kot take nosilke tudi svojilnostnih lastnosti (npr. spola svojine). Avtomatsko razdvoumljanje oblik je izjemno težavno, zato bi bilo vse homonimne leme verjetno smiselno obravnavati v okviru ene posebne kategorije (ker gre za t. i. pridevniške zaimke, določanje ni posebno problematično, saj so za vse zaimke relevantne iste lastnosti in vrednosti zanje). Razmisliti velja le o posebni kategoriji za zaimek v svojilnostni rabi.

Večje težave nastopijo, kadar določenim lemam oz. besednim oblikam zaradi dvoumnosti oblike niti pri ročnem označevanju korpusa besednovrstne oznake ne moremo pripisati. Glede na pregledano gradivo, ki se nanaša na problematiko morfosintaktičnega označevanja zaimkov, so v slovenščini takšne leme npr. drug, drugi in en, dvoumnosti torej nastanejo pri ločevanju med zaimki in števniki. Če v jezikoslovnih opisih uveljavljenih kategorij v vzorcih realne jezikovne rabe z gotovostjo ne razločuje niti človek, je neprepričljivo pričakovati, da bomo konsistentno razdvoumljanje uspeli izvesti računalniško, s pomočjo stohastičnih metod (gradivo v korpusu FidaPLUS kaže, da dela analizator, ker gre za kategoriji, ki se lahko pojavljata v enakih skladenjskih strukturah, tudi pri označevanju nedvoumnih primerov zelo veliko napak). Glede na temeljno predpostavko – pripraviti označevalni sistem, ki ga sestavljajo kategorije, ki se čim bolj približujejo absolutnim in o distribuciji katerih je mogoče s pomočjo metod avtomatske analize izrekati relevantne sodbe, se zdi najboljša opcija uvajanje vmesnih kategorij. Takšna rešitev je razmeroma neproblematična v primeru, da izkazujeta kategoriji, ki vmesno kategorijo sestavljata, večinoma iste lastnosti in da je nabor njihovih vrednosti v pretežni meri enak. Problem dvoumnosti lem drug in drugi ter en je torej mogoče rešiti tako, da vmesno kategorijo uvrstimo kot eno od vrst zaimkov ali števnikov v besedno vrsto zaimek ali števnik. Bistveno večja je dilema, kako označevati besednovrstno dvoumne homonimne leme in oblike, kadar je nabor njihovih lastnosti in vrednosti zanje povsem drugačen. S takšnim označevanjem se v okviru označevanja (tudi) zaimkov v slovenščini srečujemo pri označevanju zaimkov oz. prislovov nič, nekaj in glagolskega morfema oz. zaimka se/si. Najbolj točno informacijo potencialnemu uporabniku ponudimo, če za te zaimke uvedemo posebno kategorijo v okviru vrste zaimka, prislova oz. glagola. O tem, v katero besedno vrsto je besedo najbolje uvrstiti, pa odloča obremenjenost besedne vrste, tj. število msd-oznak, ki sodijo vanjo, splošne predpostavke označevalnega sistema, frekvenca »dvoumnih« besed v nedvoumnih skladenjskih (in posledično) morfoloških vlogah ipd. Dodatnih lastnosti takšnim lemam ni smiselno pripisovati, z razdvoumljanjem teh oblik se lahko soočimo kasneje, ko bodo razvita bolj natančna jezikoslovna diagnostična orodja. Uvedbo posebne kategorije je v takšnih primerih mogoče upravičiti tudi z dejstvom, da ima trenutno uporabljani analizator tudi pri ločevanju med nedvoumnimi primeri zelo veliko težav.

Glede na to, da sta skladenjski kategoriji neobveznega predmetnega določila in prislovnodoločilnega dopolnila prehodni in delno prekrivni (od njune opredelitve pa je pogosto vezan tudi besednovrstni status homonimnih lem in oblik), je popolnoma verodostojen morfosintaktični označevalni sistem zelo težko pripraviti. Za posebno obravnavo besednovrstno dvoumnih besed se je tako smiselno odločiti le pri besedah, pri katerih prihaja do težav tudi pri ročnem razdvoumljanju najpogosteje.

Eden od kriterijev, ki jih je pri oblikovanju sistema morfosintaktičnega oblikovanja koristno upoštevati, je tudi predpostavljena reprezentacija struktur na ravni skladenjskega označevanja korpusov. Razmisliti je treba, ali bi bila ločena obravnava kakšnega od zaimkov oz. skupine zaimkov koristna, ker bi olajšala označevanje skladenjskih struktur. V okviru potencialnih zaimkov je takšna skupina zaimkov, ki jih tradicionalni opisi hkrati pogosto uvrščajo v kategorijo nedoločnih števnikov (npr. koliko, toliko, nekaj, kaj ipd.). Zdi se, da je pomen količinskosti za te zaimke vsaj tako pomemben kot npr. pomen vprašalnosti, nedoločnosti, kazalnosti, kaže se npr. v tem, da je za te zaimke kljub njihovi »regularni« umestitvi v različne vrste zaimkov značilno, da izkazujejo zelo podoben nabor lastnosti in njihovih vrednosti. Hkrati je skladenjsko okolje teh zaimkov dovolj specifično, da je vredno razmisliti o njihovi ločeni obravnavi.

Poseben izziv za označevanje predstavljajo še večbesedni vezniki (kdor koli,naju dveh, redko koga ipd.). Glede na to, da v okviru segmentacije dvobesedne zaimkovne pojavnice niso predvidene, bi bilo večbesedne zaimke mogoče na poseben način označevati na eni od označevalnih ravni (morfosintaktični, sintaktični). Ker pa je slovenščina jezik z prostim besednim redom, je velik del dvobesednih zaimkov avtomatsko zelo težko označevati z zadostno mero natančnosti, dobljena potencialna informacija o msd-oznakah bi bila zato pogosto neuporabna. Težave so manjše le pri zaimkih s koli (kateri koli, kdor koli ipd.), saj se ta del besede uporablja le ob oziralnih zaimkih. Posebno označevanje (na eni od označevalnih ravni) oblike koli je zato smiselno.

Oseba, spol, število, sklon, spol_svojine in število_svojine

Z določanjem lastnosti oseba pri avtomatski analizi večjih težav navadno ni, zahtevnejša naloga je odločitev, katerim zaimkom je kategorijo sploh smiselno pripisovati. Za zaimek, ki nastopa v skladenjski vlogi, značilni za pridevnik, kategorija ni relevantna, zaimku, ki nastopa v skladenjski vlogi, ki jo načeloma opravlja samostalnik, pa je vrednost v tej lastnosti pogosto mogoče pripisati. Težave pri označevanju korpusov nastopijo, ker velik del slovenskih zaimkov lahko nastopa v obeh tipih skladenjskih vlog. Če želimo lastnost oseba označevati pri vseh zaimkih, pri katerih je sicer določljiva (ampak le iz konteksta), to pomeni, da od morfosintaktičnega analizatorja pričakujemo, da bo zmožen opraviti preprosto sintaktično analizo. Ker takšno izhodišče za analizo ni prepričljivo, je nabor zaimkov, pri katerih bomo kategorijo označevali, nujno omejiti. Lastnost je mogoče predpostaviti za vse zaimke, ki se lahko pojavljajo samo v vlogah, značilnih za samostalnik, ter za zaimke, pri katerih je lastnost prisotna leksikalno. Glede na to, da je kategorija oseba za večino zaimkov napovedljiva le na podlagi ujemanja med osebkovim zaimkom in povedkom – dokazljiva je pravzaprav le v eni od zaimkovih skladenjskih vlog (da se njena vrednost v drugih vlogah ne spremeni, obstoječi opisi najbrž pravzaprav le predpostavljajo), se zdi smiselno, da kategorijo pripisujemo le tistim zaimkom, pri katerih je inherentna. (Dodaten argument za takšno odločitev je bržkone tudi dejstvo, da objektivnih podatkov (če imamo za objektivne podatke korpusne podatke, ne pa npr. intuicijo govorcev) o tem, v kakšnih skladenjskih vlogah se zaimki lahko pojavljajo, za slovenščino še nimamo). Leksikalno je lastnost oseba prisotna pri osebnih in osebnih svojilnih zaimkih, pripisovati bi jo bilo mogoče še zaimku kateri v svojilnostni rabi in zaimku čigar.

Oseba, spol, sklon in število so tiste temeljne lastnosti, o katerih se sestavljalci vseh obravnavanih označevalnih sistemov strinjajo, da jih je zaimkom treba pripisovati. Večinama se vrednosti zanje v sistemih ujemajo s tistimi v tradicionalnih jezikoslovnih opisih, izjemen je v tem pogledu le označevalni sistem Praškega Treebanka, ki predvideva vmesne kategorije.

Ker prihaja pri zaimkih do homonimije besednih oblik v povprečju še pogosteje kot pri drugih besednih vrstah, so tudi napake pri določanju vrednosti lastnosti pogostejše. Iz formalnih lastnosti besednih oblik samih je vrednosti za spol, število in sklon (npr. pri vas, jih …) pogosto nemogoče določiti, nanosnik zaimka, glede na katerega je podatke mogoče napovedati, pa je lahko oddaljen tudi nekaj stavkov ali povedi, zato je uspešnost pri procesu avtomatskega razdvoumljanja, kot kažejo podatki o označevanju korpusa FidaPLUS, pogosto prenizka, da bi bile vnesene oznake uporabne. Kategorije spola, sklona in števila so pogosto tudi nedoločljive (tj. da je njihova vrednost takšna, kot napovedujejo tradicionalni opisi, če ta podatek sicer vsebujejo, je nedokazljivo), tako je npr. za zaimka ta, ves pogosto težko z gotovostjo trditi, katerega spola je kakšna njuna oblika (npr. v zvezi o tem, o vsem), zlasti kadar je njun nanosnik struktura propozicijskega tipa, podobno velja tudi za določevanje sklona pri nesklonjivih zaimkih (oz. tistih, ki se sklanjajo po ničti sklanjatvi) ipd. Ključno vprašanje torej je, katerim zaimkom kategorije spola, sklona in števila sploh pripisovati oz. ali besedni obliki (ne pa tudi zaimku kot takemu) kategorijo vnašati, če iz besedne oblike same po sebi ni določljiva. Pri precej zaimkih se v zvezi z označevanjem namreč pojavi dilema, katerega od možnih kriterijev – ujemalnost, skladenjska vloga, nanosnik – bi bilo najbolje upoštevati kot vrhovni kriterij določanja oznak (npr. v primerih kot Koliko ljudi hodi v gledališče?; Kdo je kupil mleko? Maja ga je prinesla.).

Specifična težava je tudi določanje števila pri zaimku ti, in sicer pri oblikah, ki se uporabljajo za vikanje. Ker je raven razdvoumljanja med oblikami za vikanje in množinskimi oblikami semantična, torej je proces zelo zahteven, razlikovanje med njimi glede na stopnjo razvitosti analitičnih orodij najbrž ni smiselno.

Za zaimke, ki se pojavljajo v vlogah, v katerih navadno najdemo pridevnike, bi lahko rekli, da so pri njih vrednosti za kategorije spola, sklona in števila prevzete od samostalnika (čeprav so sicer določene z zaimkovo lastno sklanjatvijo), zato nastaja dilema o tem, ali je te oznake omenjenim zaimkom sploh treba pripisovati. Pri zaimkih v vlogah, ki jih navadno zasedajo samostalniki, tovrstnih dilem ni, postavlja pa se vprašanje, ali naj nekaterim od njih (npr. kdo, kaj ipd.) oznake za spol in število pripisujemo, kadar njihova vrednost ni dokazljiva, tj. kadar se pojavljajo v neosebkovih skladenjskih vlogah (npr. Kaj je Peter prinesel? Ali si se koga ustrašila?).

Glede na to, da podatki o frekvenci v korpusu FidaPLUS uporabljenih oznak in podatki o njihovi uporabnosti (analiza relevantnosti oznak, uporabljenih v nekaj krajših vzorcih besedila) kažejo na to, da ima analizator z označevanjem kategorij spola, sklona in števila pri homonimnih besednih oblikah veliko težav, je za vrednosti lastnosti spol in število smiselna vpeljava vmesnih kategorij: moški/ženski spol, moški/srednji spol, dvojina/množina ipd. Informacij za potencialne uporabnike korpusa bo tako vendarle več, kot če vrednosti lastnosti sploh ne bi določili, napak pri označevanju pa bo najbrž sorazmerno malo. Glede na to, da je analitična oznaka v korpusih (pisnih besedil) navadno (stavčna) poved, je tovrsten način označevanja tudi edini smiseln (zaimek svojega naveznika pogosto nima v isti povedi). Njegova pomanjkljivost je, da se nabor možnih msd-oznak za besedno vrsto poveča. Ker se posledično zmanjša tudi frekvenca posameznih msd-oznak v korpusu, je lahko tudi natančnost analizatorja manjša. Velika slabost tovrstnega označevanja je tudi, da podatkov o distribuciji posameznih zaimkov s specifično vrednostjo za določeno lastnost (kot jo opredeljujejo jezikoslovni opisi) z iskanjem po korpusu ne moremo dobiti (ne moremo npr. izločiti vseh zaimkov srednjega spola ednine rodilnika). (Kljub temu se zdi uvajanje vmesnih oznak dobra rešitev, ker so dobljeni podatki bolj natančni in uporabni. V 620-milijonskem korpusu FidaPLUS se npr. malo manj kot tretjina vseh msd-oznak za zaimke (glede na trenutni označevalni sistem) pojavi manj kot stokrat, približno sedmina oznak pa se v korpusu ne pojavi).

Težave pri določanju vrednosti lastnosti spol svojine in število svojine se zopet pojavljajo zaradi homonimnosti oblik (npr. za moški in srednji spol ednine). Glede na število napak, ki jih analizator naredi, se zdi bolje, če v sistem označevanja uvajamo vmesne kategorije.

Živost

Bistven problem pri opredeljevanju kategorije živosti v obravnavanih sistemih je, da ni natančneje opredeljeno, kaj z njo označujemo. V slovenskih tradicionalnih opisih kategorija označuje dve ločeni, vendar konceptualno povezani »lastnosti« besed, pri čemer se pogosto dogaja, da ju interpretiramo kot enotno lastnost. V nadaljevanju bomo kategorijo živosti obravnavali kot lastnost, povezano z obliko končniškega morfema za tožilnik ednine moškega spola.

Kategorija živosti je »vezana« kategorija, ki se pravzaprav določuje na podlagi treh drugih paradigmatskih lastnostih zaimkov, pripisati jo je možno le zaimkom moškega spola ednine tožilnika. Bistvena težava pri njenem označevanju je, da je uspešnost tega postopka sorazmerna z uspešnostjo analizatorja pri določanju omenjenih paradigmatskih lastnosti (če so te označene pravilno, do napak praviloma ne bi smelo prihajati). Ker je določanje kategorij spola, sklona in števila pri zaimkih z avtomatskimi postopki težavno (vzorčni pregled zadetkov v korpusu FidaPLUS kaže, da je najmanj tri četrtine oznak za živost določenih napačno), ker kategorije spola, števila pa tudi sklona za precejšen del zaimkov niso enoznačno določljive, hkrati pa smo kot možno rešitev za natančnejše označevanje teh kategorij omenili vpeljavo vmesnih kategorij, se pojavlja težava, kako izločiti vse zaimke, pri katerih bi bilo določanje te kategorije relevantno.

Tudi če zanemarimo vprašanje, ali je analizator natančnega označevanja zaimkov v zvezi z živostjo zmožen, se pojavlja še bistveno vprašanje, kaj nam kategorija živosti o zaimkih pove oz. ali je kategorijo živosti za zaimke sploh smiselno predpostavljati, glede na to, da so vrednosti te lastnosti večinoma napovedljive le na podlagi ujemalnega oz. nanašalnega razmerja zaimka s samostalnikom (oblika za živost je glede na sklanjatev zaimkov sicer predvidena). Uvajanje kategorije živosti pa je pri zaimkih torej sporno še najmanj z enega vidika. Tako, kot je živost definirana, uporabniku omogoča zgolj iskanje zaimkov v korpusu, ki imajo variantno realizacijo morfema za ednino moškega spola tožilnika, pri čemer je raba alomorfov povezana s predstavo ljudi o živosti (oz. naklonjenosti ljudi do) entitete, na katero se zaimek nanaša. Če pa jo, vsaj v okviru zaimkov, kot uporabniki korpusa uporabljamo za iskanje podatkov o tem, katere entitete pojmujemo govorci kot žive, bodo dobljeni podatki nekoliko okrnjeni oz. zavajajoči. Upoštevati je namreč treba še dejstvo, da nekateri zaimki v slovenščini kategorije živosti ne ločijo (osebni zaimki ter povratni osebni zaimki, zaimki, ki se ne sklanjajo (oz. se sklanjajo po ničti sklanjatvi), ipd. dveh ločenih sklonskih oblik za moški spol ednine tožilnika nimajo ali pa ta ni dokazljiva). »Živostne« oblike zaimkov bodo imele naveznike tudi v besedah (oz. zvezah), ki jim živosti ne prepisujemo (npr. Kakšnega vodjo si želite?). Poleg tega je pri delu zaimkov (ki se pojavljajo pretežno v skladenjski vlogi, ki jo navadno zasedajo samostalniki, npr. kdo, nekdo proti nič, česa marsikaj itd.) informacija o tem, ali govorci poimenovano z njimi interpretiramo kot živo, prisotna že leksikalno, in sicer v vseh njihovih besednih oblikah, ne samo v obliki za moški spol ednine tožilnika. Če bi tudi te zaimke označevali s kategorijo živost, bi bilo to nedosledno, ker bi v tem primeru z isto oznako opredeljevali različne lastnosti besed.

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.4 Prislov Next: Appendix B.6 Števnik



Tomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Date: 2010-03-07
This work is licenced under the Creative Commons Attribution 3.0 Slovenia.