Gor: Dodatek B Primerjava z drugimi priporočili za oblikoskladenjsko označevanje Prejšnji: Dodatek B.6 Števnik Naslednji: Dodatek B.8 Veznik
Kazalo
Slovenski del nabora oznak v specifikacijah MULTEXT-East V3 predvideva tri kategorije za besedno vrsto predlog (za obravnavo predlogov v tem viru glej Erjavec, 2004: 181), in sicer vrsto, sestavljenost ter sklon, ki ga zahteva. Prva kategorija prinaša eno samo oznako – predlog, kategorija sestavljenost možnost enostavnega ter priponskega predloga, sklon pa vse sklone, ki jih predlog lahko zahteva:
1 vrsta | - | p |
2 sestavljenost | enostavni priponski | e p |
3 sklon, ki ga zahteva | rodilnik dajalnik tožilnik mestnik orodnik | r d t m o |
V specifikacijah je med dodatnimi opombami navedeno, da:
se v slovenščini predlogi pojavljajo pred določujočo besedno zvezo, razen v redkih primerih pred ali za njo (navkljub),
leksikon zaenkrat prinaša le enostavne predloge, kljub temu, da kategorija prinaša oznako tudi za priponske.
Poglavje Kombinacije prinaša šest možnosti:
Dpp- | zase, nase, nanj, nanjo, nanju, … |
Dper | brez, izpred, od, … |
Dped | k, navzlic, … |
Dpet | s, po, skozi, … |
Dpem | po, na, v, … |
Dpeo | pod, s, med, … |
Prislov je v naboru oznak za označevanje korpusa POS-beseda členjen glede na sklon, ki ga zahteva (Jakopin in Bizjak, 1997):
Tip | Sklon | Primer |
predlog | 2, 3, 4, 5, 6 | iz |
V Lönneker in Jakopin, 2004 je predlog, skupaj s povratnimi svojilnimi zaimki, uvrščen v skupino VII, članom katere se sicer pripisuje sklon, ni pa mogoča njihova povezava z imenovalnikom.
Poleg navedenega prinaša članek Lönneker in Jakopin, 2004 predvsem informacije, ki izvirajo iz evalvacije ročnega označevanja besedilnega materiala. Problemi pri označevanju predloga se kažejo predvsem na mestih, kjer je zaradi kakršnegakoli razloga predlogu težko pripisati sklon, ki ga le-ta zahteva: če se denimo predlog pojavlja pred obliko, ki ni v sklonu (od koder). Kadar se na takšnem mestu pojavlja predlog, ki se nedvoumno oz. dosledno povezuje z enim samim sklonom (kot se npr. predlog do z rodilnikom), je taisti sklon predpisan tudi v omenjenih problematičnih primerih. Glede na pogostnost problemov označevanja pri posameznem predlogu avtorja posebej obravnavata predloge na, po in za, za označevanje katerih podajata naslednje smernice:
Problem | Predlagani sklon | Primeri |
na – s prislovi nastopa v kolokacijah, v katerih izgubi svoj jedrni pomen
| tožilnik – analogno na druge zveze | na hitro, na desno, na bolje, na tak način, na mnogo načinov |
po – s pridevniki (prislovi) in svojilnimi zaimki nastopa v kolokacijah, v
katerih izgubi svoj jedrni pomen | tožilnik – analogno na druge zveze | po hebrejsko, po človeško, po svoje, po moje, po njihovo |
po – s števniki in drugimi količinskimi izrazi se obnaša drugače, lahko ga
celo izpuščamo | avtorja predlagata uvrstitev besede po med prislove | po ena, po dva ali trije, po eno, po več, po dve ali tri mere |
za – nastopa pred prislovi v kolokacijah, ki izražajo količino | tožilnik – analogno na samostalniške zveze | |
za – posamezni problemi | prav = prislov, za = zahteva tožilnik | prav za prav |
za – posamezni problemi | ohranimo jedrno zahtevo po sklonu: za = zahteva tožilnik, proti = zahteva
dajalnik | s svojimi za in proti |
Slovenščini prilagojene oblikoskladenjske oznake, izdelane po direktivah projekta LC-STAR, predložne besedne vrste ne členijo na nikakršen način. Literatura (Verdonik et al., 2003 in Verdonik et al., 2004) tudi ne prinaša informacij o tem, da bi bili predlogi na kakršenkoli način posebej obravnavani na ravni leksikona.
Nabor oznak PDT predvideva za označevanje predlogov naslednji sistem (Hana et al., 2005):
kot predlog (R) na osnovni stopnji označevanja besednih vrst,
na drugi, natančnejši stopnji označevanja besednih vrst bodisi kot splošni predlog, brez vokalizacije (R), kot predlog, ki se vokalizira (V) alikot predlog, ki nastopa le kot del stalnih besednih zvez (F).
Ajka predvideva samo eno kategorijo pri označevanju predlogov, in sicer pripisovanje sklonov:
sklon | 1, 2, 3, 4, 5, 6, 7 |
Sistem oznak CLAWS 7 prinaša za označevanje predlogov naslednje kategorije:
IF | for v vlogi predloga |
II | predlog |
IO | of v vlogi predloga |
IW | with, without v vlogi predloga |
Po tem sistemu predlogi torej niso nadaljnje členjeni, pogosto (oz. drugače kot ostali predlogi) rabljeni predlogi for, of, with ter without pa so izpostavljeni kot ločene kategorije.
CLAWS 5 in CLAWS 1
CLAWS 5 od skupine vseh ostalih predlogov (PRP) loči le predlog of (PRF). CLAWS 1 pa prinaša le eno samo oznako za vse predloge (IN). Noben od teh dveh sistemov ne predvideva nadaljnjega členjenja predložne besedne vrste.
Nabor oznak za predloge, ki jih najdemo v korpusu FidaPLUS, naj bi bil takšen:
1 vrsta | - | p |
2 sestavljenost | enostavni priponski | e p |
3 sklon, ki ga zahteva | rodilnik dajalnik tožilnik mestnik orodnik | r d t m o |
Analiza vzorca iz korpusa FidaPLUS je pokazala, da je od 53-ih različnih besed, ki so v vzorcu označene za predlog, 22 takih, ki imajo zaenkrat leksikonsko predpisane le predložne leme, ostale pa so dvoumne, večinoma na račun enakopisnosti s prislovi (glede, mimo, širom, znotraj, zraven, zunaj, …) ali samostalniki (prek, sredi, brez, od, …):
samo predlog | možna druga lematizacija |
kljub, o, pri, u, s, do, iz, izmed, izpod, izven, namesto, onkraj, onstran,
preko, zaradi, ž, skoz, zoper, na, po, pred, za | h, k, proti, kot, v, prek, sredi, brez, od, nasproti, blizu, razen, glede,
mimo, širom, znotraj, zraven, zunaj, poleg, okoli, okrog, krog, vrh, ob, nad,
pod, čez, skozi, med, konec, ko |
Z upoštevanjem besedne okolice je besednovrstna določitev predlogov, enakopisnih z drugimi besednimi vrstami, relativno enostavna, saj se predlogi pojavljajo v drugih okoljih kot npr. prislovi. Brez upoštevanja okolice je razdvoumljanje praktično nemogoče. V teh primerih bi bila najboljša možna rešitev pripisovanje dvojnih lem (npr. predložne ter prislovne), pri čemer se obe obravnavata kot enakovredni – do stopnje, na kateri je razdvoumljanje mogoče.
Besede, ki naj bi bile po predlogu MULTEXT-East V3 označene kot sestavljeni predlogi (name, nate itd.), so že sedaj v korpusu FidaPLUS dejansko označene kot zaimki, kar se kaže za dobro rešitev, ki bi jo bilo vredno obdržati.
Analiza vzorca iz korpusa FidaPLUS je pokazala, da je od 53-ih različnih besed, ki so v vzorcu označene za predlog, 39 takih, ki so – kadar so označene za predlog –enoznačne glede sklona, ki ga zahtevajo (tj. lahko zahtevajo le en sklon, npr. do, iz, izmed, izpod, izven, namesto, onkraj, onstran, preko, zaradi zahtevajo le rodilnik). 13 je takih, ki lahko zahtevajo dva različna sklona (npr. na in po zahtevata bodisi tožilnik ali mestnik) ter en tak, ki lahko zahteva tri (za, tožilnik, rodilnik ali orodnik):
en sklon | dva sklona | trije skloni |
kljub, h/k, proti, kot, o, pri, do, iz, izmed, izpod, izven, namesto,
onkraj, onstran, preko, zaradi, prek, sredi, brez, od, razen, glede, mimo,
širom, znotraj, zraven, zunaj, poleg, okoli, okrog, krog, vrh, skoz, zoper, čez,
skozi, konec, ko, | u, v, s, nasproti, blizu, ž, na, po, ob, pred, nad, pod, med | za |
Če sklon, ki ga predlog zahteva, pripisujemo predlogu nazaj iz okolice, tj. iz sledečega samostalnika, lahko oznake te kategorije pripisujemo z veliko natančnostjo. Brez upoštevanja okolice nekaterim predlogom oznake ne moremo pripisati; za te primere je možna rešitev spet pripisovanje dvojne leme na prvi ravni označevanja, z možnostjo sekundarnega razdvoumljanja.
Predlog (D)
sklon, ki ga zahteva | rodilnik dajalnik tožilnik mestnik orodnik | r d t m o |
Preostali dve kategoriji, ki ju navaja MULTEXT-East V3, sta v predlogu izpuščeni: prva kategorija (vrsta) ni nadaljnje členjena oz. ima eno samo oznako, druga (sestavljenost) pa je postala redundantna zato, ker so vsi kandidati za oznako priponskega predloga že po sedanjem označevanju razvrščeni med zaimke.
Kategorija sklon, ki ga zahteva je ostala, ker je relativno lahko določljiva, kljub temu, da nekateri predlogi lahko zahtevajo ob sebi različne sklone – katerega v danem primeru rabe pa ni razvidno iz samega predloga, temveč šele iz konteksta. Ti predlogi so lahko v leksikon vneseni kot različne leme (za npr. trikrat, za vsak sklon enkrat). Na prvi stopnji označevanja bi bile oblikam tako pripisane vse možnosti za dani predlog, na višjih ravneh razdvoumljanja pa s pomočjo konteksta izbrana tista, ki ustreza.
Hm, to je slika.
Razvrstitev podobna kot pri MULTEXT-East V3.
Kako so označene sporne besede (en, drugi, petina), ni mogoče izvedeti, ker na spletni strani msd-ji niso podani.
Kot števniki so označeni tudi kvantifikatorji (nekaj, malo).
Članek glede števnikov ne pove nič zanimivega (izpostavi, da so števniki in zaimki vpeljani kot ločeni besedni vrsti). Ali pa mogoče nisem imela v rokah pravega članka?
Kot števniki so opredeljeni tudi:
vse vprašalnice, ki sprašujejo po količini (kolikokrat, kolikšen),
vsi prislovi, ki se nanašajo na količino (malo, mnogo, nekoliko, mnogokrat, …)
nekateri zaimki (nobeden),
deleži (petina, polovice, …) – v fidiplus opredeljeni kot samostalniki.
možnost negativne opredelitve spola (ne-ženski spol).
/
mešane besede (cifre + črke) označujejo posebej kot UNC (uncnown?), razen besed z oznakami za mere in valute, ki so označene kot samostalniki (NN);
tudi pridevnika naslednji in zadnji sta označena kot vrstilna števnika, ker se skladenjsko obnašata podobno;
deleži so označeni kot glavni števniki;
en je lahko tako števnik kot tudi zaimek (ga omenjajo kot glavno dvoumnost pri števnikih – oznaki: CRD-PNI, PNI-CRD).
En:
ni očitne logike, kdaj je označen kot števnik in kdaj kot zaimek. Dejansko ni vedno enostavna odločitev, ali gre za zaimek ali za števnik. Si tudi predstavljam, da za iste besede in iste govorce sodba ne bi bila vedno enaka :).
Drug/drugi:
Pregledala prvih 200 primerov leme 'drug' (zaimek) in je nekaj več kot 10 % števnikov.
Lema 'drugi: pregledanih 100 primerov, 33 % je dejansko števnikov, ostalo so zaimki.
Dejansko se je včasih nekoliko težko odločit oz. je treba prevajat. Ampak da se pa vseeno.
En:
Če označimo en kot zaimek samo v nekaterih zvezah (npr. #1en + od, #1en + so?mr, …), potem imamo s tem zajete samo nekatere zaimkovne rabe, notri pa se prikradejo tudi kaki števniki (npr. ena od treh favoritk). in je rešitev spet samo približek.
Zato dejansko najbolje označiti besedo 'en' kot samostojno besedno vrsto (števnik/zaimek) – posebno obravnavanje tudi v bnc in ajki in še kje.
Drug/drugi:
Lahko bi bila rešitev enaka kot pri 'en', samo zdi se mi, da je na roko vedno možno v končni fazi določit, ali gre za števnik. Še neodločena.
Določnost:
Verjetno je vseeno smiselno, da ostane pri množinskih, pri glavnih in vrstilnih ter drugih števnikih pa vreči ven!
Deleži:
Od posebnosti, ki jih ima Treebank, se verjetno splača razmisliti vsaj o tem, da se k števnikom doda deleže, ker se skladenjsko obnašajo zelo podobno kot glavni števniki od pet naprej (vežejo genitiv množine). Problem: sklanjajo se po 1. ženski samostalniški sklanjatvi in ne kot števniki nad pet. Zraven pridejo še besede stotine, tisoči, desettisoči (+ rodilnik množine), ki se obnašajo enako kot deleži (množinska oblika).
Z zeleno barvo so označene vrstice, ki pomenijo realen odmik od obstoječega seznama msd-jev.
PoS | Vrsta | spol | število | sklon | zapis | določnost | / | / | živost | opis | primeri |
K | glavni | - | - | - | ar | - | - | 1984/MCMLXXXIV | |||
K | vrstni | - | - | - | ar | - | - | 1984./MCMLXXXIV. | |||
K | glavni | mzs | emd | irdtmo | b | - | števniki od ena do štiri. živost bi se določala samo pri 'en', ki pa itak
dobi svojo kategorijo. Določnosti ni. | dva dve dveh dvema dva dve dveh dvema | |||
K | glavni | m | m | irdtmo | b | - | - | števniki od pet naprej | šest šestih šestim šest šestih šestim … | ||
K | vrstni | mzs | emd | irdtmo | b | - | dn | živost se določa pri Kvmetb. Določnosti ni. | prvi prva prvo prvega prvi prvega … | ||
K | množilni | mzs | emd | irdtmo | b | dn | dn | določnost se določa pri Kmmei (dvojen/dvojni); živost se določa pri
Kmmetb | dvojen/dvojna/dvojno | ||
K | drugi | mzs | emd | irdtmo | b | - | - | določnosti ni. | stotero, sedmero … | ||
K | zaimkovni | mzs | e(d?) | irdtmo | b | - | dn | en, drug/drugi??? |
Gor: Dodatek B Primerjava z drugimi priporočili za oblikoskladenjsko označevanje Prejšnji: Dodatek B.6 Števnik Naslednji: Dodatek B.8 Veznik