JOS morphosyntactic specifications for Slovene

Appendix B.7 Predlog

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.6 Števnik Next: Appendix B.8 Veznik

Table of contents

Simon Krek
Špela Arhar
5. 7. 2007

Appendix B.7.1 1 Analiza obstoječih rešitev

Appendix B.7.1.1 1.1 MULTEXT-East V3

Slovenski del nabora oznak v specifikacijah MULTEXT-East V3 predvideva tri kategorije za besedno vrsto predlog (za obravnavo predlogov v tem viru glej Erjavec, 2004: 181), in sicer vrsto, sestavljenost ter sklon, ki ga zahteva. Prva kategorija prinaša eno samo oznako – predlog, kategorija sestavljenost možnost enostavnega ter priponskega predloga, sklon pa vse sklone, ki jih predlog lahko zahteva:

1 vrsta
-
p
2 sestavljenost
enostavni
priponski
e
p
3 sklon, ki ga zahteva
rodilnik
dajalnik
tožilnik
mestnik
orodnik
r
d
t
m
o

V specifikacijah je med dodatnimi opombami navedeno, da:

  1. se v slovenščini predlogi pojavljajo pred določujočo besedno zvezo, razen v redkih primerih pred ali za njo (navkljub),

  2. leksikon zaenkrat prinaša le enostavne predloge, kljub temu, da kategorija prinaša oznako tudi za priponske.

Poglavje Kombinacije prinaša šest možnosti:

Dpp-
zase, nase, nanj, nanjo, nanju, …
Dper
brez, izpred, od, …
Dped
k, navzlic, …
Dpet
s, po, skozi, …
Dpem
po, na, v, …
Dpeo
pod, s, med, …
Appendix B.7.1.2 1.2 POS-beseda

Prislov je v naboru oznak za označevanje korpusa POS-beseda členjen glede na sklon, ki ga zahteva (Jakopin in Bizjak, 1997):

Tip
Sklon
Primer
predlog
2, 3, 4, 5, 6
iz

V Lönneker in Jakopin, 2004 je predlog, skupaj s povratnimi svojilnimi zaimki, uvrščen v skupino VII, članom katere se sicer pripisuje sklon, ni pa mogoča njihova povezava z imenovalnikom.

Poleg navedenega prinaša članek Lönneker in Jakopin, 2004 predvsem informacije, ki izvirajo iz evalvacije ročnega označevanja besedilnega materiala. Problemi pri označevanju predloga se kažejo predvsem na mestih, kjer je zaradi kakršnegakoli razloga predlogu težko pripisati sklon, ki ga le-ta zahteva: če se denimo predlog pojavlja pred obliko, ki ni v sklonu (od koder). Kadar se na takšnem mestu pojavlja predlog, ki se nedvoumno oz. dosledno povezuje z enim samim sklonom (kot se npr. predlog do z rodilnikom), je taisti sklon predpisan tudi v omenjenih problematičnih primerih. Glede na pogostnost problemov označevanja pri posameznem predlogu avtorja posebej obravnavata predloge na, po in za, za označevanje katerih podajata naslednje smernice:

Problem
Predlagani sklon
Primeri
na – s prislovi nastopa v kolokacijah, v katerih izgubi svoj jedrni pomen
tožilnik – analogno na druge zveze
na hitro, na desno, na bolje, na tak način, na mnogo načinov
po – s pridevniki (prislovi) in svojilnimi zaimki nastopa v kolokacijah, v katerih izgubi svoj jedrni pomen
tožilnik – analogno na druge zveze
po hebrejsko, po človeško, po svoje, po moje, po njihovo
po – s števniki in drugimi količinskimi izrazi se obnaša drugače, lahko ga celo izpuščamo
avtorja predlagata uvrstitev besede po med prislove
po ena, po dva ali trije, po eno, po več, po dve ali tri mere
za – nastopa pred prislovi v kolokacijah, ki izražajo količino
tožilnik – analogno na samostalniške zveze

za – posamezni problemi
prav = prislov, za = zahteva tožilnik
prav za prav
za – posamezni problemi
ohranimo jedrno zahtevo po sklonu: za = zahteva tožilnik, proti = zahteva dajalnik
s svojimi za in proti
Appendix B.7.1.3 1.3 LC-STAR in SImlex

Slovenščini prilagojene oblikoskladenjske oznake, izdelane po direktivah projekta LC-STAR, predložne besedne vrste ne členijo na nikakršen način. Literatura (Verdonik et al., 2003 in Verdonik et al., 2004) tudi ne prinaša informacij o tem, da bi bili predlogi na kakršenkoli način posebej obravnavani na ravni leksikona.

Appendix B.7.1.4 1.4 Praški Treebank

Nabor oznak PDT predvideva za označevanje predlogov naslednji sistem (Hana et al., 2005):

  1. kot predlog (R) na osnovni stopnji označevanja besednih vrst,

  2. na drugi, natančnejši stopnji označevanja besednih vrst bodisi kot splošni predlog, brez vokalizacije (R), kot predlog, ki se vokalizira (V) alikot predlog, ki nastopa le kot del stalnih besednih zvez (F).

Appendix B.7.1.5 1.5 Ajka

Ajka predvideva samo eno kategorijo pri označevanju predlogov, in sicer pripisovanje sklonov:

sklon
1, 2, 3, 4, 5, 6, 7
Appendix B.7.1.6 1.6 BNC

Sistem oznak CLAWS 7 prinaša za označevanje predlogov naslednje kategorije:

IF
for v vlogi predloga
II
predlog
IO
of v vlogi predloga
IW
with, without v vlogi predloga

Po tem sistemu predlogi torej niso nadaljnje členjeni, pogosto (oz. drugače kot ostali predlogi) rabljeni predlogi for, of, with ter without pa so izpostavljeni kot ločene kategorije.

CLAWS 5 in CLAWS 1

CLAWS 5 od skupine vseh ostalih predlogov (PRP) loči le predlog of (PRF). CLAWS 1 pa prinaša le eno samo oznako za vse predloge (IN). Noben od teh dveh sistemov ne predvideva nadaljnjega členjenja predložne besedne vrste.

Appendix B.7.2 2 Analiza označenega vzorca iz korpusa FidaPLUS

Nabor oznak za predloge, ki jih najdemo v korpusu FidaPLUS, naj bi bil takšen:

1 vrsta
-
p
2 sestavljenost
enostavni
priponski
e
p
3 sklon, ki ga zahteva
rodilnik
dajalnik
tožilnik
mestnik
orodnik
r
d
t
m
o
Appendix B.7.2.1 2.1 Določitev besedne vrste

Analiza vzorca iz korpusa FidaPLUS je pokazala, da je od 53-ih različnih besed, ki so v vzorcu označene za predlog, 22 takih, ki imajo zaenkrat leksikonsko predpisane le predložne leme, ostale pa so dvoumne, večinoma na račun enakopisnosti s prislovi (glede, mimo, širom, znotraj, zraven, zunaj, …) ali samostalniki (prek, sredi, brez, od, …):

samo predlog
možna druga lematizacija
kljub, o, pri, u, s, do, iz, izmed, izpod, izven, namesto, onkraj, onstran, preko, zaradi, ž, skoz, zoper, na, po, pred, za
h, k, proti, kot, v, prek, sredi, brez, od, nasproti, blizu, razen, glede, mimo, širom, znotraj, zraven, zunaj, poleg, okoli, okrog, krog, vrh, ob, nad, pod, čez, skozi, med, konec, ko

Z upoštevanjem besedne okolice je besednovrstna določitev predlogov, enakopisnih z drugimi besednimi vrstami, relativno enostavna, saj se predlogi pojavljajo v drugih okoljih kot npr. prislovi. Brez upoštevanja okolice je razdvoumljanje praktično nemogoče. V teh primerih bi bila najboljša možna rešitev pripisovanje dvojnih lem (npr. predložne ter prislovne), pri čemer se obe obravnavata kot enakovredni – do stopnje, na kateri je razdvoumljanje mogoče.

Appendix B.7.2.2 2.2 Sestavljenost

Besede, ki naj bi bile po predlogu MULTEXT-East V3 označene kot sestavljeni predlogi (name, nate itd.), so že sedaj v korpusu FidaPLUS dejansko označene kot zaimki, kar se kaže za dobro rešitev, ki bi jo bilo vredno obdržati.

Appendix B.7.2.3 2.3 Sklon, ki ga predlog zahteva

Analiza vzorca iz korpusa FidaPLUS je pokazala, da je od 53-ih različnih besed, ki so v vzorcu označene za predlog, 39 takih, ki so – kadar so označene za predlog –enoznačne glede sklona, ki ga zahtevajo (tj. lahko zahtevajo le en sklon, npr. do, iz, izmed, izpod, izven, namesto, onkraj, onstran, preko, zaradi zahtevajo le rodilnik). 13 je takih, ki lahko zahtevajo dva različna sklona (npr. na in po zahtevata bodisi tožilnik ali mestnik) ter en tak, ki lahko zahteva tri (za, tožilnik, rodilnik ali orodnik):

en sklon
dva sklona
trije skloni
kljub, h/k, proti, kot, o, pri, do, iz, izmed, izpod, izven, namesto, onkraj, onstran, preko, zaradi, prek, sredi, brez, od, razen, glede, mimo, širom, znotraj, zraven, zunaj, poleg, okoli, okrog, krog, vrh, skoz, zoper, čez, skozi, konec, ko,
u, v, s, nasproti, blizu, ž, na, po, ob, pred, nad, pod, med
za

Če sklon, ki ga predlog zahteva, pripisujemo predlogu nazaj iz okolice, tj. iz sledečega samostalnika, lahko oznake te kategorije pripisujemo z veliko natančnostjo. Brez upoštevanja okolice nekaterim predlogom oznake ne moremo pripisati; za te primere je možna rešitev spet pripisovanje dvojne leme na prvi ravni označevanja, z možnostjo sekundarnega razdvoumljanja.

Appendix B.7.3 3 Predlog kategorij in lastnosti

Predlog (D)

sklon, ki ga zahteva
rodilnik
dajalnik
tožilnik
mestnik
orodnik
r
d
t
m
o

Preostali dve kategoriji, ki ju navaja MULTEXT-East V3, sta v predlogu izpuščeni: prva kategorija (vrsta) ni nadaljnje členjena oz. ima eno samo oznako, druga (sestavljenost) pa je postala redundantna zato, ker so vsi kandidati za oznako priponskega predloga že po sedanjem označevanju razvrščeni med zaimke.

Kategorija sklon, ki ga zahteva je ostala, ker je relativno lahko določljiva, kljub temu, da nekateri predlogi lahko zahtevajo ob sebi različne sklone – katerega v danem primeru rabe pa ni razvidno iz samega predloga, temveč šele iz konteksta. Ti predlogi so lahko v leksikon vneseni kot različne leme (za npr. trikrat, za vsak sklon enkrat). Na prvi stopnji označevanja bi bile oblikam tako pripisane vse možnosti za dani predlog, na višjih ravneh razdvoumljanja pa s pomočjo konteksta izbrana tista, ki ustreza.

Hm, to je slika.

Appendix B.7.3.1 1.2 POS označevanje: Nova beseda
  1. Razvrstitev podobna kot pri MULTEXT-East V3.

  2. Kako so označene sporne besede (en, drugi, petina), ni mogoče izvedeti, ker na spletni strani msd-ji niso podani.

  3. Kot števniki so označeni tudi kvantifikatorji (nekaj, malo).

Appendix B.7.3.2 1.3 Simlex

Članek glede števnikov ne pove nič zanimivega (izpostavi, da so števniki in zaimki vpeljani kot ločeni besedni vrsti). Ali pa mogoče nisem imela v rokah pravega članka?

Appendix B.7.3.3 1.4 Praški Treebank

Kot števniki so opredeljeni tudi:

  1. vse vprašalnice, ki sprašujejo po količini (kolikokrat, kolikšen),

  2. vsi prislovi, ki se nanašajo na količino (malo, mnogo, nekoliko, mnogokrat, …)

  3. nekateri zaimki (nobeden),

  4. deleži (petina, polovice, …) – v fidiplus opredeljeni kot samostalniki.

  5. možnost negativne opredelitve spola (ne-ženski spol).

Appendix B.7.3.4 1.5 Ajka

/

Appendix B.7.3.5 1.6 BNC
  1. mešane besede (cifre + črke) označujejo posebej kot UNC (uncnown?), razen besed z oznakami za mere in valute, ki so označene kot samostalniki (NN);

  2. tudi pridevnika naslednji in zadnji sta označena kot vrstilna števnika, ker se skladenjsko obnašata podobno;

  3. deleži so označeni kot glavni števniki;

  4. en je lahko tako števnik kot tudi zaimek (ga omenjajo kot glavno dvoumnost pri števnikih – oznaki: CRD-PNI, PNI-CRD).

Appendix B.7.4 2 Predlog kategorij in lastnosti

Appendix B.7.4.1 2.1. Težave

En:

ni očitne logike, kdaj je označen kot števnik in kdaj kot zaimek. Dejansko ni vedno enostavna odločitev, ali gre za zaimek ali za števnik. Si tudi predstavljam, da za iste besede in iste govorce sodba ne bi bila vedno enaka :).

Drug/drugi:

Pregledala prvih 200 primerov leme 'drug' (zaimek) in je nekaj več kot 10 % števnikov.

Lema 'drugi: pregledanih 100 primerov, 33 % je dejansko števnikov, ostalo so zaimki.

Dejansko se je včasih nekoliko težko odločit oz. je treba prevajat. Ampak da se pa vseeno.

Appendix B.7.4.2 2.2. Predlog

En:

Če označimo en kot zaimek samo v nekaterih zvezah (npr. #1en + od, #1en + so?mr, …), potem imamo s tem zajete samo nekatere zaimkovne rabe, notri pa se prikradejo tudi kaki števniki (npr. ena od treh favoritk). in je rešitev spet samo približek.

Zato dejansko najbolje označiti besedo 'en' kot samostojno besedno vrsto (števnik/zaimek) – posebno obravnavanje tudi v bnc in ajki in še kje.

Drug/drugi:

Lahko bi bila rešitev enaka kot pri 'en', samo zdi se mi, da je na roko vedno možno v končni fazi določit, ali gre za števnik. Še neodločena.

Določnost:

Verjetno je vseeno smiselno, da ostane pri množinskih, pri glavnih in vrstilnih ter drugih števnikih pa vreči ven!

Deleži:

Od posebnosti, ki jih ima Treebank, se verjetno splača razmisliti vsaj o tem, da se k števnikom doda deleže, ker se skladenjsko obnašajo zelo podobno kot glavni števniki od pet naprej (vežejo genitiv množine). Problem: sklanjajo se po 1. ženski samostalniški sklanjatvi in ne kot števniki nad pet. Zraven pridejo še besede stotine, tisoči, desettisoči (+ rodilnik množine), ki se obnašajo enako kot deleži (množinska oblika).

Appendix B.7.4.3 2.3. Msd-ji (predlog)

Z zeleno barvo so označene vrstice, ki pomenijo realen odmik od obstoječega seznama msd-jev.

PoS
Vrsta
spol
število
sklon
zapis
določnost
/
/
živost
opis
primeri
K
glavni
-
-
-
ar
-


-

1984/MCMLXXXIV
K
vrstni
-
-
-
ar
-


-

1984./MCMLXXXIV.
K
glavni
mzs
emd
irdtmo
b
-



števniki od ena do štiri. živost bi se določala samo pri 'en', ki pa itak dobi svojo kategorijo. Določnosti ni.
dva dve dveh dvema dva dve dveh dvema
K
glavni
m
m
irdtmo
b
-


-
števniki od pet naprej
šest šestih šestim šest šestih šestim …

K
vrstni
mzs
emd
irdtmo
b
-


dn
živost se določa pri Kvmetb. Določnosti ni.
prvi prva prvo prvega prvi prvega …
K
množilni
mzs
emd
irdtmo
b
dn


dn
določnost se določa pri Kmmei (dvojen/dvojni); živost se določa pri Kmmetb
dvojen/dvojna/dvojno
K
drugi
mzs
emd
irdtmo
b
-


-
določnosti ni.
stotero, sedmero …
K
zaimkovni
mzs
e(d?)
irdtmo
b
-


dn

en, drug/drugi???

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Previous: Appendix B.6 Števnik Next: Appendix B.8 Veznik



Tomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Date: 2010-03-07
This work is licenced under the Creative Commons Attribution 3.0 Slovenia.