JOS morphosyntactic specifications for Slovene

Appendix B.1 Samostalnik

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol

Table of contents

Darja Fišer

27. marec 2007

Appendix B.1.1 Analiza obstoječih rešitev

Appendix B.1.1.1 MULTEXT-East V3

Glagolnik je označen kot samostalnik, npr. 'iskati' -> 'iskanje', Sosei. Živost je označena samo pri samostalnikih moškega spola v ednini in tožilniku (S*met). Pri moških samostalnikih, ki se sklanjajo po ženski sklanjatvi in imajo dve tožilniški obliki, sta obe obliki označeni kot živi, npr. vodjo / vodja, Somet-d.

Appendix B.1.1.2 POS-beseda

osn. opredelitev	vrsta	lastnosti	vrednosti
samostalnik	obči glagolnik	spol	moški ženski srednji
		število	ednina dvojina množina
lastno ime	osebna imena imena prebivalcev veroslovna imena živalska imena zemljepisna imena mitološka imena stvarna imena	sklon	imenovalnik rodilnik dajalnik tožilnik mestnik orodnik

Appendix B.1.1.3 Simlex

osn. opredelitev	vrsta	lastnosti	vrednosti
samostalnik	občno ime osebno ime	spol	moški ženski srednji nespremenljiv
	zemljepisno ime država mesto ulica organizacija blagovna znamka kulturno-zgodovinsko ime	število	ednina dvojina množina nespremenljiv
		sklon	imenovalnik rodilnik dajalnik tožilnik mestnik orodnik nesklonljiv
		živost	živ neživ

Živost je označena samo pri moških samostalnikih v ednini v tožilniku.

Appendix B.1.1.4 BNC

osn. opredelitev	vrsta	lastnosti	vrednosti
citirana beseda občno ime »izprislovni samostalnik«		število	ednina množina
lastno ime	krajevno naziv okrajšava	sklon	rodilnik
		pisava	velika začetnica

Appendix B.1.1.5 Praški Treebank

osn. opredelitev	lastnosti	vrednosti
samostalnik	spol	ženski ženski/srednji moški živi moški neživi srednji nedoločljiv moški (živi/neživi)
	število	ednina dvojina množina nedoločljivo
	sklon	imenovalnik rodilnik dajalnik tožilnik vokativ mestnik orodnik nesklonljiv
lastno ime	ime priimek prebivalec zemljepisno podjetje/organizacija izdelek ostalo
stilistične oznake	…*

* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.

Appendix B.1.1.6 Ajka

osn. opredelitev	lastnosti	vrednosti
samostalnik	spol	ženski moški živi moški neživi srednji družina
	število	ednina dvojina množina družina (Novakovi)
	sklon	imenovalnik rodilnik dajalnik tožilnik vokativ mestnik orodnik
stilistične oznake	…*

* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.

Appendix B.1.1.7 Claws

osn. opredelitev	vrsta	lastnosti	vrednosti
samostalnik, ki označuje smer		število	nevtralen ednina množina
občno ime	občno
	naziv-za naziv-pred krajevni števni časovni merski
lastno ime	lastno ime dni v tednu ime meseca

Appendix B.1.1.8 Primerjava in komentar

Appendix B.1.1.8.1 Občno/lastno ime/glagolnik

Nova beseda ločuje med kategorijama samostalnik (S) in (lastno) ime (I), kar pomeni, da se je potrebno že takoj opredeliti, ali je določena beseda lastno ime ali ne. Pri MULTEXT-Eastu V3 in Simlexu je beseda najprej opredeljena kot samostalnik, šele nato pa kot lastno ali občno ime. To za razliko od Nove besede omogoča, da lahko vsa lastna imena v prvi fazi opredelimo kot samostalnike in s tem omogočimo, da se z njimi ukvarjamo kasneje.

Taka je bila tudi izbira pri BNC in Claws: v BNC so lastna imena najprej označena z NN1 ali NN2 (singular/plural common noun), ko so prepoznana kot lastna, pa dobijo lastnoimensko oznako NP0. Prague Treebank kategorijo lastnega imena ločuje od morfo-sintaktičnih oznak (skupaj z določanjem večbesednih lastnih imen in terminov), Ajka pa kategorije lastnega imena nima.

Nova beseda in Simlex kategorijo lastnih imen delita na podkategorije, (najverjetneje za lažje določanje izgovorjave teh besed). Vprašanje je, do kakšne mere lahko zagotovimo samodejno pravilno ločevanje že med geografskimi in osebnimi imeni ter imeni organizacij, še toliko bolj pa med živalskimi, mitološkimi in veroslovnimi imeni.

BNC posebej označuje krajevna imena in nazive, Claws pa imena dni v tednu in imena mesecev (zaprta kategorija, prepoznavanje ni problematično, vendar za slovenščino nerelevantno).

Appendix B.1.1.8.2 Lastnosti oznak

Vsi trije slovenski sistemi označevanja samostalnike opisujejo z istimi lastnostmi: spol, sklon in število, ki imajo tudi iste vrednosti: trije spoli, šest sklonov, tri števila. Simlex se od MULTEXT-Easta V3 in POS-besede razlikuje v tem, da spolu in številu dodaja še četrto vrednost: nespremenljiv, sklonu pa še vrednost: nesklonljiv.

Nadalje se razlike pojavljajo pri označevanju živosti, ki je Nova beseda sploh ne označuje, MULTEXT-East V3 in Simlex pa samo pri samostalnikih.

Razlika v živosti/neživosti se v slovenskem jeziku pojavlja samo pri samostalnikih moškega spola in sicer le za samostalnike moškega spola, ki se sklanjajo po prvi sklanjatvi v tožilniku ednine.

Glede na to, da korpus FIDA+ nima predvidene kategorije sklanjatvenega vzorca, torej pripisuje živost/neživost tudi delu samostalnikov, ki razlike živo/neživo sploh ne pozna na ravni paradigmatskega vzorca, kajti razliko poznajo le samostalniki, ki se sklanjajo po I. moški sklanjatvi, kar pomeni, da je FIDA+ v kategoriji živost/neživost na morfo-sintaktični ravni podaja informacijo, ki je semanične, ne pa oblikoskladenjske narave. Tuji nabori oznak te kategorije ne poznajo.

Pri naboru Nova beseda se kot podkategorija samostalnika pojavlja tudi opredelitev "glagolnik". MULTEXT-East V3 in Simlex te kategorije ne vsebujeta, temveč glagolnike uvrščata med samostalnike. Glede na to, da gre pri glagolniku za besedotvorni postopek, lahko trdimo, da je razlika zgolj semantične narave in zato ne sodi na raven morfosintaktičnega označevanja. Tuji nabori oznak te kategorije ne poznajo.

Vprašljivo je tudi označevanje posamostaljenih pridevnikov (npr. »Mladim je treba omogočiti kvalitetno preživljanje prostega časa«). Na ravni nabora oznak kategorija ni nikjer izpostavljena, opredelitev pa je vendarle pomembna za določanje vrhnje kategorije (samostalnik ali pridevnik).

Appendix B.1.2 Predlog kategorij in lastnosti

Appendix B.1.2.1 Težave

Appendix B.1.2.1.1 Napačno uvrščanje besed med samostalnike

napake zaradi tipkarskih napak
napake zaradi tokenizacije (15.00Otroški) – če se nam zdi potrebno, bi precej napak dalo odpraviti z regularnimi izrazi
glagoli (zagotovil)
posamostaljeni pridevniki (mladi, nezaposleni, pravi, prida, tuji) – vsi pridevniki, tudi posamostaljeni, bi morali biti uvrščeni med pridevnike
prislovi (koliko, niti), števniki (eden), vezniki (kot), zaimki (vas) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa

Appendix B.1.2.1.2 Napačno uvrščanje samostalnikov med druge besedne vrste

napake zaradi tipkarskih napak (kanddiati)
neoznačene (čefur, Nakla, pranoterapevt)
glagoli (delo, pomladi, smeti, meni, lista) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa
okrajšave:

nesistematično razvrščanje okrajšav med samostalnike ali okrajšave (npr. itd. je okrajšava, št., ing. in mag. samostalnik, dipl. pa pridevnik napačna tokenizacija pri v.d., kot v. in d., vendar samo d. označen kot okrajšava, v. pa ostane neoznačen)

Appendix B.1.2.1.3 VRSTA (OBČNO IME, LASTNO IME): o l

iz vzorca

napake pri procesiranju datotek (Č)
enobesedna lastna imena (Nič) - priimek, označen kot zaimek
večbesedna lastna imena (x glas, x dolina) - označena kot občno ime - vendar tudi Dolina na začetku stavka, mišljena kot občno ime, označena pa kot lastno

s seznama 1000 naključno izbranih lastnih imen:

napačno prepoznano kot lastno ime

~ 200 od 1000, npr. ZARECITIRAL, SUBCONTRACTING

(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, večinoma tuje besede, pridevniki na -ski [INDOIRANSKI] vs. priimki na -ski [BARBUTOVSKI]???) – rezultate bi bilo mogoče izboljšati z regularnimi izrazi

napačna tokenizacija

~ 100 od 1000, npr. izkosmič, KOMBAJNZMAJ - raje označiti kot podkategorijo med neznanimi besedami?

tipkarske napake

~ 100 od 1000, npr. BLUEERRY, DESETJETJE

(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, kljub tipkarskim napakam, raje označiti kot neznane???)

približna razvrstitev prepoznanih lastnih imen na kategorije, samo za okvirno predstavo, kaj vse je prepoznano kot lastno ime:
imena božanstev (1)
geografska imena (~50)
osebna imena (~20)
imena izdelkov (~20)
imena, ki izražajo pripadnost narodu, veroizpovedi… (~10)
imena organizacij in podjetij (~20)
priimki (~200)
kratice (~100)

Približno polovice imen s seznama brez sobesedila ni bilo mogoče uvrstiti v nobeno od kategorij.

Appendix B.1.2.1.4 SPOL (MOŠKI, ŽENSKI, SREDNJI): m z s

ženski namesto moški (magister, neodvisniki)

(v povezavi z napačnim številom in sklonom, lemmass vsebuje pravo lemo, msdss vsebuje pravo oznako)

moški namesto ženski (lista)

(v povezavi z napačno lematizacijo in sklonom, lemmas in lemmass vsebujeta pravo lemo, msds in msdss vsebujeta pravo oznako)

Appendix B.1.2.1.5 ŠTEVILO (EDNINA, MNOŽINA, DVOJINA): e m d

dvojina namesto ednine (celoti, kmeta)

(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako) – rezultate bi bilo mogoče izboljšati z ročno označenim korpusom in boljšim taggerjem

množina namesto ednine (magister, ž. sp. množ. rod.)

(v povezavi z napačnim sklonom in spolom, msdss vsebuje pravo oznako)

ednina namesto množine (ceste, stranke)

(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako)

Appendix B.1.2.1.6 SKLON (IMENOVALNIK, RODILNIK, DAJALNIK, TOŽILNIK, MESTNIK, ORODNIK): i r d t m o

orodnik namesto dajalnika (gospodinjstvom)
imenovalnik namesto dajalnika (občine)
mestnik namesto dajalnika (službi)
rodilnik namesto imenovalnika (Jesenice – Jesenica, možnosti)

(napačna lema, predvsem pri lastnih imenih in množini)

dajalnik namesto imenovalnika (neodvisniki)
rodilnik namesto imenovalnika (stranke, občine)

(napačno število, ednina namesto množina in potem rodilnik namesto imenovalnika)

imenovalnik namesto mestnika (celoti)
imenovalnik namesto orodnika (leti)

(napačna lema)

tožilnik namesto orodnika (publicistiko, tradicijo
imenovalnik namesto rodilnika (kmeta, kraja)
tožilnik namesto rodilnika (celota
imenovalnik namesto tožilnika (turizem, režim)
rodilnik namesto tožilnika (vasi)
orodnik namesto tožilnika (županjo)

(msds ali msdss vsebujeta prave oznake)

Najbolj kritična se mi zdi napaka, ko je imenovalnik (osebek v povedi) zamenjan s kakšnim drugim sklonom.

Appendix B.1.2.1.7 NEZNANE BESEDE

Mala začetnica

medmeti (ej, bum, ih)
okrajšave (d.o.o., d.o.o) ~ 100 od 1000

pridevniki (avdio, mega, turbo)
samostalniki (ekspres, sauvignon)
vezniki (predno) - slovnične besedne vrste bi lahko vse dodali v leksikon

zaimki (mnogočem) - slovnične besedne vrste bi lahko vse dodali v leksikon
napačna tokenizacija (www., phpBB)
tipkarske napake (poslji, spoloh, ampak tudi: mravla, tko
tuje besede (talkshow, prix) ~ 100 od 1000

ampak: kaj pa tuje besede, ki ne vsebujejo neslovenskega nabora znakov (npr. none, blues), kaj pa tuje besede, ki so sklanjane po slovensko (npr. rallyja)?

spletni in elektronski naslovi (www.agentkranj.si, ime.priimek@domena.xx)
solata (~30)

Velika začetnica

okrajšave (CO2, Feb, Avs, M2, Pe) ~70
lastna imena (Airways, Wang) ~500 od 1000

medmeti (Hja, Ej, Uf)
samostalniki (Infokanal, Giro) ~20
tokenizacija (onMouseOut, Brezpla, Si.)
tuje besede (With, Cache) ~50

tipkarske napake (Prekmurji)
spletni in elektronski naslovi (MojForum.si, Ime.Priimek@domena.xx)
številke, ure, datumi, negativna št., decimalna št., telefonske številke ipd. - ~150 od 1000

Neuvrščeno (§, F255)

Appendix B.1.2.2 Predlog

osn. opredelitev	vrsta	lastnosti	vrednosti
samostalnik	občno ime lastno ime*	spol	moški ženski srednji
		število	ednina dvojina množina
		sklon	imenovalnik rodilnik dajalnik tožilnik mestnik orodnik
		živost	da ne

* V skladu s pregledom ostalih naborov oznak in glede na pregledan vzorec besedil ter seznam naključno izbranih prepoznanih lastnih imen predlagam, da lastna imena zaenkrat ostanejo kot vrsta samostalnika. V tem primeru so lastna imena, če niso prepoznana kot lastna, še vedno uvrščena v (večinoma) ustrezno kategorijo glede na besedno vrsto. Npr. samostalnik, ki ni prepoznan kot lastno ime, bo še vedno označen kot samostalnik, prav tako deli večbesednih lastnih imen, ki ne bodo prepoznani (npr. Buenos, New, Škofja).

Besedilni vzorec in seznam naključno izbranih lastnih imen kažeta, da so kot lastna imena prepoznani praviloma samostalniki, kadar prihaja do napak, je to zaradi napačne tokenizacije, daljšega dela besedila, zapisanega z velikimi tiskanimi črkami oz. tipkarskih napak. Veliko problematičnih primerov bi se dalo rešiti z izboljšanim predprocesiranjem besedil pred označevanjem. Informacija o posameznih delih večbesednih lastnih imen je sicer izgubljena, vendar je uvrščanje na vrhnji ravni kljub temu ustrezno (npr. Kranjska).

Tak sistem prav tako omogoča avtomatski prehod na označevanje lastnih imen na vrhnji ravni, ko bo prepoznavanje (večbesednih) lastnih imen dovolj izpopolnjeno, kot so storili v novejših različicah nabora oznak Prague Treebank, Claws in BNC.

Predlagam pa poskus izboljšanja natančnejšega prepoznavanja lastnih imen s pomočjo filtriranja predvsem v primerih, ko so kot lastna imena prepoznane besede, ki to niso, izključno na podlagi zapisa z velikimi tiskanimi črkami oz. zaradi napačne tokenizacije.

Neznane besede

S predprocesiranjem bi bilo mogoče število neznanih besed precej zmanjšati.Leksikon bi lahko dopolnili z manjkajočimi slovničnimi besednimi vrstami (predno, mnogočem). Z zmogljivejšim prepoznavanjem okrajšav in števnikov bi številne zdaj neznane besede lahko uvrstili med okrajšave oz. števnike (d.o.o., d.o.o, , CO2, Feb, pa tudi ure, datume, negativna št., decimalna št., telefonske številke). Z upoštevanjem stalnih napak v tokenizaciji sicer predvidljivih vzorcev bi lahko izboljšali prepoznavanje spletnih in elektronskih naslovov (www.naslov.končnica, ime.priimek@domena.končnica). Med neznanimi besedami je tudi veliko neprepoznanih lastnih imen, ki bi jih prav tako lahko polovili z regularnimi izrazi (npr. vse neprve besede v stavku, napisane z veliko začetnico).

Za besede, ki kljub temu ostanejo neprepoznane, pa predlagam razvrščanje v naslednje podkategorije:

- napačna tokenizacija (recimo čudni nizi črk, števil, ločil)

- tipkarske napake (ne vem, koliko je to sploh mogoče označevati z avtomatskimi metodami, zato je ta kategorija vprašljiva)

- tuje besede (citatne): gre za daljše besedilne enote v tujem jeziku, npr. naslove knjižnih del ali pesmi ali posamezne tuje besede brez slovenskih obrazil. Sem ne prištevam tujih besed s slovenskimi obrazili.

Se pa zastavlja vprašanje, kaj z izoliranimi tujimi besedami, ki so rabljena citatno, vendar ne vsebujejo neslovenskega nabora črk, hkrati pa tudi niso lastna imena (in niso zapisana z veliko začetnico).

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol

Tomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Date: 2010-03-07
This work is licenced under the Creative Commons Attribution 3.0 Slovenia.