JOS morphosyntactic specifications for Slovene

Appendix B.1 Samostalnik

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol

Table of contents

Darja Fišer
27. marec 2007

Appendix B.1.1 Analiza obstoječih rešitev

Appendix B.1.1.1 MULTEXT-East V3

Glagolnik je označen kot samostalnik, npr. 'iskati' -> 'iskanje', Sosei. Živost je označena samo pri samostalnikih moškega spola v ednini in tožilniku (S*met). Pri moških samostalnikih, ki se sklanjajo po ženski sklanjatvi in imajo dve tožilniški obliki, sta obe obliki označeni kot živi, npr. vodjo / vodja, Somet-d.

Appendix B.1.1.2 POS-beseda
osn. opredelitev
vrsta
lastnosti
vrednosti
samostalnik
obči
glagolnik
spol
moški
ženski
srednji


število
ednina
dvojina
množina
lastno ime
osebna imena
imena prebivalcev
veroslovna imena
živalska imena
zemljepisna imena
mitološka imena
stvarna imena
sklon
imenovalnik
rodilnik
dajalnik
tožilnik
mestnik
orodnik
Appendix B.1.1.3 Simlex
osn. opredelitev
vrsta
lastnosti
vrednosti
samostalnik
občno ime
osebno ime
spol
moški
ženski
srednji
nespremenljiv

zemljepisno ime
država
mesto
ulica
organizacija
blagovna znamka
kulturno-zgodovinsko ime
število
ednina
dvojina
množina
nespremenljiv


sklon
imenovalnik
rodilnik
dajalnik
tožilnik
mestnik
orodnik
nesklonljiv


živost
živ
neživ

Živost je označena samo pri moških samostalnikih v ednini v tožilniku.

Appendix B.1.1.4 BNC
osn. opredelitev
vrsta
lastnosti
vrednosti
citirana beseda
občno ime
»izprislovni samostalnik«

število
ednina
množina
lastno ime
krajevno
naziv
okrajšava
sklon
rodilnik


pisava
velika začetnica
Appendix B.1.1.5 Praški Treebank
osn. opredelitev
lastnosti
vrednosti
samostalnik
spol
ženski
ženski/srednji
moški živi
moški neživi
srednji
nedoločljiv
moški (živi/neživi)

število
ednina
dvojina
množina
nedoločljivo

sklon
imenovalnik
rodilnik
dajalnik
tožilnik
vokativ
mestnik
orodnik
nesklonljiv
lastno ime
ime
priimek
prebivalec
zemljepisno
podjetje/organizacija
izdelek
ostalo

stilistične oznake
…*

* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.

Appendix B.1.1.6 Ajka
osn. opredelitev
lastnosti
vrednosti
samostalnik
spol
ženski
moški živi
moški neživi
srednji
družina

število
ednina
dvojina
množina
družina (Novakovi)

sklon
imenovalnik
rodilnik
dajalnik
tožilnik
vokativ
mestnik
orodnik
stilistične oznake
…*

* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.

Appendix B.1.1.7 Claws
osn. opredelitev
vrsta
lastnosti
vrednosti
samostalnik, ki označuje smer

število
nevtralen
ednina
množina
občno ime
občno



naziv-za
naziv-pred
krajevni
števni
časovni
merski


lastno ime
lastno
ime dni v tednu
ime meseca


Appendix B.1.1.8 Primerjava in komentar
Appendix B.1.1.8.1 Občno/lastno ime/glagolnik

Nova beseda ločuje med kategorijama samostalnik (S) in (lastno) ime (I), kar pomeni, da se je potrebno že takoj opredeliti, ali je določena beseda lastno ime ali ne. Pri MULTEXT-Eastu V3 in Simlexu je beseda najprej opredeljena kot samostalnik, šele nato pa kot lastno ali občno ime. To za razliko od Nove besede omogoča, da lahko vsa lastna imena v prvi fazi opredelimo kot samostalnike in s tem omogočimo, da se z njimi ukvarjamo kasneje.

Taka je bila tudi izbira pri BNC in Claws: v BNC so lastna imena najprej označena z NN1 ali NN2 (singular/plural common noun), ko so prepoznana kot lastna, pa dobijo lastnoimensko oznako NP0. Prague Treebank kategorijo lastnega imena ločuje od morfo-sintaktičnih oznak (skupaj z določanjem večbesednih lastnih imen in terminov), Ajka pa kategorije lastnega imena nima.

Nova beseda in Simlex kategorijo lastnih imen delita na podkategorije, (najverjetneje za lažje določanje izgovorjave teh besed). Vprašanje je, do kakšne mere lahko zagotovimo samodejno pravilno ločevanje že med geografskimi in osebnimi imeni ter imeni organizacij, še toliko bolj pa med živalskimi, mitološkimi in veroslovnimi imeni.

BNC posebej označuje krajevna imena in nazive, Claws pa imena dni v tednu in imena mesecev (zaprta kategorija, prepoznavanje ni problematično, vendar za slovenščino nerelevantno).

Appendix B.1.1.8.2 Lastnosti oznak

Vsi trije slovenski sistemi označevanja samostalnike opisujejo z istimi lastnostmi: spol, sklon in število, ki imajo tudi iste vrednosti: trije spoli, šest sklonov, tri števila. Simlex se od MULTEXT-Easta V3 in POS-besede razlikuje v tem, da spolu in številu dodaja še četrto vrednost: nespremenljiv, sklonu pa še vrednost: nesklonljiv.

Nadalje se razlike pojavljajo pri označevanju živosti, ki je Nova beseda sploh ne označuje, MULTEXT-East V3 in Simlex pa samo pri samostalnikih.

Razlika v živosti/neživosti se v slovenskem jeziku pojavlja samo pri samostalnikih moškega spola in sicer le za samostalnike moškega spola, ki se sklanjajo po prvi sklanjatvi v tožilniku ednine.

Glede na to, da korpus FIDA+ nima predvidene kategorije sklanjatvenega vzorca, torej pripisuje živost/neživost tudi delu samostalnikov, ki razlike živo/neživo sploh ne pozna na ravni paradigmatskega vzorca, kajti razliko poznajo le samostalniki, ki se sklanjajo po I. moški sklanjatvi, kar pomeni, da je FIDA+ v kategoriji živost/neživost na morfo-sintaktični ravni podaja informacijo, ki je semanične, ne pa oblikoskladenjske narave. Tuji nabori oznak te kategorije ne poznajo.

Pri naboru Nova beseda se kot podkategorija samostalnika pojavlja tudi opredelitev "glagolnik". MULTEXT-East V3 in Simlex te kategorije ne vsebujeta, temveč glagolnike uvrščata med samostalnike. Glede na to, da gre pri glagolniku za besedotvorni postopek, lahko trdimo, da je razlika zgolj semantične narave in zato ne sodi na raven morfosintaktičnega označevanja. Tuji nabori oznak te kategorije ne poznajo.

Vprašljivo je tudi označevanje posamostaljenih pridevnikov (npr. »Mladim je treba omogočiti kvalitetno preživljanje prostega časa«). Na ravni nabora oznak kategorija ni nikjer izpostavljena, opredelitev pa je vendarle pomembna za določanje vrhnje kategorije (samostalnik ali pridevnik).

Appendix B.1.2 Predlog kategorij in lastnosti

Appendix B.1.2.1 Težave
Appendix B.1.2.1.1 Napačno uvrščanje besed med samostalnike
  1. napake zaradi tipkarskih napak

  2. napake zaradi tokenizacije (15.00Otroški) – če se nam zdi potrebno, bi precej napak dalo odpraviti z regularnimi izrazi

  3. glagoli (zagotovil)

  4. posamostaljeni pridevniki (mladi, nezaposleni, pravi, prida, tuji) – vsi pridevniki, tudi posamostaljeni, bi morali biti uvrščeni med pridevnike

  5. prislovi (koliko, niti), števniki (eden), vezniki (kot), zaimki (vas) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa

Appendix B.1.2.1.2 Napačno uvrščanje samostalnikov med druge besedne vrste
  1. napake zaradi tipkarskih napak (kanddiati)

  2. neoznačene (čefur, Nakla, pranoterapevt)

  3. glagoli (delo, pomladi, smeti, meni, lista) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa

  4. okrajšave:

nesistematično razvrščanje okrajšav med samostalnike ali okrajšave (npr. itd. je okrajšava, št., ing. in mag. samostalnik, dipl. pa pridevnik napačna tokenizacija pri v.d., kot v. in d., vendar samo d. označen kot okrajšava, v. pa ostane neoznačen)

Appendix B.1.2.1.3 VRSTA (OBČNO IME, LASTNO IME): o l

iz vzorca

  1. napake pri procesiranju datotek (Č)

  2. enobesedna lastna imena (Nič) - priimek, označen kot zaimek

  3. večbesedna lastna imena (x glas, x dolina) - označena kot občno ime - vendar tudi Dolina na začetku stavka, mišljena kot občno ime, označena pa kot lastno

s seznama 1000 naključno izbranih lastnih imen:

  1. napačno prepoznano kot lastno ime

~ 200 od 1000, npr. ZARECITIRAL, SUBCONTRACTING

(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, večinoma tuje besede, pridevniki na -ski [INDOIRANSKI] vs. priimki na -ski [BARBUTOVSKI]???) – rezultate bi bilo mogoče izboljšati z regularnimi izrazi

  1. napačna tokenizacija

~ 100 od 1000, npr. izkosmič, KOMBAJNZMAJ - raje označiti kot podkategorijo med neznanimi besedami?

  1. tipkarske napake

~ 100 od 1000, npr. BLUEERRY, DESETJETJE

(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, kljub tipkarskim napakam, raje označiti kot neznane???)

  1. približna razvrstitev prepoznanih lastnih imen na kategorije, samo za okvirno predstavo, kaj vse je prepoznano kot lastno ime:

    imena božanstev (1)

    geografska imena (~50)

    osebna imena (~20)

    imena izdelkov (~20)

    imena, ki izražajo pripadnost narodu, veroizpovedi… (~10)

    imena organizacij in podjetij (~20)

    priimki (~200)

    kratice (~100)

Približno polovice imen s seznama brez sobesedila ni bilo mogoče uvrstiti v nobeno od kategorij.

Appendix B.1.2.1.4 SPOL (MOŠKI, ŽENSKI, SREDNJI): m z s
  1. ženski namesto moški (magister, neodvisniki)

(v povezavi z napačnim številom in sklonom, lemmass vsebuje pravo lemo, msdss vsebuje pravo oznako)

  1. moški namesto ženski (lista)

(v povezavi z napačno lematizacijo in sklonom, lemmas in lemmass vsebujeta pravo lemo, msds in msdss vsebujeta pravo oznako)

Appendix B.1.2.1.5 ŠTEVILO (EDNINA, MNOŽINA, DVOJINA): e m d
  1. dvojina namesto ednine (celoti, kmeta)

(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako) – rezultate bi bilo mogoče izboljšati z ročno označenim korpusom in boljšim taggerjem

  1. množina namesto ednine (magister, ž. sp. množ. rod.)

(v povezavi z napačnim sklonom in spolom, msdss vsebuje pravo oznako)

  1. ednina namesto množine (ceste, stranke)

(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako)

Appendix B.1.2.1.6 SKLON (IMENOVALNIK, RODILNIK, DAJALNIK, TOŽILNIK, MESTNIK, ORODNIK): i r d t m o
  1. orodnik namesto dajalnika (gospodinjstvom)

  2. imenovalnik namesto dajalnika (občine)

  3. mestnik namesto dajalnika (službi)

  4. rodilnik namesto imenovalnika (Jesenice – Jesenica, možnosti)

(napačna lema, predvsem pri lastnih imenih in množini)

  1. dajalnik namesto imenovalnika (neodvisniki)

  2. rodilnik namesto imenovalnika (stranke, občine)

(napačno število, ednina namesto množina in potem rodilnik namesto imenovalnika)

  1. imenovalnik namesto mestnika (celoti)

  2. imenovalnik namesto orodnika (leti)

(napačna lema)

  1. tožilnik namesto orodnika (publicistiko, tradicijo

  2. imenovalnik namesto rodilnika (kmeta, kraja)

  3. tožilnik namesto rodilnika (celota

  4. imenovalnik namesto tožilnika (turizem, režim)

  5. rodilnik namesto tožilnika (vasi)

  6. orodnik namesto tožilnika (županjo)

(msds ali msdss vsebujeta prave oznake)

Najbolj kritična se mi zdi napaka, ko je imenovalnik (osebek v povedi) zamenjan s kakšnim drugim sklonom.

Appendix B.1.2.1.7 NEZNANE BESEDE

Mala začetnica

  1. medmeti (ej, bum, ih)

  2. okrajšave (d.o.o., d.o.o) ~ 100 od 1000

  1. pridevniki (avdio, mega, turbo)

  2. samostalniki (ekspres, sauvignon)

  3. vezniki (predno) - slovnične besedne vrste bi lahko vse dodali v leksikon

  1. zaimki (mnogočem) - slovnične besedne vrste bi lahko vse dodali v leksikon

  2. napačna tokenizacija (www., phpBB)

  3. tipkarske napake (poslji, spoloh, ampak tudi: mravla, tko

  4. tuje besede (talkshow, prix) ~ 100 od 1000

ampak: kaj pa tuje besede, ki ne vsebujejo neslovenskega nabora znakov (npr. none, blues), kaj pa tuje besede, ki so sklanjane po slovensko (npr. rallyja)?

  1. spletni in elektronski naslovi (www.agentkranj.si, ime.priimek@domena.xx)

  2. solata (~30)

Velika začetnica

  1. okrajšave (CO2, Feb, Avs, M2, Pe) ~70

  2. lastna imena (Airways, Wang) ~500 od 1000

  1. medmeti (Hja, Ej, Uf)

  2. samostalniki (Infokanal, Giro) ~20

  3. tokenizacija (onMouseOut, Brezpla, Si.)

  4. tuje besede (With, Cache) ~50

  1. tipkarske napake (Prekmurji)

  2. spletni in elektronski naslovi (MojForum.si, Ime.Priimek@domena.xx)

  3. številke, ure, datumi, negativna št., decimalna št., telefonske številke ipd. - ~150 od 1000

  1. Neuvrščeno (§, F255)

Appendix B.1.2.2 Predlog
osn. opredelitev
vrsta
lastnosti
vrednosti
samostalnik
občno ime
lastno ime*
spol
moški
ženski
srednji


število
ednina
dvojina
množina


sklon
imenovalnik
rodilnik
dajalnik
tožilnik
mestnik
orodnik


živost
da
ne

* V skladu s pregledom ostalih naborov oznak in glede na pregledan vzorec besedil ter seznam naključno izbranih prepoznanih lastnih imen predlagam, da lastna imena zaenkrat ostanejo kot vrsta samostalnika. V tem primeru so lastna imena, če niso prepoznana kot lastna, še vedno uvrščena v (večinoma) ustrezno kategorijo glede na besedno vrsto. Npr. samostalnik, ki ni prepoznan kot lastno ime, bo še vedno označen kot samostalnik, prav tako deli večbesednih lastnih imen, ki ne bodo prepoznani (npr. Buenos, New, Škofja).

Besedilni vzorec in seznam naključno izbranih lastnih imen kažeta, da so kot lastna imena prepoznani praviloma samostalniki, kadar prihaja do napak, je to zaradi napačne tokenizacije, daljšega dela besedila, zapisanega z velikimi tiskanimi črkami oz. tipkarskih napak. Veliko problematičnih primerov bi se dalo rešiti z izboljšanim predprocesiranjem besedil pred označevanjem. Informacija o posameznih delih večbesednih lastnih imen je sicer izgubljena, vendar je uvrščanje na vrhnji ravni kljub temu ustrezno (npr. Kranjska).

Tak sistem prav tako omogoča avtomatski prehod na označevanje lastnih imen na vrhnji ravni, ko bo prepoznavanje (večbesednih) lastnih imen dovolj izpopolnjeno, kot so storili v novejših različicah nabora oznak Prague Treebank, Claws in BNC.

Predlagam pa poskus izboljšanja natančnejšega prepoznavanja lastnih imen s pomočjo filtriranja predvsem v primerih, ko so kot lastna imena prepoznane besede, ki to niso, izključno na podlagi zapisa z velikimi tiskanimi črkami oz. zaradi napačne tokenizacije.

Neznane besede

S predprocesiranjem bi bilo mogoče število neznanih besed precej zmanjšati.Leksikon bi lahko dopolnili z manjkajočimi slovničnimi besednimi vrstami (predno, mnogočem). Z zmogljivejšim prepoznavanjem okrajšav in števnikov bi številne zdaj neznane besede lahko uvrstili med okrajšave oz. števnike (d.o.o., d.o.o, , CO2, Feb, pa tudi ure, datume, negativna št., decimalna št., telefonske številke). Z upoštevanjem stalnih napak v tokenizaciji sicer predvidljivih vzorcev bi lahko izboljšali prepoznavanje spletnih in elektronskih naslovov (www.naslov.končnica, ime.priimek@domena.končnica). Med neznanimi besedami je tudi veliko neprepoznanih lastnih imen, ki bi jih prav tako lahko polovili z regularnimi izrazi (npr. vse neprve besede v stavku, napisane z veliko začetnico).

Za besede, ki kljub temu ostanejo neprepoznane, pa predlagam razvrščanje v naslednje podkategorije:

- napačna tokenizacija (recimo čudni nizi črk, števil, ločil)

- tipkarske napake (ne vem, koliko je to sploh mogoče označevati z avtomatskimi metodami, zato je ta kategorija vprašljiva)

- tuje besede (citatne): gre za daljše besedilne enote v tujem jeziku, npr. naslove knjižnih del ali pesmi ali posamezne tuje besede brez slovenskih obrazil. Sem ne prištevam tujih besed s slovenskimi obrazili.

Se pa zastavlja vprašanje, kaj z izoliranimi tujimi besedami, ki so rabljena citatno, vendar ne vsebujejo neslovenskega nabora črk, hkrati pa tudi niso lastna imena (in niso zapisana z veliko začetnico).

Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol



Tomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Date: 2010-03-07
This work is licenced under the Creative Commons Attribution 3.0 Slovenia.