Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol
Table of contents
Glagolnik je označen kot samostalnik, npr. 'iskati' -> 'iskanje', Sosei. Živost je označena samo pri samostalnikih moškega spola v ednini in tožilniku (S*met). Pri moških samostalnikih, ki se sklanjajo po ženski sklanjatvi in imajo dve tožilniški obliki, sta obe obliki označeni kot živi, npr. vodjo / vodja, Somet-d.
osn. opredelitev | vrsta | lastnosti | vrednosti |
samostalnik | obči glagolnik | spol | moški ženski srednji |
število | ednina dvojina množina | ||
lastno ime | osebna imena imena prebivalcev veroslovna imena živalska imena zemljepisna imena mitološka imena stvarna imena | sklon | imenovalnik rodilnik dajalnik tožilnik mestnik orodnik |
osn. opredelitev | vrsta | lastnosti | vrednosti |
samostalnik | občno ime osebno ime | spol | moški ženski srednji nespremenljiv |
zemljepisno ime država mesto ulica organizacija blagovna znamka kulturno-zgodovinsko ime | število | ednina dvojina množina nespremenljiv | |
sklon | imenovalnik rodilnik dajalnik tožilnik mestnik orodnik nesklonljiv | ||
živost | živ neživ |
Živost je označena samo pri moških samostalnikih v ednini v tožilniku.
osn. opredelitev | vrsta | lastnosti | vrednosti |
citirana beseda občno ime »izprislovni samostalnik« | število | ednina množina | |
lastno ime | krajevno naziv okrajšava | sklon | rodilnik |
pisava | velika začetnica |
osn. opredelitev | lastnosti | vrednosti |
samostalnik | spol | ženski ženski/srednji moški živi moški neživi srednji nedoločljiv moški (živi/neživi) |
število | ednina dvojina množina nedoločljivo | |
sklon | imenovalnik rodilnik dajalnik tožilnik vokativ mestnik orodnik nesklonljiv | |
lastno ime | ime priimek prebivalec zemljepisno podjetje/organizacija izdelek ostalo | |
stilistične oznake | …* |
* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.
osn. opredelitev | lastnosti | vrednosti |
samostalnik | spol | ženski moški živi moški neživi srednji družina |
število | ednina dvojina množina družina (Novakovi) | |
sklon | imenovalnik rodilnik dajalnik tožilnik vokativ mestnik orodnik | |
stilistične oznake | …* |
* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.
osn. opredelitev | vrsta | lastnosti | vrednosti |
samostalnik, ki označuje smer | število | nevtralen ednina množina | |
občno ime | občno | ||
naziv-za naziv-pred krajevni števni časovni merski | |||
lastno ime | lastno ime dni v tednu ime meseca |
Nova beseda ločuje med kategorijama samostalnik (S) in (lastno) ime (I), kar pomeni, da se je potrebno že takoj opredeliti, ali je določena beseda lastno ime ali ne. Pri MULTEXT-Eastu V3 in Simlexu je beseda najprej opredeljena kot samostalnik, šele nato pa kot lastno ali občno ime. To za razliko od Nove besede omogoča, da lahko vsa lastna imena v prvi fazi opredelimo kot samostalnike in s tem omogočimo, da se z njimi ukvarjamo kasneje.
Taka je bila tudi izbira pri BNC in Claws: v BNC so lastna imena najprej označena z NN1 ali NN2 (singular/plural common noun), ko so prepoznana kot lastna, pa dobijo lastnoimensko oznako NP0. Prague Treebank kategorijo lastnega imena ločuje od morfo-sintaktičnih oznak (skupaj z določanjem večbesednih lastnih imen in terminov), Ajka pa kategorije lastnega imena nima.
Nova beseda in Simlex kategorijo lastnih imen delita na podkategorije, (najverjetneje za lažje določanje izgovorjave teh besed). Vprašanje je, do kakšne mere lahko zagotovimo samodejno pravilno ločevanje že med geografskimi in osebnimi imeni ter imeni organizacij, še toliko bolj pa med živalskimi, mitološkimi in veroslovnimi imeni.
BNC posebej označuje krajevna imena in nazive, Claws pa imena dni v tednu in imena mesecev (zaprta kategorija, prepoznavanje ni problematično, vendar za slovenščino nerelevantno).
Vsi trije slovenski sistemi označevanja samostalnike opisujejo z istimi lastnostmi: spol, sklon in število, ki imajo tudi iste vrednosti: trije spoli, šest sklonov, tri števila. Simlex se od MULTEXT-Easta V3 in POS-besede razlikuje v tem, da spolu in številu dodaja še četrto vrednost: nespremenljiv, sklonu pa še vrednost: nesklonljiv.
Nadalje se razlike pojavljajo pri označevanju živosti, ki je Nova beseda sploh ne označuje, MULTEXT-East V3 in Simlex pa samo pri samostalnikih.
Razlika v živosti/neživosti se v slovenskem jeziku pojavlja samo pri samostalnikih moškega spola in sicer le za samostalnike moškega spola, ki se sklanjajo po prvi sklanjatvi v tožilniku ednine.
Glede na to, da korpus FIDA+ nima predvidene kategorije sklanjatvenega vzorca, torej pripisuje živost/neživost tudi delu samostalnikov, ki razlike živo/neživo sploh ne pozna na ravni paradigmatskega vzorca, kajti razliko poznajo le samostalniki, ki se sklanjajo po I. moški sklanjatvi, kar pomeni, da je FIDA+ v kategoriji živost/neživost na morfo-sintaktični ravni podaja informacijo, ki je semanične, ne pa oblikoskladenjske narave. Tuji nabori oznak te kategorije ne poznajo.
Pri naboru Nova beseda se kot podkategorija samostalnika pojavlja tudi opredelitev "glagolnik". MULTEXT-East V3 in Simlex te kategorije ne vsebujeta, temveč glagolnike uvrščata med samostalnike. Glede na to, da gre pri glagolniku za besedotvorni postopek, lahko trdimo, da je razlika zgolj semantične narave in zato ne sodi na raven morfosintaktičnega označevanja. Tuji nabori oznak te kategorije ne poznajo.
Vprašljivo je tudi označevanje posamostaljenih pridevnikov (npr. »Mladim je treba omogočiti kvalitetno preživljanje prostega časa«). Na ravni nabora oznak kategorija ni nikjer izpostavljena, opredelitev pa je vendarle pomembna za določanje vrhnje kategorije (samostalnik ali pridevnik).
napake zaradi tipkarskih napak
napake zaradi tokenizacije (15.00Otroški) – če se nam zdi potrebno, bi precej napak dalo odpraviti z regularnimi izrazi
glagoli (zagotovil)
posamostaljeni pridevniki (mladi, nezaposleni, pravi, prida, tuji) – vsi pridevniki, tudi posamostaljeni, bi morali biti uvrščeni med pridevnike
prislovi (koliko, niti), števniki (eden), vezniki (kot), zaimki (vas) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa
napake zaradi tipkarskih napak (kanddiati)
neoznačene (čefur, Nakla, pranoterapevt)
glagoli (delo, pomladi, smeti, meni, lista) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa
okrajšave:
nesistematično razvrščanje okrajšav med samostalnike ali okrajšave (npr. itd. je okrajšava, št., ing. in mag. samostalnik, dipl. pa pridevnik napačna tokenizacija pri v.d., kot v. in d., vendar samo d. označen kot okrajšava, v. pa ostane neoznačen)
iz vzorca
napake pri procesiranju datotek (Č)
enobesedna lastna imena (Nič) - priimek, označen kot zaimek
večbesedna lastna imena (x glas, x dolina) - označena kot občno ime - vendar tudi Dolina na začetku stavka, mišljena kot občno ime, označena pa kot lastno
s seznama 1000 naključno izbranih lastnih imen:
napačno prepoznano kot lastno ime
~ 200 od 1000, npr. ZARECITIRAL, SUBCONTRACTING
(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, večinoma tuje besede, pridevniki na -ski [INDOIRANSKI] vs. priimki na -ski [BARBUTOVSKI]???) – rezultate bi bilo mogoče izboljšati z regularnimi izrazi
napačna tokenizacija
~ 100 od 1000, npr. izkosmič, KOMBAJNZMAJ - raje označiti kot podkategorijo med neznanimi besedami?
tipkarske napake
~ 100 od 1000, npr. BLUEERRY, DESETJETJE
(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, kljub tipkarskim napakam, raje označiti kot neznane???)
približna razvrstitev prepoznanih lastnih imen na kategorije, samo za okvirno predstavo, kaj vse je prepoznano kot lastno ime:
imena božanstev (1)
geografska imena (~50)
osebna imena (~20)
imena izdelkov (~20)
imena, ki izražajo pripadnost narodu, veroizpovedi… (~10)
imena organizacij in podjetij (~20)
priimki (~200)
kratice (~100)
Približno polovice imen s seznama brez sobesedila ni bilo mogoče uvrstiti v nobeno od kategorij.
ženski namesto moški (magister, neodvisniki)
(v povezavi z napačnim številom in sklonom, lemmass vsebuje pravo lemo, msdss vsebuje pravo oznako)
moški namesto ženski (lista)
(v povezavi z napačno lematizacijo in sklonom, lemmas in lemmass vsebujeta pravo lemo, msds in msdss vsebujeta pravo oznako)
dvojina namesto ednine (celoti, kmeta)
(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako) – rezultate bi bilo mogoče izboljšati z ročno označenim korpusom in boljšim taggerjem
množina namesto ednine (magister, ž. sp. množ. rod.)
(v povezavi z napačnim sklonom in spolom, msdss vsebuje pravo oznako)
ednina namesto množine (ceste, stranke)
(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako)
orodnik namesto dajalnika (gospodinjstvom)
imenovalnik namesto dajalnika (občine)
mestnik namesto dajalnika (službi)
rodilnik namesto imenovalnika (Jesenice – Jesenica, možnosti)
(napačna lema, predvsem pri lastnih imenih in množini)
dajalnik namesto imenovalnika (neodvisniki)
rodilnik namesto imenovalnika (stranke, občine)
(napačno število, ednina namesto množina in potem rodilnik namesto imenovalnika)
imenovalnik namesto mestnika (celoti)
imenovalnik namesto orodnika (leti)
(napačna lema)
tožilnik namesto orodnika (publicistiko, tradicijo
imenovalnik namesto rodilnika (kmeta, kraja)
tožilnik namesto rodilnika (celota
imenovalnik namesto tožilnika (turizem, režim)
rodilnik namesto tožilnika (vasi)
orodnik namesto tožilnika (županjo)
(msds ali msdss vsebujeta prave oznake)
Najbolj kritična se mi zdi napaka, ko je imenovalnik (osebek v povedi) zamenjan s kakšnim drugim sklonom.
Mala začetnica
medmeti (ej, bum, ih)
okrajšave (d.o.o., d.o.o) ~ 100 od 1000
pridevniki (avdio, mega, turbo)
samostalniki (ekspres, sauvignon)
vezniki (predno) - slovnične besedne vrste bi lahko vse dodali v leksikon
zaimki (mnogočem) - slovnične besedne vrste bi lahko vse dodali v leksikon
napačna tokenizacija (www., phpBB)
tipkarske napake (poslji, spoloh, ampak tudi: mravla, tko
tuje besede (talkshow, prix) ~ 100 od 1000
ampak: kaj pa tuje besede, ki ne vsebujejo neslovenskega nabora znakov (npr. none, blues), kaj pa tuje besede, ki so sklanjane po slovensko (npr. rallyja)?
spletni in elektronski naslovi (www.agentkranj.si, ime.priimek@domena.xx)
solata (~30)
Velika začetnica
okrajšave (CO2, Feb, Avs, M2, Pe) ~70
lastna imena (Airways, Wang) ~500 od 1000
medmeti (Hja, Ej, Uf)
samostalniki (Infokanal, Giro) ~20
tokenizacija (onMouseOut, Brezpla, Si.)
tuje besede (With, Cache) ~50
tipkarske napake (Prekmurji)
spletni in elektronski naslovi (MojForum.si, Ime.Priimek@domena.xx)
številke, ure, datumi, negativna št., decimalna št., telefonske številke ipd. - ~150 od 1000
Neuvrščeno (§, F255)
osn. opredelitev | vrsta | lastnosti | vrednosti |
samostalnik | občno ime lastno ime* | spol | moški ženski srednji |
število | ednina dvojina množina | ||
sklon | imenovalnik rodilnik dajalnik tožilnik mestnik orodnik | ||
živost | da ne |
* V skladu s pregledom ostalih naborov oznak in glede na pregledan vzorec besedil ter seznam naključno izbranih prepoznanih lastnih imen predlagam, da lastna imena zaenkrat ostanejo kot vrsta samostalnika. V tem primeru so lastna imena, če niso prepoznana kot lastna, še vedno uvrščena v (večinoma) ustrezno kategorijo glede na besedno vrsto. Npr. samostalnik, ki ni prepoznan kot lastno ime, bo še vedno označen kot samostalnik, prav tako deli večbesednih lastnih imen, ki ne bodo prepoznani (npr. Buenos, New, Škofja).
Besedilni vzorec in seznam naključno izbranih lastnih imen kažeta, da so kot lastna imena prepoznani praviloma samostalniki, kadar prihaja do napak, je to zaradi napačne tokenizacije, daljšega dela besedila, zapisanega z velikimi tiskanimi črkami oz. tipkarskih napak. Veliko problematičnih primerov bi se dalo rešiti z izboljšanim predprocesiranjem besedil pred označevanjem. Informacija o posameznih delih večbesednih lastnih imen je sicer izgubljena, vendar je uvrščanje na vrhnji ravni kljub temu ustrezno (npr. Kranjska).
Tak sistem prav tako omogoča avtomatski prehod na označevanje lastnih imen na vrhnji ravni, ko bo prepoznavanje (večbesednih) lastnih imen dovolj izpopolnjeno, kot so storili v novejših različicah nabora oznak Prague Treebank, Claws in BNC.
Predlagam pa poskus izboljšanja natančnejšega prepoznavanja lastnih imen s pomočjo filtriranja predvsem v primerih, ko so kot lastna imena prepoznane besede, ki to niso, izključno na podlagi zapisa z velikimi tiskanimi črkami oz. zaradi napačne tokenizacije.
Neznane besede
S predprocesiranjem bi bilo mogoče število neznanih besed precej zmanjšati.Leksikon bi lahko dopolnili z manjkajočimi slovničnimi besednimi vrstami (predno, mnogočem). Z zmogljivejšim prepoznavanjem okrajšav in števnikov bi številne zdaj neznane besede lahko uvrstili med okrajšave oz. števnike (d.o.o., d.o.o, , CO2, Feb, pa tudi ure, datume, negativna št., decimalna št., telefonske številke). Z upoštevanjem stalnih napak v tokenizaciji sicer predvidljivih vzorcev bi lahko izboljšali prepoznavanje spletnih in elektronskih naslovov (www.naslov.končnica, ime.priimek@domena.končnica). Med neznanimi besedami je tudi veliko neprepoznanih lastnih imen, ki bi jih prav tako lahko polovili z regularnimi izrazi (npr. vse neprve besede v stavku, napisane z veliko začetnico).
Za besede, ki kljub temu ostanejo neprepoznane, pa predlagam razvrščanje v naslednje podkategorije:
- napačna tokenizacija (recimo čudni nizi črk, števil, ločil)
- tipkarske napake (ne vem, koliko je to sploh mogoče označevati z avtomatskimi metodami, zato je ta kategorija vprašljiva)
- tuje besede (citatne): gre za daljše besedilne enote v tujem jeziku, npr. naslove knjižnih del ali pesmi ali posamezne tuje besede brez slovenskih obrazil. Sem ne prištevam tujih besed s slovenskimi obrazili.
Se pa zastavlja vprašanje, kaj z izoliranimi tujimi besedami, ki so rabljena citatno, vendar ne vsebujejo neslovenskega nabora črk, hkrati pa tudi niso lastna imena (in niso zapisana z veliko začetnico).
Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol