Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol
Table of contents
Glagolnik je označen kot samostalnik, npr. 'iskati' -> 'iskanje', Sosei. Živost je označena samo pri samostalnikih moškega spola v ednini in tožilniku (S*met). Pri moških samostalnikih, ki se sklanjajo po ženski sklanjatvi in imajo dve tožilniški obliki, sta obe obliki označeni kot živi, npr. vodjo / vodja, Somet-d.
Živost je označena samo pri moških samostalnikih v ednini v tožilniku.
* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.
* Stilističnih oznak v analizo ne vključujem, ker so za nas nerelevantne.
Nova beseda ločuje med kategorijama samostalnik (S) in (lastno) ime (I), kar pomeni, da se je potrebno že takoj opredeliti, ali je določena beseda lastno ime ali ne. Pri Multext-Eastu in Simlexu je beseda najprej opredeljena kot samostalnik, šele nato pa kot lastno ali občno ime. To za razliko od Nove besede omogoča, da lahko vsa lastna imena v prvi fazi opredelimo kot samostalnike in s tem omogočimo, da se z njimi ukvarjamo kasneje.
Taka je bila tudi izbira pri BNC in Claws: v BNC so lastna imena najprej označena z NN1 ali NN2 (singular/plural common noun), ko so prepoznana kot lastna, pa dobijo lastnoimensko oznako NP0. Prague Treebank kategorijo lastnega imena ločuje od morfo-sintaktičnih oznak (skupaj z določanjem večbesednih lastnih imen in terminov), Ajka pa kategorije lastnega imena nima.
Nova beseda in Simlex kategorijo lastnih imen delita na podkategorije, (najverjetneje za lažje določanje izgovorjave teh besed). Vprašanje je, do kakšne mere lahko zagotovimo samodejno pravilno ločevanje že med geografskimi in osebnimi imeni ter imeni organizacij, še toliko bolj pa med živalskimi, mitološkimi in veroslovnimi imeni.
BNC posebej označuje krajevna imena in nazive, Claws pa imena dni v tednu in imena mesecev (zaprta kategorija, prepoznavanje ni problematično, vendar za slovenščino nerelevantno).
Vsi trije slovenski sistemi označevanja samostalnike opisujejo z istimi lastnostmi: spol, sklon in število, ki imajo tudi iste vrednosti: trije spoli, šest sklonov, tri števila. Simlex se od Multext-Easta in POS-besede razlikuje v tem, da spolu in številu dodaja še četrto vrednost: nespremenljiv, sklonu pa še vrednost: nesklonljiv.
Nadalje se razlike pojavljajo pri označevanju živosti, ki je Nova beseda sploh ne označuje, Multext-East in Simlex pa samo pri samostalnikih.
Razlika v živosti/neživosti se v slovenskem jeziku pojavlja samo pri samostalnikih moškega spola in sicer le za samostalnike moškega spola, ki se sklanjajo po prvi sklanjatvi v tožilniku ednine.
Glede na to, da korpus FIDA+ nima predvidene kategorije sklanjatvenega vzorca, torej pripisuje živost/neživost tudi delu samostalnikov, ki razlike živo/neživo sploh ne pozna na ravni paradigmatskega vzorca, kajti razliko poznajo le samostalniki, ki se sklanjajo po I. moški sklanjatvi, kar pomeni, da je FIDA+ v kategoriji živost/neživost na morfo-sintaktični ravni podaja informacijo, ki je semanične, ne pa oblikoskladenjske narave. Tuji nabori oznak te kategorije ne poznajo.
Pri naboru Nova beseda se kot podkategorija samostalnika pojavlja tudi opredelitev "glagolnik". Multext-East in Simlex te kategorije ne vsebujeta, temveč glagolnike uvrščata med samostalnike. Glede na to, da gre pri glagolniku za besedotvorni postopek, lahko trdimo, da je razlika zgolj semantične narave in zato ne sodi na raven morfosintaktičnega označevanja. Tuji nabori oznak te kategorije ne poznajo.
Vprašljivo je tudi označevanje posamostaljenih pridevnikov (npr. »Mladim je treba omogočiti kvalitetno preživljanje prostega časa«). Na ravni nabora oznak kategorija ni nikjer izpostavljena, opredelitev pa je vendarle pomembna za določanje vrhnje kategorije (samostalnik ali pridevnik).
napake zaradi tokenizacije (15.00Otroški) – če se nam zdi potrebno, bi precej napak dalo odpraviti z regularnimi izrazi
posamostaljeni pridevniki (mladi, nezaposleni, pravi, prida, tuji) – vsi pridevniki, tudi posamostaljeni, bi morali biti uvrščeni med pridevnike
prislovi (koliko, niti), števniki (eden), vezniki (kot), zaimki (vas) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa
glagoli (delo, pomladi, smeti, meni, lista) – rezultate razdvoumljanja je mogoče izboljšati na podlagi ročno označenega vzorčnega korpusa
nesistematično razvrščanje okrajšav med samostalnike ali okrajšave (npr. itd. je okrajšava, št., ing. in mag. samostalnik, dipl. pa pridevnik napačna tokenizacija pri v.d., kot v. in d., vendar samo d. označen kot okrajšava, v. pa ostane neoznačen)
večbesedna lastna imena (x glas, x dolina) - označena kot občno ime - vendar tudi Dolina na začetku stavka, mišljena kot občno ime, označena pa kot lastno
s seznama 1000 naključno izbranih lastnih imen:
~ 200 od 1000, npr. ZARECITIRAL, SUBCONTRACTING
(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, večinoma tuje besede, pridevniki na -ski [INDOIRANSKI] vs. priimki na -ski [BARBUTOVSKI]???) – rezultate bi bilo mogoče izboljšati z regularnimi izrazi
~ 100 od 1000, npr. izkosmič, KOMBAJNZMAJ - raje označiti kot podkategorijo med neznanimi besedami?
~ 100 od 1000, npr. BLUEERRY, DESETJETJE
(besede, pisane z velikimi tiskanimi črkami, označene kot lastno ime, kljub tipkarskim napakam, raje označiti kot neznane???)
približna razvrstitev prepoznanih lastnih imen na kategorije, samo za okvirno predstavo, kaj vse je prepoznano kot lastno ime:
imena, ki izražajo pripadnost narodu, veroizpovedi… (~10)
Približno polovice imen s seznama brez sobesedila ni bilo mogoče uvrstiti v nobeno od kategorij.
(v povezavi z napačnim številom in sklonom, lemmass vsebuje pravo lemo, msdss vsebuje pravo oznako)
(v povezavi z napačno lematizacijo in sklonom, lemmas in lemmass vsebujeta pravo lemo, msds in msdss vsebujeta pravo oznako)
(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako) – rezultate bi bilo mogoče izboljšati z ročno označenim korpusom in boljšim taggerjem
(v povezavi z napačnim sklonom in spolom, msdss vsebuje pravo oznako)
(v povezavi z napačnim sklonom, msds in msdss vsebujeta pravo oznako)
(napačna lema, predvsem pri lastnih imenih in množini)
(napačno število, ednina namesto množina in potem rodilnik namesto imenovalnika)
(msds ali msdss vsebujeta prave oznake)
Najbolj kritična se mi zdi napaka, ko je imenovalnik (osebek v povedi) zamenjan s kakšnim drugim sklonom.
ampak: kaj pa tuje besede, ki ne vsebujejo neslovenskega nabora znakov (npr. none, blues), kaj pa tuje besede, ki so sklanjane po slovensko (npr. rallyja)?
osn. opredelitev |
vrsta |
lastnosti |
vrednosti |
samostalnik |
občno ime lastno ime* |
spol |
moški ženski srednji |
|
|
število |
ednina dvojina množina |
|
|
sklon |
imenovalnik rodilnik dajalnik tožilnik mestnik orodnik |
|
|
živost |
da ne |
* V skladu s pregledom ostalih naborov oznak in glede na pregledan vzorec besedil ter seznam naključno izbranih prepoznanih lastnih imen predlagam, da lastna imena zaenkrat ostanejo kot vrsta samostalnika. V tem primeru so lastna imena, če niso prepoznana kot lastna, še vedno uvrščena v (večinoma) ustrezno kategorijo glede na besedno vrsto. Npr. samostalnik, ki ni prepoznan kot lastno ime, bo še vedno označen kot samostalnik, prav tako deli večbesednih lastnih imen, ki ne bodo prepoznani (npr. Buenos, New, Škofja).
Besedilni vzorec in seznam naključno izbranih lastnih imen kažeta, da so kot lastna imena prepoznani praviloma samostalniki, kadar prihaja do napak, je to zaradi napačne tokenizacije, daljšega dela besedila, zapisanega z velikimi tiskanimi črkami oz. tipkarskih napak. Veliko problematičnih primerov bi se dalo rešiti z izboljšanim predprocesiranjem besedil pred označevanjem. Informacija o posameznih delih večbesednih lastnih imen je sicer izgubljena, vendar je uvrščanje na vrhnji ravni kljub temu ustrezno (npr. Kranjska).
Tak sistem prav tako omogoča avtomatski prehod na označevanje lastnih imen na vrhnji ravni, ko bo prepoznavanje (večbesednih) lastnih imen dovolj izpopolnjeno, kot so storili v novejših različicah nabora oznak Prague Treebank, Claws in BNC.
Predlagam pa poskus izboljšanja natančnejšega prepoznavanja lastnih imen s pomočjo filtriranja predvsem v primerih, ko so kot lastna imena prepoznane besede, ki to niso, izključno na podlagi zapisa z velikimi tiskanimi črkami oz. zaradi napačne tokenizacije.
S predprocesiranjem bi bilo mogoče število neznanih besed precej zmanjšati.Leksikon bi lahko dopolnili z manjkajočimi slovničnimi besednimi vrstami (predno, mnogočem). Z zmogljivejšim prepoznavanjem okrajšav in števnikov bi številne zdaj neznane besede lahko uvrstili med okrajšave oz. števnike (d.o.o., d.o.o, , CO2, Feb, pa tudi ure, datume, negativna št., decimalna št., telefonske številke). Z upoštevanjem stalnih napak v tokenizaciji sicer predvidljivih vzorcev bi lahko izboljšali prepoznavanje spletnih in elektronskih naslovov (www.naslov.končnica, ime.priimek@domena.končnica). Med neznanimi besedami je tudi veliko neprepoznanih lastnih imen, ki bi jih prav tako lahko polovili z regularnimi izrazi (npr. vse neprve besede v stavku, napisane z veliko začetnico).
Za besede, ki kljub temu ostanejo neprepoznane, pa predlagam razvrščanje v naslednje podkategorije:
- napačna tokenizacija (recimo čudni nizi črk, števil, ločil)
- tipkarske napake (ne vem, koliko je to sploh mogoče označevati z avtomatskimi metodami, zato je ta kategorija vprašljiva)
- tuje besede (citatne): gre za daljše besedilne enote v tujem jeziku, npr. naslove knjižnih del ali pesmi ali posamezne tuje besede brez slovenskih obrazil. Sem ne prištevam tujih besed s slovenskimi obrazili.
Se pa zastavlja vprašanje, kaj z izoliranimi tujimi besedami, ki so rabljena citatno, vendar ne vsebujejo neslovenskega nabora črk, hkrati pa tudi niso lastna imena (in niso zapisana z veliko začetnico).
Up: Appendix B Comparison with other recommendations for morphosyntactic annotation Next: Appendix B.2 Glagol