Priporočila za oblikoslovno označevanje JOS

Dodatek B.4 Prislov

Gor: Dodatek B Primerjava z drugimi priporočili za oblikoskladenjsko označevanje Prejšnji: Dodatek B.3 Pridevnik Naslednji: Dodatek B.5 Zaimek

Kazalo

Špela Arhar
5. 7. 2007

Dodatek B.4.1 1 Analiza obstoječih rešitev

Dodatek B.4.1.1 1.1 MULTEXT-East V3

Slovenski del nabora oznak v priporočilih MULTEXT-East V3 predvideva dve kategoriji za besedno vrsto prislov (za obravnavo prislova v tem viru glej Erjavec, 2004: 168), in sicer vrsto ter stopnjo. Prva kategorija prinaša eno samo oznako – splošni, kategorija stopnja pa štiri možne oznake – osnovnik, primernik, presežnik ter elativ:

1 vrsta
splošni
s
2 stopnja
osnovnik
primernik
presežnik
elativ
o
p
r
e

V priporočilih je med dodatnimi opombami navedeno, da:

  1. so deležja klasificirana kot prislovi,

  2. lahko nekateri zaimki nastopajo v prislovni funkciji, da pa trenutni nabor oznak pušča ta problem ob strani.

Ker ima kategorija vrsta le eno oznako, je kombinacij oznak malo. Poglavje Kombinacije prinaša tri primere (bljuvaje, kasneje, najprijazneje), brez primera pa ostaja na mestu kombinacije s kategorijo elativ. [Opomba: Primeri za to kombinacijo iz korpusa FidaPLUS so recimo preveč, premalo, prepogosto itd. ]

Tudi poglavje Leksikon prinaša le tri primere, in sicer čist – čisteje, čist – najčisteje ter Šeligo – Šeligovo.

Dodatek B.4.1.2 1.2 POS-beseda

Prislov je v naboru oznak za označevanje korpusa POS-beseda členjen glede na stopnjo – na nestopnjevano obliko ter na stopnjevanje prve oz. druge stopnje (Jakopin in Bizjak, 1997):

Tip
Stopnja
Primer
prislov
/, j, jj
resnično

Tudi v Lönneker in Jakopin, 2004 je prislov – glede na to, kako se pregiba – kot edini besednovrstni predstavnik razvrščen v skupino VIII, članom katere se pripisuje zgolj stopnje.

Poleg že navedenega prinaša članek Lönneker in Jakopin, 2004 predvsem informacije, ki izvirajo iz evalvacije označevanja. Problematike prislova se avtorja dotikata na več mestih:

  1. Posebej obravnavata problem uvrščanja predikata (rad). Mestoma se predikat obnaša podobno kot prislov (primerniška in presežniška oblika raje, najraje sta vzporednica oblikama rajši, najrajši), ima pa specifike, ki so prislovu tuje (prvi od navedenih parov izraža le stopnjo, medtem ko drugi, vsaj v teoriji, tudi spol in število: rajši, rajša, rajše). Posledično je predikat izpostavljen kot posebna skupina znotraj sistema označevanja.

  2. Po primerjavi predlaganega nabora oznak z naborom oznak, ki se po ročnem označevanju dejansko pojavljajo v korpusu (razlike so posledica ročnega označevanja oz. interpretacij človeških označevalcev), se je pokazalo, da je označevalcem med drugim povzročalo probleme tudi ločevanje med zaimki ter prislovi. Problematične primere (le-te so označevalci označili kot zaimke, niso pa jim znali določiti natančnejših oznak) avtorja po večini uvrščata med prislove – glavni kriterij za razvrstitev je nesklonljivost prislovov v primerjavi s sklonljivostjo zaimkov:

Kategorija, ki so jo izbirali označevalci
Predlagana kategorija
Primeri
časovni zaimek
prislov
tedaj
drugostni zaimek
prislov
drugje, drugače, drugam
kazalni zaimek
prislov
tu, tule, tukaj, tod, sem, semle, semkaj, tam, tamle, tja, tjale, tjakaj, tak, tako, takó, takole, takóle, toliko, odkod, odtod
nekolikostni zaimek
prislov
malo, nekoliko, nekako, nekam, nekdaj, nekje, nekod, veliko
nikalnostni zaimek
prislov
kamorkoli, kadarkoli (kamor koli, kadar koli)
[kjer, kamor, koder, dokler, kadar, kolikor, odkoder, od kar, kadar, kolikor]*
vprašalni zaimek
prislov**
Kam, kje, kod, kako, kolikokrat, kdaj, zakaj, koliko, doklej

* – pri tem naboru avtorja ugotavljata, da oznaka prislov sicer ni povsem ustrezna, vendar vseeno predlagata razmislek v to smer

** – avtorja na tem mestu govorita o vprašalnih prislovih

  1. Avtorja ugotavljata, da je pri označevanju prislovnih zvez s predlogom jedrni problem določanje sklona, ki ga predlog zahteva (ker prislov pač ne izraža sklonov). Prislovne besedne vrste se v tem poglavju dotikata na naslednjih mestih:

Problem
Primer
Predlagana rešitev
Označevalci ne znajo določiti sklona, ki ga predlog zahteva – drugi del predložne bes. zveze je v korpusu označen kot prislov, ta pa ne izraža sklonov.
po človeško,
po hebrejsko
Namesto kot prislov označiti drugi del bes. zveze za samostalnik srednjega spola – temu nato lahko pripišemo 4. sklon.
Označevalci ne znajo določiti sklona, ki ga predlog zahteva – informacija je včasih nerazberljiva iz konteksta, predlog v teh zvezah tudi ni obvezna sestavina, kar je netipično za to bes. vrsto.
Navadni kmetje si lahko privoščijo po eno ženo, bogati pa po več.
Ni enostavne rešitve, ena možnost je označevanje besede po kot prislova, s tem se izognemo nujnosti določevanja sklona.
Označevalci ne znajo določiti sklona, ki ga predlog zahteva – predlogu sledi prislov, ki ne izraža sklona + problem variantnih zapisov sklopov narazen oz. skupaj
[za malo]*
prav za prav // pravzaprav
Kljub temu, da predlogu sledi prislov, označiti predlog, kot da zahteva ob sebi 4. sklon, enako v narazen pisanih sklopih.

* – v članku ni primera za ta tip zveze

Dodatek B.4.1.3 1.3 LC-STAR in SImlex

Slovenščini prilagojene oblikoskladenjske oznake, izdelane po direktivah projekta LC-STAR, za prislovno besedno vrsto prinašajo dve kategoriji, stopnjo ter vrsto. Nabor oznak je takšen (Verdonik et al., 2004.):

1 stopnja
osnovnik
primernik
presežnik
2 vrsta
časovni
krajevni
načinovni

V oblikoskladenjskem slovarju SImlex so prislovi označeni z več različnimi tipi informacij (Verdonik et al., 2003):

  1. glede na vrsto, pri čemer je bila uporabljena deloma poenostavljena tipologija zadnje slovenske slovnice: SImlexova tipologija prinaša štiri oznake za vrsto prislova: okoliščinski, časovni, lastnostni ter vzročnostni,

  2. glede na izvor, in sicer kot samostalniški, pridevniški, glagolski, zaimenski ali števniški – tipologija povzeta po zadnji slovenski slovnici,

  3. v zvezi s stopnjevanjem prinaša SImlex naslednje informacije: kvalifikator o vrsti stopnjevanja (opisno oz. obrazilno stopnjevanje [Opomba: Za odločitev, ali se prislovi stopnjujejo opisno ali obrazilno, so se avtorji naslonili na SP 2001, kar so dopolnjevali s podatki iz korpusov.]) ter (za imenovalnik ednine) osnovniško, primerniško ter presežniško obliko pri obrazilnem stopnjevanju oz. ustrezne zveze opisnega stopnjevanja. Primerniki in presežniki so mestoma vneseni tudi kot posebne leme (tisti s seznama najpogostejših besed).

Dodatek B.4.1.4 1.4 Praški Treebank

Nabor oznak PDT predvideva za označevanje prislovov naslednji sistem (Hana et al., 2005):

  1. kot prislov (D) na osnovni stopnji označevanja besednih vrst,

  2. na drugi, natančnejši stopnji označevanja besednih vrst bodisi kot prislov, ki se ne stopnjuje in zanika(b) bodisi kot prislov, ki se stopnjuje in zanika (g).

  3. prislovi, ki se pregibajo, imajo na 10. mestu oznake informacijo o stopnji (1, 2, 3) oz. na 11. mestu informacijo o zanikanosti (a,n).

  4. na 15. mestu oznake je mesto za stilske informacije o besedi (standardno, manj rabljeno, redko rabljeno, arhaično itd.).

Dodatek B.4.1.5 1.5 Ajka

Opis rešitev za obravnavano besedno vrsto. Vir: Sedlaček, 2005. Zadeva je v češčini. Ne razumem češko.

Zanikanost
trdilen, zanikan
Druh zajmenneho prislovce (x)
Kr neki
Druh zajmenneho prislovce (y)
Kr neki
Stopnja
osnovnik, primernik, presežnik
Stilistična oznaka oblike
arhaično, knjižno, pesniško, ekspresivno, pogovorno, redko, le v korpusih, regionalno/narečno, zastarelo
Tip oblike
tip z dodanim morfemom -s

Od vsega naštetega sta za slovenski prislovni besedni vrsti pripisljivi le kategoriji stopnje ter stila, ostale so vezane na specifike češkega jezika.

Dodatek B.4.1.6 1.6 BNC

Sistem oznak CLAWS 7 prinaša za označevanje prislovov naslednje kategorije:

RA
Prislov za samostalniškim jedrom (else, galore, …)
REX
Prislov, ki uvaja apozicijsko zvezo (namely, e. g.)
RG
Prislov stopnje (very, so, too)
RGQ
Prislov stopnje tipa wh- (how)
RGQV
Prislov stopnje tipa wh-ever (however)
RGR
Primerniški prislov stopnje (more, less)
RGT
Presežniški prislov stopnje (most, least)
RL
Prislov kraja (alongside, forward, …)
RP
Predložnostni prislov, členek (about, in. …)
RPK
Predložnostni prislov, catenative (about v zvezi be about to)
RR
Splošni prislov
RRQ
Splošni prislov tipa wh- (where, when, why, how)
RRQV
Splošni prislov tipa wh-ever (wherever, whenever)
RRR
Primerniški splošni prislov (better, longer, …)
RRT
Presežniški splošni prislov (best, longest, …)
RT
Kvazisamostalniški prislov časa (zdaj, jutri, …)

Dve večji skupini prislovov, kakor jih ločuje ta sistem, sta torej splošni prislovi ter prislovi stopnje. Prislovi teh dveh kategorij so bodisi jedrni za kategorijo (RG, RR), glede na obliko tipa wh- ali wh-ever (RGQ, RGQV, RRQ, RRQV), glede na stopnjevanost primerniškega ali presežniškega tipa (RGR, RGT, RRR, RRT).

Izven te členitve so še prislovi kraja (RL), kvazisamostalniški prislovi časa (RT), predložnostni prislovi (RP, RPK), prislovi, ki uvajajo apozicijsko zvezo (REX) ter prislovi, ki nastopajo za samostalniškim jedrom (RA).

CLAWS 5

Ta nabor prinaša tri oznake za prislove:

AV0
prislov
AVQ
prislov tipa wh- ali wh-ever
AVP
predložnostni prislov

Kategorija AV0 v sebi združuje splošne prislove (časa, načina, kraja itd.), prislove stopnje, t. i. stavčne prislove (npr. in addition, however), posamostalniške prislove (galore) ter diskurzivne označevalce (well, right, like). Glede na stopnjo prislovi tukaj niso označeni, ker je neosnovniških oblik v gradivu relativno malo.

V kategorijo besed, označenih z oznako AVP, spadajo predvsem dopolnilni deli fraznim glagolom (to give sth. up ) ter krajevni adjunkti (there were a lot of horses around ). Gre za presečno množico med prislovi ter predlogi, tj. besede predložnega tipa, ki pa se pojavljajo samostojno.

AVQ prinaša prislove tipa wh- ter wh-ever (when, where, how, why, wherever), ne glede na tip rabe (vprašalna ali relativnostna raba – when do you start? // let me know when the police are called in).

CLAWS 1

Ta sistem prinaša še nekoliko drugačen sistem oznak:

RB
prislov (else, galore, about, afterwards, hopefully, …)
RB$
svojilnostni (genitivni) prislov (else's)
RBR
primerniški prislov (better, longer, …)
RBT
presežniški prislov (best, longest, …)
RI
prislov, enakopisen s predlogom (above, alongside, between, …)
RN
samostalniški prislov (downstairs, here, indoors, …)
RP
prislov, ki je lahko tudi člen (about, along, back, …)

Ločevanje prislovov, ki so v prehodu v druge besedne vrste, ostaja (predložnostni, samostalniški, členovni prislov), posebej so označeni tudi primerniki ter presežniki.

Dodatek B.4.2 2 Analiza označenega vzorca iz korpusa FidaPLUS

Nabor oznak za prislov, ki jih najdemo v korpusu FidaPLUS, je takšen:

1 vrsta
splošni
s
2 stopnja
osnovnik
primernik
presežnik
elativ
p
r
e
o
Dodatek B.4.2.1 2.1 Določitev besedne vrste

Prislov ali pridevnik?

V obravnavanem vzorcu se na prvi pogled zdi najbolj problematično ločevanje enakopisnih oblik pridevnikov ter prislovov (možnosti za inovativno in ustvarjalno delo mladih – oba pridevnika sta označena kot prislov, tudi v npr. po njihovem mnenju lepše podobe itd.). Možnost rešitve marsikaterega problema iz nabora dvoumnosti opisanega tipa bi prineslo upoštevanje besedne zveze kot celote - torej tudi jedrnega dela zveze - pred določitvijo besednovrstne oznake za problematičen pridevnik oz. prislov. V nekaterih primerih upoštevanje najbližje okolice sicer ne prinaša jasnih namigov za razdvoumljanje leme (ker so lahko med določujočim ter določevanim delom zveze druge besede), v številnih primerih pa bi bil problem rešljiv že samo z upoštevanjem besedne vrste, ki se pojavlja na desni ali levi ob problematični besedi (samostalnik na desni sugerira pridevnik – rdeče luči, prav tako predlog na levi – z rdeče blazine itd.).

Oblike pridevnikov, ki so problematične zaradi enakopisnosti s prislovi, so številčno relativno omejene in s tem predvidljive: v paradigmi za moški spol je problematičen tožilnik množine (rdeče konje), za srednji spol oblika za imenovalnik/tožilnik ednine (lepo okno, rdeče meso), za ženski spol pa rodilnik ter tožilnik/orodnik ednine (rdeče zarje, (z) lepo naravo) ter imenovalnik/tožilnik množine (rdeče zarje). Kot kažejo gornji primeri, so brezpreglasni prislovi torej enakopisni s štirimi možnimi pridevniškimi oblikami, preglasni prislovi pa s šestimi. Raziskava po korpusu FidaPLUS kaže, da so v resnici problematični le primeri prvega tipa (torej IT ednine sr. spola ter TO ednine ž. spola – ker je pač več enakopisnih prislovov tega tipa).

Ena od možnosti zagotavljanja natančnosti pri avtomatskem označevanju bi bilo morda pripisovanje dvojne oznake (pridevnik-prislov) vsem dvoumnim oblikam – oz. dvojno označevanje vseh tovrstnih primerov, z vednostjo, da sta obe oznaki enakovredno mogoči. Brez upoštevanja konteksta je odločitev, ali gre v problematičnem primeru za pridevnik ali za prislov, popolnoma nemogoča, prav tako pa nimamo na voljo podatkov, na osnovi katerih bi lahko utemeljeno preferirali eno obliko nad drugo (in se posledično v vseh problematičnih primerih dosledno odločali za eno od besednih vrst).

V smislu nabora oznak bi bila možnost vpeljave posebne oznake v sklopu pridevnika, tj. v sklopu pridevniških sklanjatvenih vzorcev – ko naletimo na problematičen primer, ga označimo kot pridevnik (mu pripišemo spol, sklon itd.), obenem pa na določeno mesto označimo, da gre za dvoumen primer – takšna oznaka omogoča, da te primere kadarkoli v nadaljevanju iz obravnave izločimo oz. jih zlahka identificiramo.

Druga možnost, ki je glede na dane možnosti označevanja najbrž elegantnejša, je dosledno dvojno označevanje – ko analizator naleti na katero od teh problematičnih oblik, ji ne pripiše ene same leme, pač pa tako pridevniško kot prislovno, in v nadaljevanju obe enakovredno obravnava.

Prislov ali zaimek?

Problematika ločevanja prislovov ter zaimkov je obravnavana že v sklopu zaimka. Enakopisnost se pojavlja manj predvidljivo kot pri prejšnjem poglavju, pri odločanju, kako označiti problematične primere bi se bilo potrebno opreti na številčne podatke o dvoumnih pojavitvah posamezne oblike. Nekatere odločitve bi se dalo kljub temu rešiti sistemsko, npr. dosledno uvrščati vse vprašalnice med prislove, med prislove uvrščati kazalne zaimke ipd.

Dodatek B.4.2.2 2.2 Vrsta

Kategorija vrsta ima v vzorcu samo eno možno oznako, ki je dodeljena vsem 2384-im besedam, označenim za prislov. Kategorija takšna, kot je sedaj, nima pravega smisla, je bila pa najbrž zasnovana z mislijo na nadaljnjo členitev skupine prislovov v podskupine.

Dodatek B.4.2.3 2.3 Stopnja

Kategorija stopnja ima štiridelno členitev. Stopnja je določena vsem 2384-im prislovom v vzorcu, od tega se pojavljajo oznake takole:

Oznaka
Pogostnost
Primeri
elativ
14-krat
Preveč, premalo, prepogosto, prepozno …
osnovnik
2285-krat
Dobro, zelo, veliko, prvič, …
primernik
95-krat
Več, manj, bolje, pogosteje ...
presežnik (s ?)
20-krat
Najmanj, najbolje, najkasneje ...
m ?
4-krat
čimveč, čimmanj

ELATIV

Oznaka elativ se pojavlja v vzorcu izredno redko, le 14-krat. Iskanje po korpusu FidaPLUS sicer prinaša 250.870 prislovov s to oznako, vendar pregled zadetkov priča o tem, da je nabor različnih lem, ki so označene kot elativ, izredno omejen. [Opomba: Velik delež zadetkov odpade denimo na prislova preveč ter premalo, ki sta tudi označena kot elativ. ] Ali je določen prislov elativ ali ne, je trenutno leksikonsko predpisano; primeri so omejeni na leme, ki imajo predpono pre- (preveč, premalo, prepozno, predolgo, preobširno), torej na primere, ki se mestoma lahko v jeziku pojavljajo tudi kot kombinacija prislova preveč in sledečega prislova (preveč obširno/počasi/pogosto …). Nemorfemsko izražanje elativnosti je na trenutni stopnji označevanja neulovljivo, kar že samo po sebi priča o tem, da je o smiselnosti oznake potreben premislek.

Po drugi strani je oznaka še bolj problematična zato, ker gre za kategorijo, ki temelji na pomenu leksemov, in je kot taka pogosto težko določljiva še človeškemu uporabniku (SSKJ: oblika, ki izraža zelo veliko mero tega, kar izraža pridevnik ali prislov). Tipičen in vedno navajani primer elativa, tj. pridevnik prelep, pravzaprav niti ne izraža prevelike stopnje (ne uporabljamo ga v pomenu preveč lep, ampak izredno lep – in to naj bi dejansko elativnost izražala, veliko in ne preveliko mero). Večina primerov, ki so trenutno označeni za elative, pa prinaša pomen prevelike intenzivnosti pomena, ki ga prinaša pridevnik ali prislov.

Večino elativov, tako morfemsko kot opisno izraženih, je potemtakem težko (avtomatsko) identificirati, in ti zaenkrat (po trenutnem naboru oznak neustrezno) padajo v skupino prislovov, označenih z oznako osnovnik.

PRIMERNIK in PRESEŽNIK

Podobno je z oznakama primernik ter presežnik. S tema oznakama so označeni le morfemsko stopnjevani prislovi (primerniki, ki se končujejo na –je, pa tudi na –še [Opomba: Kar naj bi bil sicer v jezikovnem sistemu stopnjevalni morfem pridevnikov, prim. razliko med najglasneje – najglasnejše; v rabi pogosto prihaja do neupoštevanja te razlike, s čimer je potrebno računati predvsem pri obravnavi prislova. ], ter presežniki, ki se začnejo na naj-) [Opomba: Primeri tipa nazadnje, prihodnje, navsezadnje itd. so ustrezno označeni kot osnovnik, prav tako tudi kasneje, ki je v bazo vnesen kot ločena lema. Kot osnovniki so označeni tudi prislov najprej, najbolj, največ, ki so prav tako v bazi kot samostojne leme.]. Ker analizator pri označevanju ne upošteva konteksta, so opisno stopnjevani prislovi vedno označeni kot osnovniki, prav tako so kot osnovniki označeni stopnjevalni prislovi (recimo bolj, najbolj). To pomeni, da na strukturni ravni zaenkrat s kombinacijo Rso + Rso (dva prislova v osnovniku) označujemo primere izredno različnih tipov – primeri iz FidePLUS:

Matica se lahko kdaj pa kdaj tudi iz zamejstva česa nauči.

vodila tečaje slovenščine, tudi po upokojitvi pa se še zelo aktivno ukvarja z vprašanji jezika in s

Japonci se čedalje bolj zavedajo pomena kakovostnega zasebnega življenja, piše v poročilu.

Borzniki, ki v vse zgoraj omenjene peripetije niso bili množično neposredno vključeni, se nad

Čečence, s katerimi tudi zaradi tujih gostov zdaj ravnajo velikobolj prijazno in tudi hranijo jih tako, kot

OSNOVNIK

Stopnja je prislovom pripisana vedno, čeprav se nekateri prislovi ne stopnjujejo (npr. zdaj, zagotovo, malce, …, pa vprašalnice, npr. kdaj, kako, …) – v primerih, ko iz prislova samega ni razvidno, da gre za primerniško ali presežniško obliko, mu je avtomatsko pripisana oznaka osnovnik. Kot osnovnik so tako kot rečeno označeni tudi stopnjevani prislovi, ki se pojavljajo v leksikonu kot samostojne leme, npr. prislova bolj in najbolj.

Iz opisanega je razvidno, da oznaka osnovnik pravzaprav ne označuje prislovov v osnovniški obliki, saj je nemogoče avtomatsko ločevati primere, v katerih je določena prislovna oblika res osnovniška, kdaj pa gre za opisno stopnjevani prislov – ali kdaj gre za prislov, ki se ne stopnjuje in torej teh oblik sploh nima (slednje bi se sicer dalo z veliko truda določiti leksikonsko). Kot osnovnik so per negationem označeni vsi prislovi, ki niso morfološko izraženi primerniki ali presežniki.

DRUGO

Pojavlja se tudi dodatna kategorija za besedi čimveč ter čimmanj, kar je najbrž označevalni šum, ki ga zaradi majhnega števila primerov na tem mestu puščam ob strani.

Dodatek B.4.3 3 Predlog kategorij in lastnosti

stopnja
nedoločeno
primernik
presežnik
deležje

da
ne
Dodatek B.4.3.1 3.1 Stopnja

Slovenščina pozna dva načina stopnjevanja, opisno stopnjevanje (z uporabo stopnjevalnih prislovov v kombinaciji z osnovniško obliko sledečega prislova) ter morfemsko stopnjevanje (s spreminjanjem osnovniške oblike prislova). Ker gre za sistemsko dve popolnoma različni jezikovni pojavnosti, je potrebno stopnjevanje obravnavati na dveh nivojih, podana rešitev pa naj bi odražala tisto možnost označevanja, ki bo prinašala največji potencial natančnosti.

Jezikovni sicer priročniki prinašajo smernice, kako naj bi se besede stopnjevale (morfemsko, opisno, na oba načina), vendar brez preverjanja teh določil s podatki dejanske jezikovne rabe ločevanje besed v skupine glede na stopnjevalni potencial ni smiselno. Na kakšen način se prislovi stopnjujejo, namreč ni jasno razvidno iz prislova samega oz. gre pri odločanju za težko ulovljivo kombinacijo oblikoskladenjskih ter semantičnih smernic in čuta naravnega govorca.

PRIMERNIK in PRESEŽNIK

Kot je že bilo poudarjeno, je možno v primeru, da pri označevanju konteksta besede ne upoštevamo, evidentirati le tiste primernike in presežnike, ki so morfemsko izraženi. Pričujoči predlog zato predvideva, da bo oznaka primernik oz. presežnik dodeljena le slednjim.

Ali bodo morfemsko izraženi primerniki in presežniki v leksikonu navedeni kot samostojne leme ali bodo lematizirani v osnovno obliko, je vprašanje, ki na tem mestu ostaja odprto, ker ni bistvenega pomena za predlog oznak. Zaenkrat se obe možnosti (samostojnost leme ter lematizacija v osnovno obliko) kažeta za dokaj enakovredni oz. načeloma neproblematični.

NEDOLOČENO

Analiza je pokazala, da je pri avtomatskem označevanju nemogoče ločevati prave osnovnike od opisno stopnjevanih primernikov in presežnikov ter od prislovov, ki imajo le eno obliko, ker se ne stopnjujejo. Namesto oznake osnovnik, ki sugerira točno določeno jezikovno kategorijo, je na tem mestu predlagano nevtralnejše poimenovanje, ki ga brez problema pripišemo prislovom vseh treh zgoraj naštetih tipov – brez da bi uporabniku označenega korpusa s tem sugerirali napačno jezikovno realnost.

V primeru, da obstaja možnost, da prislove, ki se ne stopnjujejo, leksikonsko predoznačimo, lahko v kategorijo stopnjevanja vnesemo še oznako edina oblika. Ker bi tovrstno predoznačevanje vzelo precej ročnega dela, na katerega je najbrž nevarno samodejno računati – sploh zato, ker informacija, ki jo s to oznako pridobimo, ni neobhodnega pomena za kasnejšo jezikovno analizo – ta oznaka zaenkrat v predlaganem naboru ni izpostavljena.

ELATIV

Analiza označenega korpusnega vzorca je pokazala, da je koncept elativnosti s trenutnimi možnostmi avtomatske prepoznave a priori neulovljiv – v prvi vrsti zato, ker temelji na prepoznavi pomena, pa tudi zato, ker se skladenjsko odraža na različne načine. Trenutna rešitev, kot se kaže v korpusu FidaPLUS, pod oznako elativ prinaša (precej omejen, leksikonsko definiran) nabor prislovov, ki so pravzaprav elativi le pogojno, obenem pa dejanske elative označuje za osnovnike. Ker kvalitetnejši način označevanja trenutno ni mogoč – elativnost prinaša težave še človeškim označevalcem – oznake za elativ pričujoči predlog ne predvideva.

Dodatek B.4.3.2 3.2 Deležje

Skupina besed, ki se po svoji obliki (ter funkciji) loči od ostalih prislovov, so vsekakor deležja. Na osnovi frekvenčnega spiska vseh besed, ki so trenutno kot prislov označene v korpusu FidaPLUS, so se pokazale naslednje možnosti avtomatske identifikacije deležij glede na njihovo obliko:

DELEŽJA NA –ŠI

Na seznamu je zelo malo prislovov, ki se končujejo na –ši, to so začenši,skrivši ter oprimši – vsi trije deležijski prislovi. Iskanje s pogojem *vši po korpusu FidaPLUS v veliki večini prinaša pridevnik bivši, pa tudi npr. besedo vštevši, ki je trenutno neustrezno besednovrstno označena kot členek. Iskanje s pogojem *ši pa že prinaša preveč heterogen nabor zadetkov, da bi iz njega deležja na hitro poiskali.

DELEŽJA NA –Č

Deležja na –č so težje avtomatsko določljiva. Med 360-imi najpogostejšimi prislovi v korpusu sta od 16-ih, ki se končujejo na –č, le dva deležijska. Če iskanje omejimo z natančnejšo določitvijo končnice, so zanimive predvsem naslednje skupine besed:

-deč: lebdeč, kadeč, trudeč, vodeč, bodeč,

-leč: misleč, boleč, štrleč, cvileč,

-teč: hiteč, dehteč, drhteč,

-joč: zahvaljujoč, upoštevajoč, čakajoč, zavedajoč, izhajajoč, sklicujoč, prevladujoč, upajoč,

-doč: vedoč.

Problemi avtomatskega določevanja se pojavljajo že na ravni določevanja besedne vrste (enakopisnost s pridevniki – kadeč pipo // kadeč dimnik). Določevanje deležij naj bi tudi pri tej skupini potekalo polavtomatsko, saj sama identifikacija končnice še ne pomeni, da gre nujno za deležje.

DELEŽJA NA –E

Tudi pri skupini deležij na –e je nabor kandidatov za deležje možno omejiti z natančnejšimi določitvami končnice, npr.:

-de: glede, mimogrede, vede, sede, nevede, grede, bede, blede, prede, smode, …

Te oblike so včasih enakopisne z glagolskimi (prede) oblikami ali pridevniškimi (blede) oblikami. Tradicionalna slovnica sicer od vseh deležij ta tip najraje uvršča med »navadne« prislove (načina), ker sta si kategoriji prislova ter deležja na tem mestu najbližji.

DELEŽJA NA –AJE

Najpogostejša prislova, ki se končata na –aje (raje in najraje), sicer ne spadata k deležjem, vsi nadaljnji [Opomba: Ročno so bili pregledani zadetki s frekvenco 25 ali več zadetkov. ] pa v to kategorijo sodijo, kar pomeni, da jih je možno na lep način polavtomatsko označiti (avtomatsko označiti, ročno pregledati). Najpogostejša deležja tega tipa so npr. upoštevaje, oziraje, šepetaje, igraje, smehljaje, izmenjaje itd.

Gor: Dodatek B Primerjava z drugimi priporočili za oblikoskladenjsko označevanje Prejšnji: Dodatek B.3 Pridevnik Naslednji: Dodatek B.5 Zaimek



Tomaž Erjavec, Simon Krek, Špela Arhar, Darja Fišer, Nina Ledinek, Amanda Saksida, Breda Sivec, Blaž Trebar. Datum: 2010-03-07
Avtorske pravice za to izdajo ureja licenca Creative Commons Priznanje avtorstva 3.0 Slovenija.