Prazne besede slovenskega jezika
Številne aplikacije, ki delajo nad besedili, iz vhoda najprej odstranijo
zanje nezanimive besede, tim. 'stop words'. Čeprav je idealen seznam
praznih besed odvisen od aplikacije, zajemajo prazne besede večinoma
tim. slovnične oz. zaprte besedne vrste, t.j. predloge, zaimke, ipd.
Te besede nosijo pretežno slovnično informacijo, ne pa pomenske,
ki je aplikacijam ponavadi primarna.
Poleg slovničnih besed bi lahko seznam vseboval še besede, ki so sicer
vsebinske (samostalniki, glagoli, pridevniki, prislovi), vendar
verjetno aplikaciji tako ali drugače niso zanimive.
Za angleški jezik obstaja precej prosto dostopnih seznamov praznih
besed, ponavadi izbranih kar iz frekvenčnih seznamov besed, dobljenih
iz (čimvečjih) zbirk besedil. Za slovenski jezik takšnih prosto
dostopnih seznamov še ni
[vendar glej Dimec et al.].
Leksikon slovničnih besed
Izdelava seznama praznih slovenskih besed zgolj iz frekvenčnih
seznamov je otežena z veliko pregibnostjo jezika; če lahko upravičeno
pričakujemo, da bo beseda on nastopala z zadostikrat, da bo
vključena v seznam, z njunima verjetno ne bo tako. Vsaj za
slovnične besede je boljši vir računalniški leksikon. V projektu MULTEXT-East je bil
izdelan (Ambebis d.o.o. in IJS) leksikon slovenskega jezika, ki
vsebuje vse pregibne oblike gesel besed, ki se pojavljajo v korpusu
projekta
[Erjavec,
ERK'98]. Od konca projekta je bil ta leksikon še
revidiran. Trenutno vsebuje približno pol miliona vnosov, od katerih
je vsak sestavljen iz besedne oblike (npr. njunima), njenega
gesla (njun), in oblikoslovne oznake (Ps3fddd---a).
Oblikoslovne
oznake podajo besedno vrsto (P = pronoun = zaimek) in vrednosti
atributov te besedne vrste. Tako pomeni Ps3fddd---a: PoS:
Pronoun, Type: possessive, Person: third, Gender: feminine, Number:
dual, Case: dative, Owner_Number: dual, Owner_Gender: -, Clitic: -,
Referent_Type: -, Syntactic_Type: adjectival.
Iz slovenksega leksikona MULTEXT-East sem naredili leksikon slovničnih
besed, izbranih po oblikoslovni oznakah, in sicer:
- 0236: veznik (C*), predlog (Sp*), členek (Q*)
- 3689: zaimek (P*)
- 0083: pomožni glagol biti (Vc*)
- 0238: modalni glagol (Vo*)
- 4087: števnik, z besedo (M....l)
- =8333
Leksikon slovničnih slovenskih besed v formatu MULTEXT-East, ki ima
skupaj 8183 vnosov (!?) je shranjen na datoteki
mtestop-sl.wfl. Leksikon je sortiran po
oblikoslovnih oznakah, naši znaki pa so zapisani kot entitete
SGML. Leksikon vsebuje prej preveč besed kot premalo (vendar pa je
laže brisati kot dodajati), saj so vključena npr. tudi števila in
naklonski glagoli. Zavedati se je tudi treba, da so nekatere besede
dvoumne, posebej še, če ne poznamo njihove oblikoslovne oznake;
npr. 'med', je lahko veznik ali pa samostalnik, 'hotel' pa ali glagol ali samostalnik.
Leksikon praznih besed je prosto dostopen; kot referenca služi ta
naslov,
http://nl.ijs.si/GNUsl/lex/stop/.
Glej tudi:
Zadnja sprememba 2000-01-25,
Tomaž Erjavec