Prazne besede slovenskega jezika

Številne aplikacije, ki delajo nad besedili, iz vhoda najprej odstranijo zanje nezanimive besede, tim. 'stop words'. Čeprav je idealen seznam praznih besed odvisen od aplikacije, zajemajo prazne besede večinoma tim. slovnične oz. zaprte besedne vrste, t.j. predloge, zaimke, ipd. Te besede nosijo pretežno slovnično informacijo, ne pa pomenske, ki je aplikacijam ponavadi primarna. Poleg slovničnih besed bi lahko seznam vseboval še besede, ki so sicer vsebinske (samostalniki, glagoli, pridevniki, prislovi), vendar verjetno aplikaciji tako ali drugače niso zanimive.

Za angleški jezik obstaja precej prosto dostopnih seznamov praznih besed, ponavadi izbranih kar iz frekvenčnih seznamov besed, dobljenih iz (čimvečjih) zbirk besedil. Za slovenski jezik takšnih prosto dostopnih seznamov še ni [vendar glej Dimec et al.].

Leksikon slovničnih besed

Izdelava seznama praznih slovenskih besed zgolj iz frekvenčnih seznamov je otežena z veliko pregibnostjo jezika; če lahko upravičeno pričakujemo, da bo beseda on nastopala z zadostikrat, da bo vključena v seznam, z njunima verjetno ne bo tako. Vsaj za slovnične besede je boljši vir računalniški leksikon. V projektu MULTEXT-East je bil izdelan (Ambebis d.o.o. in IJS) leksikon slovenskega jezika, ki vsebuje vse pregibne oblike gesel besed, ki se pojavljajo v korpusu projekta [Erjavec, ERK'98]. Od konca projekta je bil ta leksikon še revidiran. Trenutno vsebuje približno pol miliona vnosov, od katerih je vsak sestavljen iz besedne oblike (npr. njunima), njenega gesla (njun), in oblikoslovne oznake (Ps3fddd---a).

Oblikoslovne oznake podajo besedno vrsto (P = pronoun = zaimek) in vrednosti atributov te besedne vrste. Tako pomeni Ps3fddd---a: PoS: Pronoun, Type: possessive, Person: third, Gender: feminine, Number: dual, Case: dative, Owner_Number: dual, Owner_Gender: -, Clitic: -, Referent_Type: -, Syntactic_Type: adjectival.

Iz slovenksega leksikona MULTEXT-East sem naredili leksikon slovničnih besed, izbranih po oblikoslovni oznakah, in sicer:

  1. 0236: veznik (C*), predlog (Sp*), členek (Q*)
  2. 3689: zaimek (P*)
  3. 0083: pomožni glagol biti (Vc*)
  4. 0238: modalni glagol (Vo*)
  5. 4087: števnik, z besedo (M....l)
  6. =8333
Leksikon slovničnih slovenskih besed v formatu MULTEXT-East, ki ima skupaj 8183 vnosov (!?) je shranjen na datoteki mtestop-sl.wfl. Leksikon je sortiran po oblikoslovnih oznakah, naši znaki pa so zapisani kot entitete SGML. Leksikon vsebuje prej preveč besed kot premalo (vendar pa je laže brisati kot dodajati), saj so vključena npr. tudi števila in naklonski glagoli. Zavedati se je tudi treba, da so nekatere besede dvoumne, posebej še, če ne poznamo njihove oblikoslovne oznake; npr. 'med', je lahko veznik ali pa samostalnik, 'hotel' pa ali glagol ali samostalnik.

Leksikon praznih besed je prosto dostopen; kot referenca služi ta naslov, http://nl.ijs.si/GNUsl/lex/stop/.

Glej tudi:


Zadnja sprememba 2000-01-25, Tomaž Erjavec