Računalniške zbirke besedil

Tomaž Erjavec
tomaz.erjavec@ijs.si
Skupina za jezik in govor, E8
Institut Jožef Stefan

6. februar 1997

Povzetek:

Urejene računalniške zbirke besedil -- korpusi -- postajajo vse bolj nepogrešljiv vir podatkov jezikoslovju. V Sloveniji takšnih prosto dostopnih korpusov še nimamo. V članku podamo zgodovinski pregled razvoja računalniških korpusov, njihovo tipologijo ter področja uporabe. Nato se osredotočimo na dva vidika korpusov: na standardizacijo njihovega zapisa in na orodja za njih razvoj in izkoriščanje. Drugi del članka poda pregled projekta MULTEXT-East (Multilingual Text Tools and Corpora for Central and Eastern European Languages), v katerega je zajet tudi slovenski jezik. Bolj podrobno sta obdelana korpus in oblikoslovne označbe projekta ter problematika označevanja besednih oblik v korpusu s temi označbami. Končamo s predstavitvijo trenutno dostopnih rezultatov projekta ter možnostmi za razvoj tega področja pri nas.

Tomaž Erjavec