Korpus JANES

1.1  Orodja za zajem besedil

Zajem besedil za korpus je bil avtomatski, zato smo v tem delovnem sklopu izdelali namenska orodja, ki so zajela javno objavljene uporabniške spletne vsebine (tvite, forumska sporočila, bloge, komentarje na novice in pogovorne strani na Wikipediji). Pri izboru besedil smo stremeli k temu, da bo končna različica korpusa čim bolj reprezentativna za uporabniške spletne vsebine v slovenščini, še posebej za tvite in pogovorne strani v Wikipediji. Pri blogih, forumih in komentarjih na novice, ker je za vsak izvor potrebno napisati namensko orodje za zajem, pa smo se omejili na nekaj najbolj reprezentativnih virov glede na število uporabnikov, količino objavljenih vsebin oz. vplivnost vira na slovenski prostor.

1.2  Obdelava besedil

Avtomatsko zajeta spletna besedila vsebujejo precej šuma, zato smo iz njih najprej izločili vse nejezikovne segmente, nato pa opravili še deduplikacijo ponavljajočih se vsebin. Odpravili smo tehnične probleme pri identifikaciji jezika ter poenotili metapodatke za posamezna besedila, npr. zvrst, vir in čas objave besedila, za tvite pa še, spol in lokacijo avtorja besedila. Besedila smo na ravni besed normalizirali in jezikoslovno označili ter uvozili v konkordančnik, kar projektnim partnerjem omogoča jezikoslovno raziskovanje korpusa. V zadnjem letu projekta bomo označevanje še izboljšali, saj trenutno še vsebuje precej napak, za končno različico korpusa pa bomo besedila še pretvorili v enotni XML format po priporočilih TEI (Text Encoding Initiative).

1.3  Izdelava prve različice korpusa

Prva različica korpusa spletne slovenščine vsebuje 130 milijonov pojavnic tvitov, blogov, forumov in komentarjev na novice, ter je prototipno jezikoslovno označena. Korpus je opisan v prispevku s konference Slovenščina na spletu in v novih medijih in v članku v tematski številki o računalniško posredovani komunikaciji revije Slovenščina 2.0.

Trenutno proučujemo dileme pri anonimizaciji korpusa, upoštevanju avtorskih pravic in zaščiti občutljivih podatkov, kar smo objavili v prispevku na Simpoziju Obdobja 2015 in v članku v reviji Slovenščina 2.0.

Scroll Up