Korpus JANES

1.1  Zajem besedil

V tem delovnem sklopu smo izdelali namenska orodja, ki so zajela izbrane javno objavljene uporabniške spletne vsebine, in sicer tvite, forumska sporočila, bloge, komentarje na novice in pogovorne strani na slovenski Wikipediji. Pri izboru besedil smo stremeli k temu, da bo končna različica korpusa čim bolj široko zajela uporabniške spletne vsebine v slovenščini, še posebej za tvite, kjer smo jih zajeli kolikor smo jih lahko, in pogovorne strani v Wikipediji, ki so zajete v celoti. Pri blogih, forumih in komentarjih na novice, ker smo za vsak izvor izdelali namensko orodje za zajem, pa smo se omejili na nekaj najbolj reprezentativnih virov glede na število uporabnikov, količino objavljenih vsebin oz. vplivnost vira na slovenski prostor.

1.2  Obdelava besedil

Zajeta spletna besedila vsebujejo precej šuma, zato smo iz njih najprej izločili vse nejezikovne segmente, nato pa opravili še deduplikacijo ponavljajočih se vsebin. Besedilom smo identificirali jezik ter poenotili njihove metapodatke, npr. zvrst, vir in čas objave besedila. Dodali smo tudi raznovrstne avtomatsko pripisane metapodatke, kot so jezikih besedila, njegov sentiment, standardnost in spol avtorja. Besedila smo na ravni besed normalizirali in jezikoslovno označili.

1.3  Izdelava korpusa

Korpus je v teku projekta šel skozi več različic, od 0.1 kmalu po začetku projekta, prek 0.4 na sredini in 1.0 kot končna različica korpusa Janes. Korpus Janes sestavlja 5 podkorpusov, ki so zapisani v enotnem XML formatu po priporočilih TEI (Text Encoding Initiative).

Delo na predhodnih različicah korpusa je bilo opisano v prispevku s konference Slovenščina na spletu in v novih medijih in v članku v tematski številki o računalniško posredovani komunikaciji revije Slovenščina 2.0.

Javna različica korpusa je anonimizirana, vsebuje pa večino besedil internega korpusa Janes 1.0. Dileme okoli, po eni strani, dostopnosti in, po drugi, anonimizaciji, upoštevanju avtorskih pravic in zaščiti občutljivih podatkov, smo opisali v prispevku na Simpoziju Obdobja 2015 in v članku v reviji Slovenščina 2.0.