Korpus JANES

1.1  Zajem besedil

V tem delovnem sklopu smo izdelali namenska orodja, ki so zajela izbrane javno objavljene uporabniške spletne vsebine, in sicer tvite, forumska sporočila, bloge, komentarje na novice in pogovorne strani na slovenski Wikipediji. Pri izboru besedil smo stremeli k temu, da bo končna različica korpusa čim bolj široko zajela uporabniške spletne vsebine v slovenščini, še posebej za tvite, kjer smo jih zajeli kolikor smo jih lahko, in pogovorne strani v Wikipediji, ki so zajete v celoti. Pri blogih, forumih in komentarjih na novice, ker smo za vsak izvor izdelali namensko orodje za zajem, pa smo se omejili na nekaj najbolj reprezentativnih virov glede na število uporabnikov, količino objavljenih vsebin oz. vplivnost vira na slovenski prostor.

1.2  Obdelava besedil

Zajeta spletna besedila vsebujejo precej šuma, zato smo iz njih najprej izločili vse nejezikovne segmente, nato pa opravili še deduplikacijo ponavljajočih se vsebin. Besedilom smo identificirali jezik ter poenotili njihove metapodatke, npr. zvrst, vir in čas objave besedila. Besedila smo na ravni besed normalizirali in jezikoslovno označili ter uvozili v konkordančnik, kar projektnim partnerjem omogoča jezikoslovno raziskovanje korpusa.

1.3  Izdelava korpusa

Korpus je v teku projekta šel skozi več različic, od 0.1 kmalu po začetku projekta, prek 0.4 na sredini in 1.0 kot končna različica korpusa Janes. Janes sestavlja 5 podkorpusov, ki so zapisani v enotnem XML formatu po priporočilih TEI (Text Encoding Initiative).

Delo na predhodnih različicah korpusa je bilo opisano v prispevku s konference Slovenščina na spletu in v novih medijih in v članku v tematski številki o računalniško posredovani komunikaciji revije Slovenščina 2.0.

Trenutno je v izdelavi javna različica korpusa, ki je anonimizirana, sicer pa vsebuje večino besedil korpusa Janes 1.0. Dileme okoli, po eni strani, dostopnosti in, po drugi, anonimizaciji, upoštevanju avtorskih pravic in zaščiti občutljivih podatkov, smo opisali v prispevku na Simpoziju Obdobja 2015 in v članku v reviji Slovenščina 2.0.

Scroll Up