Avtomatsko označeni korpusi

Vsi (pod)korpusi Janes 1.0 so avtomatsko tokenizirani (vključno z ohranjanjem stičnosti), stavčno segmentirani, imajo standardizirane besedne oblike, so oblikoskladenjsko označeni, lematizirani in označeni z imenskimi entitetami. Zaradi zaščite zasebnosti so osebna imena in svojilni pridevniki izplejani iz osebnih imen zbrisani iz korpusa. Vsako besedilo je označeno z avtomatsko pripisanimi metapodatki, ki vključujejo jezik besedila, njegov sentiment, tehnično in jezikoslovno standardnost, čas in datum objave in spol avtorja.

Korpus(i) Janes 1.0 še niso bili opisani, zato pa je bila opisana prejšnja različica, korpus Janes 0.4:

  • FIŠER, Darja, ERJAVEC, Tomaž, LJUBEŠIĆ, Nikola. JANES v0.4 : korpus slovenskih spletnih uporabniških vsebin. V: FIŠER, Darja (ur.). Računalniško posredovana komunikacija, (Slovenščina 2.0, Tematska številka, Letn. 4 (2016), št. 2). Ljubljana: Trojina, zavod za uporabno slovenistiko. 2016, letn. 4, št. 2, str. 67-99, doi: 10.4312/slo2.0.2016.2.67-99. [pdf] COBISS.SI-ID 62245218]

Janes

Korpus Janes 1.0 vsebuje okoli 250.000.000 pojavnic oz. 13.000.000 besedil slovenske računalniško posredovane komunikacije, in se sestavljen iz korpusov Janes-Blog, Janes-Forum, Janes-News, Janes-Tweet in Janes-Wiki.

Korpus Janes je prosto dostopen:

Janes-Blog

Janes-Blog vsebuje okoli 35.000.000 pojavnic oz. 400.000 besedil slovenskih blogov in komentarjev nanje s portalov rtvslo.si in publishwall.si.

Korpus Janes-Blog je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-Forum

Janes-Forum vsebuje okoli 50.000.000 pojavnic oz. 800.000 besedil slovenskih forumskih besedil s portalov med.over.net, avtomobilizem.com in kvarkadabra.net.

Korpus Janes-Forum je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-News

Janes-News vsebuje okoli 15.000.000 pojavnic oz. 300.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-News je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-Tweet

Janes-Tweet vsebuje okoli 140.000.000 pojavnic oz. 10.000.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-Tweet je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-TwePo

Janes-TwePo vsebuje okoli 2.700.000 pojavnic oz. 160.000 tvitov slovenskih politikov. Vsak tvit je označen z imenom politika, njegovo funkcijo in strankarsko pripadnostjo.

Korpus Janes-TwePo je prosto dostopen:

Janes-Wiki

Janes-Wiki vsebuje okoli 5.000.000 pojavnic oz. 80.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-Wiki je prosto in odprto dostopen pod licenco CC BY 4.0:

Scroll Up