Avtomatsko označeni korpusi

Vsi (pod)korpusi Janes 1.0 so avtomatsko tokenizirani (vključno z ohranjanjem stičnosti), stavčno segmentirani, imajo standardizirane besedne oblike, so oblikoskladenjsko označeni, lematizirani in označeni z imenskimi entitetami. Zaradi zaščite zasebnosti so osebna imena in svojilni pridevniki izplejani iz osebnih imen zbrisani iz korpusa. Vsako besedilo je označeno z avtomatsko pripisanimi metapodatki, ki vključujejo jezik besedila, njegov sentiment, tehnično in jezikoslovno standardnost, čas in datum objave in spol avtorja.

Korpus(i) Janes 1.0 so opisani v v poglavju monografije projekta:

  • ERJAVEC, Tomaž, LJUBEŠIĆ, Nikola, FIŠER, Darja. Korpus slovenskih spletnih uporabniških vsebin Janes. V: FIŠER, Darja (ur.). Viri, orodja in metode za analizo spletne slovenščine. Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 2018.[pdf]

Prejšnja različica korpusa Janes (različica 0.4) je bila opisana v:

  • FIŠER, Darja, ERJAVEC, Tomaž, LJUBEŠIĆ, Nikola. JANES v0.4: korpus slovenskih spletnih uporabniških vsebin. V: FIŠER, Darja (ur.). Računalniško posredovana komunikacija, (Slovenščina 2.0, Tematska številka, Letn. 4 (2016), št. 2). Ljubljana: Trojina, zavod za uporabno slovenistiko. 2016, letn. 4, št. 2, str. 67-99, doi: 10.4312/slo2.0.2016.2.67-99. [pdf] COBISS.SI-ID 62245218]

Janes

Korpus Janes 1.0 vsebuje okoli 250.000.000 pojavnic oz. 13.000.000 besedil slovenske računalniško posredovane komunikacije, in se sestavljen iz korpusov Janes-Blog, Janes-Forum, Janes-News, Janes-Tweet in Janes-Wiki.

Korpus Janes je prosto dostopen:

Janes-Blog

Janes-Blog vsebuje okoli 35.000.000 pojavnic oz. 400.000 besedil slovenskih blogov in komentarjev nanje s portalov rtvslo.si in publishwall.si.

Korpus Janes-Blog je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-Forum

Janes-Forum vsebuje okoli 50.000.000 pojavnic oz. 800.000 besedil slovenskih forumskih besedil s portalov med.over.net, avtomobilizem.com in kvarkadabra.net.

Korpus Janes-Forum je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-News

Janes-News vsebuje okoli 15.000.000 pojavnic oz. 300.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-News je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-Tweet

Janes-Tweet vsebuje okoli 140.000.000 pojavnic oz. 10.000.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-Tweet je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-TwePo

Janes-TwePo vsebuje okoli 2.700.000 pojavnic oz. 160.000 tvitov slovenskih politikov. Vsak tvit je označen z imenom politika, njegovo funkcijo in strankarsko pripadnostjo.

Korpus Janes-TwePo je prosto dostopen:

Janes-Wiki

Janes-Wiki vsebuje okoli 5.000.000 pojavnic oz. 80.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-Wiki je prosto in odprto dostopen pod licenco CC BY 4.0: