Korpusi

Avtomatsko označeni korpusi

Vsi (pod)korpusi Janes 1.0 so avtomatsko tokenizirani (vključno z ohranjanjem stičnosti), stavčno segmentirani, imajo standardizirane besedne oblike, so oblikoskladenjsko označeni, lematizirani in označeni z imenskimi entitetami. Zaradi zaščite zasebnosti so osebna imena in svojilni pridevniki izplejani iz osebnih imen zbrisani iz korpusa. Vsako besedilo je označeno z avtomatsko pripisanimi metapodatki, ki vključujejo jezik besedila, njegov sentiment, tehnično in jezikoslovno standardnost, čas in datum objave in spol avtorja.

Korpus(i) Janes 1.0 še niso bili opisani, zato pa je bila opisana prejšnja različica, korpus Janes 0.4:

  • FIŠER, Darja, ERJAVEC, Tomaž, LJUBEŠIĆ, Nikola. JANES v0.4 : korpus slovenskih spletnih uporabniških vsebin. V: FIŠER, Darja (ur.). Računalniško posredovana komunikacija, (Slovenščina 2.0, Tematska številka, Letn. 4 (2016), št. 2). Ljubljana: Trojina, zavod za uporabno slovenistiko. 2016, letn. 4, št. 2, str. 67-99, doi: 10.4312/slo2.0.2016.2.67-99. [pdf] COBISS.SI-ID 62245218]

Janes

Korpus Janes 1.0 vsebuje okoli 250.000.000 pojavnic oz. 13.000.000 besedil slovenske računalniško posredovane komunikacije, in se sestavljen iz korpusov Janes-Blog, Janes-Forum, Janes-News, Janes-Tweet in Janes-Wiki.

Korpus Janes je prosto dostopen:

Janes-Blog

Janes-Blog vsebuje okoli 35.000.000 pojavnic oz. 400.000 besedil slovenskih blogov in komentarjev nanje s portalov rtvslo.si in publishwall.si.

Korpus Janes-Blog je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-Forum

Janes-Forum vsebuje okoli 50.000.000 pojavnic oz. 800.000 besedil slovenskih forumskih besedil s portalov med.over.net, avtomobilizem.com in kvarkadabra.net.

Korpus Janes-Forum je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-News

Janes-News vsebuje okoli 15.000.000 pojavnic oz. 300.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-News je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-Tweet

Janes-Tweet vsebuje okoli 140.000.000 pojavnic oz. 10.000.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-Tweet je prosto in odprto dostopen pod licenco CC BY 4.0:

Janes-Wiki

Janes-Wiki vsebuje okoli 5.000.000 pojavnic oz. 80.000 besedil komentarjev na spletne novice s portalov rtvslo.si, mladina.si in reporter.si.

Korpus Janes-Wiki je prosto in odprto dostopen pod licenco CC BY 4.0:

Ročno označeni korpusi

Ročno označevanje večine korpusov se je izvajalo v orodju WebAnno. Postopek je opisan v naslednjem prispevku:

  • ERJAVEC, Tomaž, ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, FIŠER, Darja, LASKOWSKI, Cyprian, ZUPAN, Katja. Annotating CLARIN.SI TEI corpora with WebAnno. Proceedings of the CLARIN Annual Conference, 2016, pp. 1-5. [pdf] [COBISS.SI-ID 62797922]

Korpusi za šolanje jezikovnotehnoloških orodij

V sklopu projekta so bili ročno označeni trije korpusi: Janes-Norm, Janes-Tag in Janes-Syn, ki pokrivajo različne ravni označevanja in katerih glavni namen je šolanje in evalvacija orodij za procesiranje nestandardne slovenščine, kot jo najdemo v računalniško posredovani komunikaciji. Delo na korpusih Janes-Norm in Janes-Tag je opisano v naslednjih publikacijah:

  • ČIBEJ, Jaka, FIŠER, Darja, ERJAVEC, Tomaž. Normalisation, tokenisation and sentence segmentation of Slovene tweets. Proceedings of the Workshop on Normalisation and Analysis of Social Media Texts (NormSoMe). 2016, pp. 5-10. [pdf] [COBISS.SI-ID 60917346]
  • ČIBEJ, Jaka, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, FIŠER, Darja. Razvoj učne množice za izboljšano označevanje spletnih besedil. Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016, Ljubljana, Slovenia, pp. 40-46, [pdf] [COBISS.SI-ID 62529890]
  • ERJAVEC, Tomaž, ČIBEJ, Jaka, ARHAR HOLDT, Špela, LJUBEŠIĆ, Nikola, FIŠER, Darja. Gold-standard datasets for annotation of Slovene computer-mediated communication. Proceedings of RASLAN 2016: Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2016, pp. 29-40. [pdf] [COBISS.SI-ID 62994530]

Za označevanje Janes-Norm in Janes-Tag so bile napisane naslednje jezikoslovne in tehnične smernice:

  • Smernice za označevanje računalniško posredovane komunikacije: tokenizacija, stavčna segmentacija, normalizacija, lematizacija in oblikoskladenjsko označevanje, v1.0. [pdf] [docx]
  • Navodila za označevanje računalniško posredovane komunikacije v WebAnno, v1.0. [pdf] [docx]

Janes-Norm

Janes-Norm je ročno označeni korpus računalniško posredovane komunikacije, ki vsebuje okoli 180.000 pojavnic oz. 7.800 besedil in pokriva tokenizacijo (vključno z ohranjanjem stičnosti), razdelitev na stavke oz. povedi ter standardizacijo besednih oblik.

Korpus Janes-Norm je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Janes-Tag

Janes-Tag je ročno označeni korpus računalniško posredovane komunikacije, ki vsebuje okoli 75.000 pojavnic oz. 3.000 besedil in pokriva poleg ravni iz Janes-Norm še ročno preverjeno oblikoskladensjko označevanje, lematizacijo in imenske entitete.

Za označevanje imenskih entitet v Janes-Tag so bile napisane naslednje smernice v slovenskem in angleškem jeziku:

  • Smernice za označevanje imenskih entitet v slovenskem jeziku V1.1. [pdf] [docx]
  • Annotation guidelines for Slovenian named entities V1.1. [pdf] [docx]

Korpus Janes-Tag je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Janes-Syn

Janes-Syn je ročno označeni korpus računalniško posredovane komunikacije, ki vsebuje okoli 4.000 pojavnic oz. 170 besedil in pokriva poleg ravni iz Janes-Tag še odvisnostno skladnjo nad normaliziranimi pojavnicami. Delo na korpusu Janes-Syn je opisano v naslednji publikaciji:

  • ARHAR HOLDT, Špela, FIŠER, Darja, ERJAVEC, Tomaž, KREK, Simon. Syntactic annotation of Slovene CMC : first steps. Proceedings of the 4th Conference on CMC and Social Media Corpora for the Humanities, 27-28 September 2016, Ljubljana, Slovenia, 2016, pp. 3-6. [pdf] [COBISS.SI-ID 62120546]

Za označevanje Janes-Syn so bile napisane naslednje smernice:

  • Smernice za označevanje z odvisnostnim sistemom JOS:nestandardna slovenščina v1.0 [pdf] [docx]
    (Smernice so pisane za program za ročno označevanje in pregledovanje odvisnostne skladnje, ki je bil razvit v okviru projekta “Sporazumevanje v slovenskem jeziku” [izvorna koda])

Korpus Janes-Syn je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Korpusi za jezikoslovne raziskave

Janes-Kratko

Janes-Kratko je korpus tvitov, ki je ročno označen z načini krajšanja po izdelani tipologiji. Vsebuje 777 tvitov oz. okoli 20.000 pojavnic. Delo na korpusu Janes-Kratko in analiza strategij krajšanja sta opisana v naslednji publikaciji:

  • GOLI, Teja, OSRAJNIK, Eneja, FIŠER, Darja. Analiza krajšanja slovenskih sporočil na družbenem omrežju Twitter. Proceedings of the Conference on Language Technologies & Digital Humanities, Ljubljana, Slovenia. 2016, pp. 77-82, [pdf] [COBISS.SI-ID 62584930]

Za korpus Janes-Kratko je bila izdelana tipologija krajšanja:

  • Strategije krajšanja tvitov: Tipologija oznak v1.0 [pdf] [docx]

Korpus Janes-Kratko je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Janes-Vejica

Janes-vejica je korpus tvitov, v katerih je v skladu z izdelano tipologijo ročno označena nestandardna (ne)raba vejice. Delo na korpusu Janes-Vejica in tipologija za označevanje sta opisani v naslednji publikaciji:

  • POPIČ, Damjan, FIŠER, Darja, ZUPAN, Katja, LOGAR, Polona. Raba vejice v uporabniških spletnih vsebinah. Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016 Faculty of Arts, University of Ljubljana, Ljubljana, Slovenia, 2016, str. 106-110. [pdf]

Za označevanje korpusa so bile izdelane naslednje smernice:

  • Smernice za označevanje nestandardne rabe vejice v računalniško posredovani komunikaciji, v1.0 [pdf] [docx]

Korpus Janes-Vejica je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Scroll Up