Ročno označeni korpusi

Ročno označeni korpusi Janes so opisani v v poglavju monografije projekta:

ČIBEJ, Jaka, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, FIŠER, Darja. Ročno označeni korpusi Janes za učenje jezikovnotehnoloških orodij in jezikoslovne raziskave. V: FIŠER, Darja (ur.). Viri, orodja in metode za analizo spletne slovenščine. Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 2018. DOI 10.4312/9789610600701

Ročno označevanje večine korpusov se je izvajalo v orodju WebAnno. Postopek je opisan v naslednjem prispevku:

ERJAVEC, Tomaž, ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, FIŠER, Darja, LASKOWSKI, Cyprian, ZUPAN, Katja. Annotating CLARIN.SI TEI corpora with WebAnno. Proceedings of the CLARIN Annual Conference, 2016, pp. 1-5. [pdf] [COBISS.SI-ID 62797922]

Korpusi za šolanje jezikovnotehnoloških orodij

V sklopu projekta so bili ročno označeni trije korpusi: Janes-Norm, Janes-Tag in Janes-Syn, ki pokrivajo različne ravni označevanja in katerih glavni namen je šolanje in evalvacija orodij za procesiranje nestandardne slovenščine, kot jo najdemo v računalniško posredovani komunikaciji. Delo na korpusih Janes-Norm in Janes-Tag je opisano v naslednjih publikacijah:

ČIBEJ, Jaka, FIŠER, Darja, ERJAVEC, Tomaž. Normalisation, tokenisation and sentence segmentation of Slovene tweets. Proceedings of the Workshop on Normalisation and Analysis of Social Media Texts (NormSoMe). 2016, pp. 5-10. [pdf] [COBISS.SI-ID 60917346]
ČIBEJ, Jaka, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, FIŠER, Darja. Razvoj učne množice za izboljšano označevanje spletnih besedil. Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016, Ljubljana, Slovenia, pp. 40-46, [pdf] [COBISS.SI-ID 62529890]
ERJAVEC, Tomaž, ČIBEJ, Jaka, ARHAR HOLDT, Špela, LJUBEŠIĆ, Nikola, FIŠER, Darja. Gold-standard datasets for annotation of Slovene computer-mediated communication. Proceedings of RASLAN 2016: Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2016, pp. 29-40. [pdf] [COBISS.SI-ID 62994530]

Za označevanje Janes-Norm in Janes-Tag so bile napisane naslednje jezikoslovne in tehnične smernice:

Smernice za označevanje računalniško posredovane komunikacije: tokenizacija, stavčna segmentacija, normalizacija, lematizacija in oblikoskladenjsko označevanje, v1.0. [pdf] [docx]
Navodila za označevanje računalniško posredovane komunikacije v WebAnno, v1.0. [pdf] [docx]

Janes-Norm

Janes-Norm je ročno označeni korpus računalniško posredovane komunikacije. Različica 3.0 vsebuje okoli 280.000 pojavnic oz. 20.00 besedil in pokriva tokenizacijo (vključno z ohranjanjem stičnosti), razdelitev na stavke oz. povedi ter standardizacijo besednih oblik.

Korpus Janes-Norm je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Iskanje po korpusu v konkordančniku noSkE
Prevzem korpusa z repozitorija CLARIN.SI:
- CMC training corpus Janes-Norm 1.2 (2016): http://hdl.handle.net/11356/1084
- CMC training corpus Janes-Norm 3.0 (2022): http://hdl.handle.net/11356/1732

Janes-Tag

Janes-Tag je ročno označeni korpus računalniško posredovane komunikacije. Različica 3.0 vsebuje okoli 190.000 pojavnic oz. 15.000 besedil in pokriva poleg ravni iz Janes-Norm še ročno preverjeno oblikoskladensjko označevanje, lematizacijo in imenske entitete.

Za označevanje imenskih entitet v Janes-Tag so bile napisane naslednje smernice v slovenskem in angleškem jeziku:

Smernice za označevanje imenskih entitet v slovenskem jeziku V1.1. [pdf] [docx]
Annotation guidelines for Slovenian named entities V1.1. [pdf] [docx]

Korpus Janes-Tag je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Iskanje po korpusu v konkordančniku noSkE
- Namig za iskanje: če v korpusu želimo najti vse medmete, v polje CQL vpišemo [tag=”M”].
Prevzem korpusa z repozitorija CLARIN.SI
- CMC training corpus Janes-Tag 2.0 (2017): http://hdl.handle.net/11356/1123
- CMC training corpus Janes-Tag 3.0 (2022): http://hdl.handle.net/11356/1732

Janes-Syn

Janes-Syn je ročno označeni korpus računalniško posredovane komunikacije, ki vsebuje okoli 4.000 pojavnic oz. 170 besedil in pokriva poleg ravni iz Janes-Tag še odvisnostno skladnjo nad normaliziranimi pojavnicami. Delo na korpusu Janes-Syn je opisano v naslednji publikaciji:

ARHAR HOLDT, Špela, FIŠER, Darja, ERJAVEC, Tomaž, KREK, Simon. Syntactic annotation of Slovene CMC : first steps. Proceedings of the 4th Conference on CMC and Social Media Corpora for the Humanities, 27-28 September 2016, Ljubljana, Slovenia, 2016, pp. 3-6. [pdf] [COBISS.SI-ID 62120546]

Za označevanje Janes-Syn so bile napisane naslednje smernice:

Smernice za označevanje z odvisnostnim sistemom JOS:nestandardna slovenščina v1.0 [pdf] [docx]
(Smernice so pisane za program za ročno označevanje in pregledovanje odvisnostne skladnje, ki je bil razvit v okviru projekta “Sporazumevanje v slovenskem jeziku” [izvorna koda])

Korpus Janes-Syn je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Korpusi za jezikoslovne raziskave

Janes-Kratko

Janes-Kratko je korpus tvitov, ki je ročno označen z načini krajšanja po izdelani tipologiji. Vsebuje 777 tvitov oz. okoli 20.000 pojavnic. Delo na korpusu Janes-Kratko in analiza strategij krajšanja sta opisana v naslednji publikaciji:

GOLI, Teja, OSRAJNIK, Eneja, FIŠER, Darja. Analiza krajšanja slovenskih sporočil na družbenem omrežju Twitter. Proceedings of the Conference on Language Technologies & Digital Humanities, Ljubljana, Slovenia. 2016, pp. 77-82, [pdf] [COBISS.SI-ID 62584930]

Za korpus Janes-Kratko je bila izdelana tipologija krajšanja:

Strategije krajšanja tvitov: Tipologija oznak v1.0 [pdf] [docx]

Korpus Janes-Kratko je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Janes-Vejica

Janes-Vejica je korpus tvitov, v katerih je v skladu z izdelano tipologijo ročno označena nestandardna (ne)raba vejice. Delo na korpusu Janes-Vejica in tipologija za označevanje sta opisani v naslednji publikaciji:

POPIČ, Damjan, FIŠER, Darja, ZUPAN, Katja, LOGAR, Polona. Raba vejice v uporabniških spletnih vsebinah. Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016 Faculty of Arts, University of Ljubljana, Ljubljana, Slovenia, 2016, str. 106-110. [pdf]

Za označevanje korpusa so bile izdelane naslednje smernice:

Smernice za označevanje nestandardne rabe vejice v računalniško posredovani komunikaciji, v1.0 [pdf] [docx]

Korpus Janes-Vejica je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Janes-Preklop

Janes-Preklop je korpus tvitov, v katerih so v skladu z izdelano tipologijo ročno označena preklapljanja jezikovnega koda. Delo na korpusu Janes-Preklop in tipologija za označevanje sta opisani v naslednji publikaciji:

REHER, Špela. Slovenščina na prepihu: kodno preklapljanje v objavah slovenskih uporabnikov Twitterja. Magistrsko delo. 2017. Filozofska fakulteta Univerze v Ljubljani. [pdf]

Za označevanje korpusa so bile izdelane naslednje smernice:

Smernice za označevanje kodnega preklapljanja v korpusu slovenskih tvitov JANES [pdf] [docx]

Korpus Janes-Preklop je prosto in odprto dostopen pod licenco CC BY-SA 4.0:

Janes-Geo

Korpus Janes-Geo je bil vzorčen iz avtomatsko normaliziranega, oblikoskladenjsko označenega in lematiziranega korpusa Janes-Tweet-Geo 0.3.4, ki je podkorpus korpusa Janes-Tweet 0.3. Iz korpusa je bilo naključno vzorčeno po največ 500 jezikovno nestandardnih (L3+L2) tvitov zasebnih uporabnikov iz 9 regij: Ljubljana, Maribor, Primorska, Rovtarska, Gorenjska, Dolenjska, Štajerska, Koroška in Panonska. V vzorcu so bile nato ročno označene vse nestandardne jezikovne prvine v skladu z izdelano tipologijo, v procesu označevanja pa so bili nerelevantni tviti izbrisani. Korpus je bil med drugim predstavljen v naslednjem prispevku:

ČIBEJ, Jaka. 2016. Framework for an Analysis of Slovene Regional Language Variants on Twitter. Proceedings of the 4th Conference on CMC and Social Media Corpora for the Humanities. Ljubljana, Slovenia: 17–21. [pdf]

Za označevanje korpusa so bile izdelane naslednje smernice: