Ročno označeni korpusi
Ročno označeni korpusi Janes so opisani v v poglavju monografije projekta:
- ČIBEJ, Jaka, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, FIŠER, Darja. Ročno označeni korpusi Janes za učenje jezikovnotehnoloških orodij in jezikoslovne raziskave. V: FIŠER, Darja (ur.). Viri, orodja in metode za analizo spletne slovenščine. Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 2018. [pdf]
Ročno označevanje večine korpusov se je izvajalo v orodju WebAnno. Postopek je opisan v naslednjem prispevku:
- ERJAVEC, Tomaž, ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, FIŠER, Darja, LASKOWSKI, Cyprian, ZUPAN, Katja. Annotating CLARIN.SI TEI corpora with WebAnno. Proceedings of the CLARIN Annual Conference, 2016, pp. 1-5. [pdf] [COBISS.SI-ID 62797922]
Korpusi za šolanje jezikovnotehnoloških orodij
V sklopu projekta so bili ročno označeni trije korpusi: Janes-Norm, Janes-Tag in Janes-Syn, ki pokrivajo različne ravni označevanja in katerih glavni namen je šolanje in evalvacija orodij za procesiranje nestandardne slovenščine, kot jo najdemo v računalniško posredovani komunikaciji. Delo na korpusih Janes-Norm in Janes-Tag je opisano v naslednjih publikacijah:
- ČIBEJ, Jaka, FIŠER, Darja, ERJAVEC, Tomaž. Normalisation, tokenisation and sentence segmentation of Slovene tweets. Proceedings of the Workshop on Normalisation and Analysis of Social Media Texts (NormSoMe). 2016, pp. 5-10. [pdf] [COBISS.SI-ID 60917346]
- ČIBEJ, Jaka, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, FIŠER, Darja. Razvoj učne množice za izboljšano označevanje spletnih besedil. Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016, Ljubljana, Slovenia, pp. 40-46, [pdf] [COBISS.SI-ID 62529890]
- ERJAVEC, Tomaž, ČIBEJ, Jaka, ARHAR HOLDT, Špela, LJUBEŠIĆ, Nikola, FIŠER, Darja. Gold-standard datasets for annotation of Slovene computer-mediated communication. Proceedings of RASLAN 2016: Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2016, pp. 29-40. [pdf] [COBISS.SI-ID 62994530]
Za označevanje Janes-Norm in Janes-Tag so bile napisane naslednje jezikoslovne in tehnične smernice:
- Smernice za označevanje računalniško posredovane komunikacije: tokenizacija, stavčna segmentacija, normalizacija, lematizacija in oblikoskladenjsko označevanje, v1.0. [pdf] [docx]
- Navodila za označevanje računalniško posredovane komunikacije v WebAnno, v1.0. [pdf] [docx]
Janes-Norm
Janes-Norm je ročno označeni korpus računalniško posredovane komunikacije. Različica 3.0 vsebuje okoli 280.000 pojavnic oz. 20.00 besedil in pokriva tokenizacijo (vključno z ohranjanjem stičnosti), razdelitev na stavke oz. povedi ter standardizacijo besednih oblik.
Korpus Janes-Norm je prosto in odprto dostopen pod licenco CC BY-SA 4.0:
- Iskanje po korpusu v konkordančniku noSkE
- Namig za iskanje: če v korpusu želimo najti vrste razlik med izvornimi in normaliziranimi besedami, naredimo seznam po atributu “diff”.
- Prevzem korpusa z repozitorija CLARIN.SI:
- CMC training corpus Janes-Norm 1.2 (2016): http://hdl.handle.net/11356/1084
- CMC training corpus Janes-Norm 3.0 (2022): http://hdl.handle.net/11356/1732
Janes-Tag
Janes-Tag je ročno označeni korpus računalniško posredovane komunikacije. Različica 3.0 vsebuje okoli 190.000 pojavnic oz. 15.000 besedil in pokriva poleg ravni iz Janes-Norm še ročno preverjeno oblikoskladensjko označevanje, lematizacijo in imenske entitete.
Za označevanje imenskih entitet v Janes-Tag so bile napisane naslednje smernice v slovenskem in angleškem jeziku:
- Smernice za označevanje imenskih entitet v slovenskem jeziku V1.1. [pdf] [docx]
- Annotation guidelines for Slovenian named entities V1.1. [pdf] [docx]
Korpus Janes-Tag je prosto in odprto dostopen pod licenco CC BY-SA 4.0:
- Iskanje po korpusu v konkordančniku noSkE
- Namig za iskanje: če v korpusu želimo najti vse medmete, v polje CQL vpišemo [tag=”M”].
- Prevzem korpusa z repozitorija CLARIN.SI
- CMC training corpus Janes-Tag 2.0 (2017): http://hdl.handle.net/11356/1123
- CMC training corpus Janes-Tag 3.0 (2022): http://hdl.handle.net/11356/1732
Janes-Syn
Janes-Syn je ročno označeni korpus računalniško posredovane komunikacije, ki vsebuje okoli 4.000 pojavnic oz. 170 besedil in pokriva poleg ravni iz Janes-Tag še odvisnostno skladnjo nad normaliziranimi pojavnicami. Delo na korpusu Janes-Syn je opisano v naslednji publikaciji:
- ARHAR HOLDT, Špela, FIŠER, Darja, ERJAVEC, Tomaž, KREK, Simon. Syntactic annotation of Slovene CMC : first steps. Proceedings of the 4th Conference on CMC and Social Media Corpora for the Humanities, 27-28 September 2016, Ljubljana, Slovenia, 2016, pp. 3-6. [pdf] [COBISS.SI-ID 62120546]
Za označevanje Janes-Syn so bile napisane naslednje smernice:
- Smernice za označevanje z odvisnostnim sistemom JOS:nestandardna slovenščina v1.0 [pdf] [docx]
(Smernice so pisane za program za ročno označevanje in pregledovanje odvisnostne skladnje, ki je bil razvit v okviru projekta “Sporazumevanje v slovenskem jeziku” [izvorna koda])
Korpus Janes-Syn je prosto in odprto dostopen pod licenco CC BY-SA 4.0:
- Iskanje po korpusu v konkordančniku noSkE
- Namig za iskanje: če v korpusu želimo najti vse osebke, v polje CQL vpišemo [deprel=”ena”].
- Prevzem korpusa z repozitorija CLARIN.SI
Korpusi za jezikoslovne raziskave
Janes-Kratko
Janes-Kratko je korpus tvitov, ki je ročno označen z načini krajšanja po izdelani tipologiji. Vsebuje 777 tvitov oz. okoli 20.000 pojavnic. Delo na korpusu Janes-Kratko in analiza strategij krajšanja sta opisana v naslednji publikaciji:
- GOLI, Teja, OSRAJNIK, Eneja, FIŠER, Darja. Analiza krajšanja slovenskih sporočil na družbenem omrežju Twitter. Proceedings of the Conference on Language Technologies & Digital Humanities, Ljubljana, Slovenia. 2016, pp. 77-82, [pdf] [COBISS.SI-ID 62584930]
Za korpus Janes-Kratko je bila izdelana tipologija krajšanja:
Korpus Janes-Kratko je prosto in odprto dostopen pod licenco CC BY-SA 4.0:
- Iskanje po korpusu v konkordančniku noSkE
- Namig za iskanje: če v korpusu želimo najti vse neustaljene krajšave, v polje CQL vpišemo [seg=”LN.*”].
- Prevzem korpusa z repozitorija CLARIN.SI
Janes-Vejica
Janes-Vejica je korpus tvitov, v katerih je v skladu z izdelano tipologijo ročno označena nestandardna (ne)raba vejice. Delo na korpusu Janes-Vejica in tipologija za označevanje sta opisani v naslednji publikaciji:
- POPIČ, Damjan, FIŠER, Darja, ZUPAN, Katja, LOGAR, Polona. Raba vejice v uporabniških spletnih vsebinah. Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016 Faculty of Arts, University of Ljubljana, Ljubljana, Slovenia, 2016, str. 106-110. [pdf]
Za označevanje korpusa so bile izdelane naslednje smernice:
- Smernice za označevanje nestandardne rabe vejice v računalniško posredovani komunikaciji, v1.0 [pdf] [docx]
Korpus Janes-Vejica je prosto in odprto dostopen pod licenco CC BY-SA 4.0:
- Iskanje po korpusu v konkordančniku noSkE
- Namig za iskanje: če v korpusu želimo najti vse odvečne vejice v odvisnikih, v polje CQL vpišemo [seg=”\+SPod.*”].
- Prevzem korpusa z repozitorija CLARIN.SI
Janes-Preklop
Janes-Preklop je korpus tvitov, v katerih so v skladu z izdelano tipologijo ročno označena preklapljanja jezikovnega koda. Delo na korpusu Janes-Preklop in tipologija za označevanje sta opisani v naslednji publikaciji:
- REHER, Špela. Slovenščina na prepihu: kodno preklapljanje v objavah slovenskih uporabnikov Twitterja. Magistrsko delo. 2017. Filozofska fakulteta Univerze v Ljubljani. [pdf]
Za označevanje korpusa so bile izdelane naslednje smernice:
Korpus Janes-Preklop je prosto in odprto dostopen pod licenco CC BY-SA 4.0:
- Iskanje po korpusu v konkordančniku noSkE
- Namig za iskanje: če v korpusu želimo najti vse “preklopljene” besede, ki imajo slovenščini povsem prilagojen zapis, v polje CQL vpišemo [Zapis=”povsem_prilagojen”]. Razporeditev oblikoslovnih vrst preklopov pa dobimo, če naredimo seznam po atributu “Morfologija”.
- Prevzem korpusa z repozitorija CLARIN.SI
Janes-Geo
Korpus Janes-Geo je bil vzorčen iz avtomatsko normaliziranega, oblikoskladenjsko označenega in lematiziranega korpusa Janes-Tweet-Geo 0.3.4, ki je podkorpus korpusa Janes-Tweet 0.3. Iz korpusa je bilo naključno vzorčeno po največ 500 jezikovno nestandardnih (L3+L2) tvitov zasebnih uporabnikov iz 9 regij: Ljubljana, Maribor, Primorska, Rovtarska, Gorenjska, Dolenjska, Štajerska, Koroška in Panonska. V vzorcu so bile nato ročno označene vse nestandardne jezikovne prvine v skladu z izdelano tipologijo, v procesu označevanja pa so bili nerelevantni tviti izbrisani. Korpus je bil med drugim predstavljen v naslednjem prispevku:
- ČIBEJ, Jaka. 2016. Framework for an Analysis of Slovene Regional Language Variants on Twitter. Proceedings of the 4th Conference on CMC and Social Media Corpora for the Humanities. Ljubljana, Slovenia: 17–21. [pdf]
Za označevanje korpusa so bile izdelane naslednje smernice:
-
Smernice za označevanje nestandardnih jezikovnih prvin v slovenskih tvitih [pdf]
Korpus Janes-Geo je prosto in odprto dostopen pod licenco CC BY-SA 4.0:
- Prevzem korpusa z repozitorija CLARIN.SI