{"id":106,"date":"2014-09-02T14:01:22","date_gmt":"2014-09-02T12:01:22","guid":{"rendered":"http:\/\/nl.ijs.si\/janes\/?page_id=106"},"modified":"2024-01-16T09:17:02","modified_gmt":"2024-01-16T08:17:02","slug":"korpus-janes","status":"publish","type":"page","link":"https:\/\/nl.ijs.si\/janes\/o-projektu\/korpus-janes\/","title":{"rendered":"Korpus JANES"},"content":{"rendered":"<h2>1.1\u00a0 Zajem besedil<\/h2>\n<p>V tem delovnem sklopu smo izdelali namenska orodja, ki so zajela izbrane javno objavljene uporabni\u0161ke spletne vsebine, in sicer tvite, forumska sporo\u010dila, bloge, komentarje na novice in pogovorne strani\u00a0na slovenski Wikipediji. Pri izboru besedil smo stremeli k temu, da bo kon\u010dna razli\u010dica korpusa \u010dim bolj \u0161iroko zajela uporabni\u0161ke spletne vsebine v sloven\u0161\u010dini, \u0161e posebej za tvite, kjer smo jih zajeli kolikor smo jih lahko, in pogovorne strani\u00a0v Wikipediji, ki so zajete v celoti. Pri blogih, forumih in komentarjih na novice, ker smo za vsak izvor izdelali namensko orodje za zajem, pa smo se omejili na nekaj najbolj reprezentativnih\u00a0virov\u00a0glede na \u0161tevilo uporabnikov, koli\u010dino objavljenih vsebin oz. vplivnost vira na slovenski prostor.<\/p>\n<h2>1.2\u00a0 Obdelava besedil<\/h2>\n<p>Zajeta spletna besedila vsebujejo precej\u00a0\u0161uma, zato smo iz njih najprej izlo\u010dili\u00a0vse nejezikovne segmente, nato pa opravili \u0161e deduplikacijo ponavljajo\u010dih se vsebin. Besedilom smo identificirali jezik ter poenotili njihove metapodatke, npr. zvrst, vir in \u010das objave besedila. Dodali smo tudi raznovrstne avtomatsko pripisane metapodatke, kot so jezikih besedila, njegov sentiment, standardnost in spol avtorja. Besedila smo na ravni besed normalizirali in jezikoslovno ozna\u010dili.<\/p>\n<h2>1.3\u00a0 Izdelava korpusa<\/h2>\n<p>Korpus je v teku projekta \u0161el skozi ve\u010d razli\u010dic, od 0.1 kmalu po za\u010detku projekta, prek 0.4 na sredini in 1.0 kot kon\u010dna razli\u010dica korpusa Janes. Korpus Janes sestavlja 5 podkorpusov, ki so zapisani v enotnem XML formatu po priporo\u010dilih TEI (Text Encoding Initiative).<\/p>\n<p>Delo na predhodnih razli\u010dicah korpusa je bilo opisano v <a href=\"https:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-04-Razvoj-korpusa.pdf\">prispevku<\/a> s konference <a href=\"https:\/\/nl.ijs.si\/janes\/publikacije\/zbornik-konference-2015\/\">Sloven\u0161\u010dina na spletu in v novih medijih<\/a>\u00a0in <a href=\"http:\/\/slovenscina2.0.trojina.si\/arhiv\/2016\/2\/Slo2.0_2016_2_04.pdf\">v \u010dlanku<\/a> v tematski \u0161tevilki\u00a0o ra\u010dunalni\u0161ko posredovani komunikaciji revije Sloven\u0161\u010dina 2.0.<\/p>\n<p><a href=\"https:\/\/nl.ijs.si\/janes\/viri\/#Avtomatsko_oznaceni_korpusi\">Javna razli\u010dica korpusa<\/a> je anonimizirana, vsebuje pa ve\u010dino besedil internega korpusa Janes 1.0. Dileme okoli, po eni strani, dostopnosti in, po drugi, anonimizaciji, upo\u0161tevanju avtorskih pravic in za\u0161\u010diti ob\u010dutljivih podatkov, smo opisali v\u00a0<a href=\"https:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2014\/08\/Erjavec-Cib-Fis.pdf\">prispevku<\/a> na <a href=\"http:\/\/centerslo.si\/simpozij-obdobja\/arhiv-simpozijev-obdobja\/#34-simpozij\">Simpoziju Obdobja 2015<\/a>\u00a0in <a href=\"http:\/\/slovenscina2.0.trojina.si\/arhiv\/2016\/2\/Slo2.0_2016_2_09.pdf\">v \u010dlanku<\/a> v reviji <a href=\"https:\/\/journals.uni-lj.si\/slovenscina2\/issue\/view\/578\">Sloven\u0161\u010dina 2.0<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>1.1\u00a0 Zajem besedil V tem delovnem sklopu smo izdelali namenska orodja, ki so zajela izbrane javno objavljene uporabni\u0161ke spletne vsebine, in sicer tvite, forumska sporo\u010dila, bloge, komentarje na novice in pogovorne strani\u00a0na slovenski Wikipediji. Pri izboru besedil smo stremeli k temu, da bo kon\u010dna razli\u010dica korpusa \u010dim bolj \u0161iroko zajela uporabni\u0161ke spletne vsebine v sloven\u0161\u010dini, [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"parent":8,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-106","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"builder_content":"","_links":{"self":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/106","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/comments?post=106"}],"version-history":[{"count":18,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/106\/revisions"}],"predecessor-version":[{"id":6195,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/106\/revisions\/6195"}],"up":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/8"}],"wp:attachment":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/media?parent=106"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}