{"id":114,"date":"2014-09-02T14:10:46","date_gmt":"2014-09-02T12:10:46","guid":{"rendered":"http:\/\/nl.ijs.si\/janes\/?page_id=114"},"modified":"2026-04-09T11:09:21","modified_gmt":"2026-04-09T09:09:21","slug":"orodja","status":"publish","type":"page","link":"https:\/\/nl.ijs.si\/janes\/o-projektu\/orodja\/","title":{"rendered":"Orodja za procesiranje"},"content":{"rendered":"<h2>3.1\u00a0 Izdelava ro\u010dno ozna\u010denega korpusa<\/h2>\n<p>Sloven\u0161\u010dina ra\u010dunalni\u0161ko posredovane komunikacija prina\u0161a raznovrstne specifike (tudi) na leksikalni, oblikoskladenjski in skladenjski ravni. Za ustrezno avtomatsko obdelavo sloven\u0161\u010dine je zato treba zagotoviti, da bodo ob u\u010dnih mno\u017eicah standardnega jezika na voljo tudi ozna\u010dene in ro\u010dno pregledane mno\u017eice nestandardnega jezika. Za ta namen smo iz korpusa Janes 0.3 po vnaprej podanih kriterijih za reprezentativnost in uravnote\u017eenost vzor\u010dili posamezna besedila, dobljeni korpus avtomatsko ozna\u010dili in s tem dobili osnovo za \u201czlati standard\u201d. Za vsako raven ozna\u010devanja smo izdelali smernice, nato izvedli anotacijsko kampanjo v orodju WebAnno@CLARIN.SI ter ozna\u010dena besedila izvozili v <a href=\"http:\/\/nl.ijs.si\/janes\/viri\/#Korpusi_za_solanje_jezikovnotehnoloskih_orodij\">tri podkorpuse<\/a>.<\/p>\n<h2>3.2 \u00a0Prilagajanje jezikoslovnega ozna\u010devanja<\/h2>\n<p>Zaradi razlik med spletno in standardno sloven\u0161\u010dino (npr. pogovorno zapisane besede) je to\u010dnost ozna\u010devanja standardnih jezikoslovnotehnolo\u0161kih orodij pri nestandardni sloven\u0161\u010dini bistveno slab\u0161a. Na podlagi ro\u010dno ozna\u010denega korpusa in leksikona smo\u00a0prilagodili obstoje\u010de metode in tehnologije, da so\u00a0sposobne obdelovati tudi nestandardni jezik. Za standardizacijo besed v predlaganem korpusu smo\u00a0uporabili metodo transkripcije, ki temelji na statisti\u010dnem strojnem prevajanju. Kot enoto uporablja \u010drke in se nau\u010di modela preslikav iz parov nestandardna beseda : standardna beseda.<\/p>\n<h2>3.3 \u00a0Izdelani viri v odprtem dostopu<\/h2>\n<p>Ob koncu projekta smo z izdelanim ozna\u010devalnikom ponovno ozna\u010dili korpus, pri \u010demer smo ga tudi posodobili z novimi besedili. Definirali smo pravila za\u0161\u010dite avtorskih pravic in varstva osebnih podatkov, pri \u010demer smo upo\u0161tevali izku\u0161nje iz obdobja, ko je bila na voljo prva razli\u010dica korpusa v prostem dostopu. Korpus smo poleg prostega dostopa preko konkordan\u010dnika ponudili tudi v odprti dostop, tako da je mo\u017een prevzem korpusne baze v XML \/ TEI in izvedenih formatih. Povezave do korpusa Janes 1.0 in njegovih podkorpusov za iskanje v konkordan\u010dniku in za prevzem so dostopne <a href=\"http:\/\/nl.ijs.si\/janes\/viri\/#Avtomatsko_oznaceni_korpusi\">tule<\/a>.<\/p>\n<h2>3.4 \u00a0Delotoki in spremljevalni korpus<\/h2>\n<p>Ob koncu projekta smo imeli razvita medsebojno povezana orodja za zajem, obdelavo in spletno dostopnost korpusa skozi konkordan\u010dnik, kar smo izkoristili na dva na\u010dina, oba povezana z mo\u017enostjo prevzema rezultatov projekta v raziskovalno infrastrukturo CLARIN. Izbrana izdelana orodja za obdelave in ozna\u010devanja (nestandardnih) besedil smo ponudili v uporabo drugim skozi spletne delotoke, in sicer skozi <a href=\"http:\/\/weblicht.sfs.uni-tuebingen.de\/\">WebLicht<\/a> in <a href=\"http:\/\/clowdflows.org\/\">ClowdFlows<\/a>.<\/p>\n<p>Vzpostavili bomo tudi prototipni sistem, ki bo sproti zajemal nove vsebine, jih ob\u010dasno pretvoril, ozna\u010dil, indeksiral in ponudil v uporabo skozi konkordan\u010dnik. S tem bomo vzpostavili prvi slovenski spremljevalni korpus, pomemben mejnik v dojemanju raziskav razvoja in spreminjanja na\u0161ega jezika, saj bo omogo\u010dal sprotno spremljanje internetne sloven\u0161\u010dine in novosti ter sprememb tako na ravni leksike kot tudi vseh ostalih morebitnih zanimivosti, npr. (ne)ustaljenost ortografskih variant skozi \u010das, prilagajanje sloga in registra uporabnikov, spreminjanje diskurzivnih praks ipd.<\/p>\n<p><!--themify_builder_static--><!--\/themify_builder_static--><\/p>\n","protected":false},"excerpt":{"rendered":"<p>3.1\u00a0 Izdelava ro\u010dno ozna\u010denega korpusa Sloven\u0161\u010dina ra\u010dunalni\u0161ko posredovane komunikacija prina\u0161a raznovrstne specifike (tudi) na leksikalni, oblikoskladenjski in skladenjski ravni. Za ustrezno avtomatsko obdelavo sloven\u0161\u010dine je zato treba zagotoviti, da bodo ob u\u010dnih mno\u017eicah standardnega jezika na voljo tudi ozna\u010dene in ro\u010dno pregledane mno\u017eice nestandardnega jezika. Za ta namen smo iz korpusa Janes 0.3 po vnaprej [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"parent":8,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-114","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"builder_content":"","_links":{"self":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/114","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/comments?post=114"}],"version-history":[{"count":12,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/114\/revisions"}],"predecessor-version":[{"id":6271,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/114\/revisions\/6271"}],"up":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/8"}],"wp:attachment":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/media?parent=114"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}