{"id":5938,"date":"2017-11-21T07:30:45","date_gmt":"2017-11-21T06:30:45","guid":{"rendered":"http:\/\/nl.ijs.si\/janes\/?page_id=5938"},"modified":"2018-06-20T19:04:49","modified_gmt":"2018-06-20T17:04:49","slug":"slovarcek-tviterscine","status":"publish","type":"page","link":"https:\/\/nl.ijs.si\/janes\/viri\/slovarcek-tviterscine\/","title":{"rendered":"Slovar\u010dek tviter\u0161\u010dine"},"content":{"rendered":"<h1><span id=\"Slovarcek_tviterscine\">Slovar\u010dek tviter\u0161\u010dine<\/span><\/h1>\n<p>Slovar\u010dek tviter\u0161\u010dine 1.0 predstavlja prvi poskus slovarskega opisa nestandardne sloven\u0161\u010dine. Slovar\u010dek vsebuje 1002 gesli, od katerih jih je 499 generiranih avtomatsko, 503 pa jih vsebuje tudi ro\u010dno dodane slovarske informacije. Gesla vsebujejo tudi povezave do ve\u010d korpusov dostopnih na <a href=\"https:\/\/www.clarin.si\/noske\/\">noSketch Engine CLARIN.SI<\/a> in na slovarski portal <a href=\"http:\/\/www.fran.si\/\">Fran<\/a> ter grafi\u010dni prikaz distribucije uporabe gesla po posameznih vrstah tvitov in uporabnikov.<\/p>\n<p>Za pregledovanje je slovar\u010dek dostopen prek\u00a0<a href=\"http:\/\/lexonomy.cjvt.si\/slovar-tviterscine\/\">spletnega vmesnika Lexonomy na CJVT<\/a>, za prevzem pod licenco CC BY-SA pa v repozitoriju CLARIN.SI na naslovu <a href=\"http:\/\/hdl.handle.net\/11356\/1172\">http:\/\/hdl.handle.net\/11356\/1172<\/a>.<\/p>\n<h2><span id=\"Geslovnik\">Geslovnik<\/span><\/h2>\n<p>Geslovnik za slovar\u010dek je nastal na podlagi avtomatsko izlu\u0161\u010denih lem iz korpusa Janes Tviti v0.3.4, podatke o pogostnosti pa smo primerjali s korpusom Gigafida v1.0 ter s preostalim delom korpusa Janes, torej s forumi, komentarji in blogi. Na ta na\u010din smo izlu\u0161\u010dili besedi\u0161\u010de, ki je (a) za tvite bolj zna\u010dilno in se v drugih \u017eanrih ra\u010dunalni\u0161ko posredovane komunikacije ne pojavlja oz. se pojavlja razmeroma redko, in (b) besedi\u0161\u010de, ki se v danem pomenu ne pojavlja v korpusu Gigafida (<em>acc, asap,<\/em>\u00a0<em>fejs, fen<\/em>) ali pa je tudi v Gigafidi vezano predvsem na internetna in nestandardna besedila (<em>apdejt, dabest, dejt<\/em>). Iz \u0161ir\u0161ega geslovnika smo nato v slovar vklju\u010dili besede, ki v obstoje\u010dih slovarskih priro\u010dnikih za sloven\u0161\u010dino (portal Fran) niso opisane (<em>bremzati, \u0161tanga, \u0161tikle, trolati<\/em>) ali pa pri njihovem opisu prihaja do opaznih pomenskih premikov, vezanih primarno na tviterski \u017eanr in ra\u010dunalni\u0161ko posredovano komunikacijo (<em>tripati, \u010divkati<\/em>).<\/p>\n<h2><span id=\"Vrste_gesel\">Vrste gesel<\/span><\/h2>\n<p><strong>Avtomatsko generirana gesla<\/strong>\u00a0vsebujejo podatke o frekvenci izto\u010dnice, o stopnji podoma\u010denosti (tuje podoma\u010deno\/nepodoma\u010deno) in standardnosti (nestandardna beseda) ter oznako kraj\u0161ava, ki ozna\u010duje kratice in okraj\u0161ave. Poleg tega pa \u0161e povezave na konkordance v korpusih Janes-Tweet, Janes, SlWac in Gigafida ter na slovarski portal Fran, \u010de je beseda prisotna v teh korpusih oz. registrirana v katerem od obstoje\u010dih slovarskih priro\u010dnikov znotraj tega portala. Avtomatsko so geslom dodani tudi grafi, ki prikazujejo podatke o tipu uporabnika tvita (slu\u017ebeni, zasebni) o njegovem spolu (mo\u0161ki \u017eenski, nevtralni), ter o standardnosti (nestandardni, srednji, standardni) in sentimentu tvita (negativen, nevtralen, pozitiven), v katerem se izto\u010dnica pojavlja.<\/p>\n<p><strong>Ro\u010dno izdelanim geslom<\/strong>\u00a0so poleg avtomatsko generiranih podatkov dodani \u0161e variantni zapisi izto\u010dnice ter kratka pomenska razlaga ali opis rabe, ki je zna\u010dilna za tviterski \u017eanr. Posebej so znotraj gesla navedene frazeolo\u0161ke enote, v katerih se pojavlja izto\u010dnica, razlaga pomena in izbrani zgledi iz korpusa. \u010ce se izto\u010dnica pri posameznih pomenih pojavlja v tipi\u010dnih besednih povezavah, so te navedene v obliki kolokacij in ponazorjene z izbranimi primeri iz korpusa.<\/p>\n<h2><span id=\"Avtomatsko_generirani_slovarski_podatki\"><strong>Avtomatsko generirani slovarski podatki<\/strong><\/span><\/h2>\n<h3><span id=\"Povezave_na_korpuse_in_slovarje\">Povezave na korpuse in slovarje<\/span><\/h3>\n<p>Vsaka izto\u010dnica ima dodano\u00a0<strong>povezavo<\/strong>\u00a0na konkordance CLARIN.SI spletnega konkordan\u010dnika <a href=\"https:\/\/www.clarin.si\/noske\/\">noSketch Engine<\/a> v korpusih\u00a0<strong>Janes-Tweet, Janes, slWaC<\/strong> in\u00a0<strong>Gigafida<\/strong>, \u010de se v njih pojavlja. Korpusa <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=janes_tweet\">Janes-Tweet<\/a> in <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=janes\">Janes<\/a> vsebujeta besedila ra\u010dunalni\u0161ko posredovane komunikacije, <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=slwac\">slWaC<\/a> je korpus slovenskih internetnih besedil, <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=gfida_dedup\">Gigafida<\/a> pa zastopa splo\u0161no besedi\u0161\u010de, ki se pojavlja v publicisti\u010dnih, stvarnih in umetnostnih, v manj\u0161i meri pa tudi v internetnih besedilih. \u010ce se izto\u010dnica pojavlja v katerem od obstoje\u010dih slovarjev ISJFR, je dodana povezava na portal <strong><a href=\"http:\/\/www.fran.si\/\">Fran<\/a><\/strong>.<\/p>\n<h3><span id=\"Variantnost\">Variantnost<\/span><\/h3>\n<p>\u010ce se izto\u010dnica v tvitih pojavlja v razli\u010dnih osnovnih oblikah (<em>default, defolt, difolt; facebook, fejsbuk, fejs, fb<\/em>), ji je dodana varianta ali niz variant. Vsaka varianta je v slovar\u010dku predstavljena kot samostojna izto\u010dnica, pripisani pa so ji tudi vsi slovarski podatki, ki se nana\u0161ajo na konkretni variantni zapis, npr. stopnja podoma\u010denosti ter zgledi rabe, ki ponazarjajo obna\u0161anje (ne)podoma\u010dene variante v sobesedilu.\u00a0 V nekaterih primerih lahko variantni zapis izkazuje tudi dodatni ali nov pomen (<em>bloger \u2013 blogger<\/em>).<\/p>\n<h3><span id=\"Grafi\">Grafi<\/span><\/h3>\n<p>Vsako slovarsko geslo je pospremljeno s \u0161tirimi grafi, ki podajajo statistiko relativne pogostosti pojavitve gesla glede na vrednosti \u0161tirih metapodatkov, ki so pripisani vsakemu tvitu, in sicer spol in tip uporabnika (avtorja tvita), ki sta pripisana tvitom ro\u010dno, ter jezikovna standardnost in sentiment tvita, ki sta tvitom pripisana avtomatsko.<\/p>\n<p>Na primer, verjetnost, da se geslo pojavilo v tvitu \u017eenskega avtorja\u00a0<em>p(word | female) = f(word, female) \/ f(female)<\/em>, pri \u010demer je\u00a0<em>f(word, female)<\/em>\u00a0\u0161tevilo pojavitev gesla v tvitih \u017eensk in\u00a0<em>f(female)<\/em>\u00a0\u0161tevilo vseh tvitov, ki so jih napisale \u017eenske. Za vse \u0161tiri kategorije metapodatkov so formule torej slede\u010de:<\/p>\n<ul>\n<li>Vir tvita (<em>source<\/em>):\n<ul>\n<li>Slu\u017ebeni:\u00a0<em>p(word | corporate) = c(word, corporate) \/ c(corporate)<\/em><\/li>\n<li>Zasebni:\u00a0<em>p(word | private) = c(word, private) \/ c(private)<\/em><\/li>\n<\/ul>\n<\/li>\n<li>Spol avtorja (<em>sex<\/em>)\n<ul>\n<li>M:\u00a0<em>p(word | male) = c(word, male) \/ c(male)<\/em><\/li>\n<li>\u017d:\u00a0<em>p(word | female) = c(word, female) \/ c(female)<\/em><\/li>\n<li>N:\u00a0<em>p(word | neutral) = c(word, neutral) \/ c(neutral)<\/em><\/li>\n<\/ul>\n<\/li>\n<li>Standardnost tvita (<em>Linguistic standardness<\/em>)\n<ul>\n<li>Nestandardni:\u00a0<em>p(word | L3) = c(word, L3) \/ c(L3)<\/em><\/li>\n<li>Srednji:\u00a0<em>p(word | L2) = c(word, L2) \/ c(L2)<\/em><\/li>\n<li>Standardni:\u00a0<em>p(word | L1) = c(word, L1) \/ c(L1)<\/em><\/li>\n<\/ul>\n<\/li>\n<li>Sentiment tvita (<em>sentiment<\/em>)\n<ul>\n<li>Negativen:\u00a0<em>p(word | negative) = c(word, negative) \/ c(negative)<\/em><\/li>\n<li>Nevtralen:\u00a0<em>p(word | neutral) = c(word, neutral) \/ c(neutral)<\/em><\/li>\n<li>Pozitiven:\u00a0<em>p(word | positive) = c(word, positive) \/ c(positive)<\/em><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>Za risanje grafov smo uporabili knji\u017enico\u00a0<em>pyplot<\/em>\u00a0Python paketa\u00a0<em>matlibplot<\/em>.<\/p>\n<h2><span id=\"Rocno_dodani_slovarski_podatki\"><strong>Ro\u010dno dodani slovarski podatki<\/strong><\/span><\/h2>\n<h3><span id=\"Standardnost\">Standardnost<\/span><\/h3>\n<p>V slovar\u010dek tviter\u0161\u010dine so izhodi\u0161\u010dno vklju\u010dene besede, ki se pojavljajo v tvitih, ki imajo avtomatsko pripisano najvi\u0161jo stopnjo tehni\u010dne in jezikovne nestandardnosti (Ljube\u0161i\u0107 et al. 2015). Dodatno je oznaka\u00a0<strong>nestandardna beseda<\/strong>\u00a0pripisana tipi\u010dno prevzetim besedam, ki so v sloven\u0161\u010dini \u017ee relativno ustaljene in jih je mogo\u010de najti v nestandardnih besedilnih \u017eanrih tudi zunaj tvitov in ra\u010dunalni\u0161ko posredovane komunikacije, npr.\u00a0<em>cajteng, fr\u0161lok, kofe<\/em>. Razlog za vklju\u010ditev v slovar tviter\u0161\u010dine je njihovo pogosto pojavljanje tudi v tvitih. Kot nestandardne smo ozna\u010devali tudi besede, ki imajo v jeziku prepoznavno standardno razli\u010dico, npr.<em>\u00a0bremzati \u2013 zavirati, izle\u017eavati \u2013 pole\u017eavati<\/em>,\u00a0<em>\u010delav \u2013 ple\u0161ast, bolano \u2013 bolno<\/em>, ter besede, ki svojo nestandardnost izkazujejo v izbiri registra, zlasti kletvice (<em>bemti, jebote<\/em>) in \u017ealjivke (<em>govno, komunajzar<\/em>). Novej\u0161ih besed, prevzetih iz angle\u0161\u010dine ali nem\u0161\u010dine (<em>frendica, iber<\/em>), na\u010deloma nismo opredeljevali glede na standardnost, \u010deprav imajo nekatere prav tako standardno ustreznico, npr.\u00a0<em>hengati \u2013 dru\u017eiti se; invajtati \u2013 povabiti<\/em>, ampak zgolj glede na stopnjo podoma\u010denosti.<\/p>\n<h3><span id=\"Stopnja_podomacenosti\">Stopnja podoma\u010denosti<\/span><\/h3>\n<p>Z oznako\u00a0<strong>tuje podoma\u010deno<\/strong>\u00a0so v slovar\u010dku opredeljene besede, ki poleg enega ali ve\u010d podoma\u010denih zapisov ohranjajo zapis v izvirniku, npr.\u00a0<em>follower \u2013 folover<\/em>, in besede, kjer je zapis oz. kateri od variantnih zapisov pisno in\/ali glasovno podoma\u010den, npr.\u00a0<em>happy \u2013 hepi, cute \u2013 kjut<\/em>. Kot stopnjo podoma\u010denosti smo upo\u0161tevali tudi sposobnost tvorbe novih podoma\u010denih oblik, npr.\u00a0<em>followat \u2013 pofollowat\/pofollovat\/pofolovat, kenslati \u2013 skenslati<\/em>.<\/p>\n<p>Oznaka\u00a0<strong>tuje nepodoma\u010deno<\/strong>\u00a0je pripisana besedam, ki so v tvitih znotraj slovenskega konteksta zastopane zgolj ali prete\u017eno v izvirni obliki, npr.\u00a0<em>annoying, deal<\/em>,\u00a0<em>hardcore, multitasking<\/em>. V to skupino sodijo tudi frazeolo\u0161ke enote tujejezi\u010dnega izvora, ki ohranjajo tudi izvirni zapis, npr.\u00a0<em>pitaj boga, lagano sportski, kein problem.<\/em><\/p>\n<h3><span id=\"Nove_besede\">Nove besede<\/span><\/h3>\n<p><strong>Oznaka nova<\/strong>\u00a0beseda je pripisana izto\u010dnicam, ki predstavljao potencialno integracijo v slovenski jezik. Ve\u010dinoma gre za prevzete besede, ki imajo v sloven\u0161\u010dini \u017ee relativno ustaljeno standardno razli\u010dico, npr.\u00a0<em>komp \u2013 ra\u010dunalnik<\/em>,\u00a0<em>\u010dekirati \u2013 preveriti<\/em>, in za besede, ki se zunaj tviterskega \u017eanra ali ra\u010dunalni\u0161ko posredovane komunikacije v danem pomenu (\u0161e) ne pojavljajo npr.\u00a0<em>\u0161erati, folovati, ritvitati, odslediti, virtualka, bizarka\u00a0<\/em>ipd. Manj\u0161e \u0161tevilo tako ozna\u010denih besed se poleg v tvitih pojavlja tudi v \u017eanrsko specifi\u010dnih besedilih korpusa Gigafida, npr.\u00a0<em>tiskovka, basketa\u0161, bakica, bruhica, dolpoteg<\/em>.<\/p>\n<h3><span id=\"Frazelologija_in_besedne_zveze\">Frazelologija in besedne zveze<\/span><\/h3>\n<p>\u010ce se izto\u010dnica tipi\u010dno pojavlja v\u00a0<strong>frazeolo\u0161ki enoti<\/strong>\u00a0ali\u00a0<strong>besedni zvezi<\/strong>, ki ima svoj pomen ali samostojno komunikacijsko vlogo, je v slovar\u010dku opisana znotraj gesla, vklju\u010dno z opisom pomena in korpusnimi zgledi (<em>ceglc \u2013 plonk ceglc, comment \u2013 no comment<\/em>) ali pa je prikazana kot samostojna izto\u010dnica skupaj z vsemi slovarskimi podatki (<em>brez veze, kopi pejst<\/em>).<\/p>\n<h3><span id=\"Pomenski_opis\">Pomenski opis<\/span><\/h3>\n<p>V ro\u010dno izdelanh geslih je izto\u010dnicam dodan tudi\u00a0<strong>kratek pomenski opis<\/strong>\u00a0pri posameznih pomenih in pri frazeolo\u0161kih enotah. Pomenski opis izhaja iz tipi\u010dne rabe besede ali zveze v tviterskem \u017eanru ter izpostavlja podro\u010dje ali okoli\u0161\u010dine rabe (<em>blendati, junk; blender<\/em>), v nekaterih primerih tudi register (<em>bitch; btk<\/em>) in komunikacijsko funkcijo besede (<em>bajdevej, bej\u017e<\/em>). Nekaterim prevzetim besedam, zlasti kraticam in kraj\u0161avam, je dodana tudi razvezava ali ustreznik v izvirnem jeziku (<em>bday, bdw; bed<\/em>).<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Slovar\u010dek tviter\u0161\u010dine Slovar\u010dek tviter\u0161\u010dine 1.0 predstavlja prvi poskus slovarskega opisa nestandardne sloven\u0161\u010dine. Slovar\u010dek vsebuje 1002 gesli, od katerih jih je 499 generiranih avtomatsko, 503 pa jih vsebuje tudi ro\u010dno dodane slovarske informacije. Gesla vsebujejo tudi povezave do ve\u010d korpusov dostopnih na noSketch Engine CLARIN.SI in na slovarski portal Fran ter grafi\u010dni prikaz distribucije uporabe gesla [&hellip;]<\/p>\n","protected":false},"author":20,"featured_media":0,"parent":2359,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-5938","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"builder_content":"","_links":{"self":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/5938","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/users\/20"}],"replies":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/comments?post=5938"}],"version-history":[{"count":7,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/5938\/revisions"}],"predecessor-version":[{"id":6010,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/5938\/revisions\/6010"}],"up":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/2359"}],"wp:attachment":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/media?parent=5938"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}