{"id":109,"date":"2014-09-02T14:02:33","date_gmt":"2014-09-02T12:02:33","guid":{"rendered":"http:\/\/nl.ijs.si\/janes\/?page_id=109"},"modified":"2026-04-09T11:09:10","modified_gmt":"2026-04-09T09:09:10","slug":"korpusna-analiza","status":"publish","type":"page","link":"https:\/\/nl.ijs.si\/janes\/o-projektu\/korpusna-analiza\/","title":{"rendered":"Korpusna analiza"},"content":{"rendered":"<h2>2.1 \u00a0Primerjalna raziskava z govorjenim jezikom<\/h2>\n<p>Pri analizi govorjenih prvin v spletnih besedilih smo \u017eeleli empiri\u010dno preu\u010diti stereotip, da \u00bbna spletu pi\u0161emo, kot govorimo\u00ab. S korpusno analizo smo \u017eeleli zaznati tipi\u010dne prvine govorne komunikacije, ki so prisotne v spletnih besedilih, in analizirati njihovo vlogo v vsakodnevni komunikaciji na spletu. Zato smo izvedli dvostopenjsko analizo korpusov <a href=\"http:\/\/nl.ijs.si\/janes\/viri\/\">Janes<\/a>, <a href=\"http:\/\/www.korpus-gos.net\">Gos<\/a> in <a href=\"http:\/\/www.korpus-kres.net\">Kres<\/a>. Najprej smo izlu\u0161\u010dili tipi\u010dne elemente govora glede na standardna pisna besedila, potem pa smo specifike govora poiskali v korpusu Janes in analizirali njihovo rabo v posameznih podkorpusih (Tviti, Forumi, Komentarji).<\/p>\n<p>Analiza besednih vrst je pokazala, da v govoru izrazito izstopajo zaimki (<em>ti<\/em>), \u010dlenki (<em>pa<\/em>) in medmeti (<em>oh<\/em>), kar lahko pripi\u0161emo sprotnim okoli\u0161\u010dinam na\u010drtovanja in tvorjenja govorjenih besedil. Korpus Janes je po tej plati sicer med govorom in standardnim pisnim jezikom, vendar veliko bli\u017ee pisni kot govorjeni sloven\u0161\u010dini. Podrobnej\u0161a analiza oblikoskladenjskih oznak je izpostavila podobnosti med govorjeno in spletno sloven\u0161\u010dino pri izrazito pogostih oblikah osebnega zaimka v imenovalniku (<em>jaz<\/em>), glagola v sedanjiku druge osebe (<em>ve\u0161<\/em>) v vlogi diskurznih ozna\u010devalcev in kazalnega zaimka v vlogi besedilnih aktualizatorjev (<em>un ta rde\u010d<\/em>).<\/p>\n<p>Na ravni besedi\u0161\u010da so tako za govor kot za spletna besedila tipi\u010dni izrazi interakcije (<em>lej<\/em>), deikti\u010dni izrazi (<em>tale<\/em>) in izrazi nestandardne izreke oz. zapisa (<em>vidla<\/em>). Dodatno analizo smo izvedli znotraj kategorije elementov interakcije, s katerimi avtorji besedil utrjujejo svojo identiteto in razkrivajo svoj odnos do zunajjezikovne realnosti. Klju\u010dne razlike so se pokazale na ravni variantnosti zapisa oz. izgovora, saj se avtorji spletnih besedil pogosto ne morejo identificirati z dejansko glasovno podobo nekaterih pogostih izrazov (napr. <em>zej<\/em> za <em>zdaj<\/em>). Razhajanja med govorom in spletnimi besedili pogojuje tudi prostorska oddaljenost udele\u017eencev, kar se ka\u017ee skozi specifi\u010dno rabo svojilnih in kazalnih zaimkov v spletnih \u017eanrih (<em>tale, tvoj<\/em>). Tretja opazna to\u010dka razhajanja med govorom in analiziranimi spletnimi \u017eanri je potek na\u010drtovanja in tvorjenja besedil, zaradi \u010desar se razlikujejo predvsem ekspresivni izrazi (<em>eee<\/em> v govoru,<em> lol<\/em> v spletnih \u017eanrih).<\/p>\n<p>Rezultati raziskave so podrobneje predstavljeni v \u010dlankih A. Zwitter Vitez in D. Fi\u0161er (2015)\u00a0na simpoziju <a href=\"http:\/\/centerslo.si\/wp-content\/uploads\/2015\/11\/34_2-Zwitter.pdf\">Obdobja<\/a>, na konferenci <a href=\"https:\/\/elex.link\/elex2015\/proceedings\/eLex_2015_16_Zwitter-Vitez+Fiser.pdf\">eLex<\/a> in na konferenci <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-015-Elementi-interakcije.pdf\">Sloven\u0161\u010dina na spletu in v novih medijih<\/a>.<\/p>\n<h2>2.2 \u00a0Kolokacije v spletni\u00a0sloven\u0161\u010dini<\/h2>\n<p>Pri analizi sloven\u0161\u010dine, ki se uporablja v uporabni\u0161kih spletnih vsebinah, nas zanima, v kolik\u0161ni meri se v njem pojavlja novo besedi\u0161\u010de in ali se raba splo\u0161nega besedi\u0161\u010da na dru\u017ebenih omre\u017ejih v \u010dem razlikuje od standardne sloven\u0161\u010dine. S tem namenom prou\u010dujemo tipi\u010dno sopojavljanje besed oz. kolokacije\u00a0v tvitih, forumskih sporo\u010dilih, komentarjih na novice in blogih.<\/p>\n<p>Najprej smo izdelali metodologijo za primerjavo kolokacij dveh korpusov, ki smo jo uporabili za preu\u010devanje razlik med kolokacijami v standardnem jeziku (korpus <a href=\"http:\/\/www.korpus-kres.net\/\">Kres<\/a>) in v spletni sloven\u0161\u010dini (korpus <a href=\"http:\/\/nl.ijs.si\/janes\/viri\/\">Janes<\/a>). Pri prou\u010devanju\u00a0splo\u0161nega besedi\u0161\u010da so nas zanimale tiste kolokacije, ki se pojavljajo izklju\u010dno v korpusu Janes (in ne v korpusu Kres), ali pa je njihova kolokacijska vrednost v korpusu Janes bistveno ve\u010dja. Med zanimivimi kategorijami kolokacij smo zaznali kolokacije, ki so se na seznam uvrstile zaradi neformalnih kolokatorjev (npr. <em>nategovati ljudi, frej dan<\/em>), aktualnih tematik (npr.<em> feminizacija mo\u0161kih, transspolna oseba, privatizacija vode<\/em>), pomenskih premikov (npr. <em>brisanje zgodovine<\/em>\u00a0na ra\u010dunalniku), zaznali smo tudi tujejezi\u010dne prvine (npr. <em>rimejk filma, startup podjetje<\/em>), terminologijo s tematsko specializiranih\u00a0forumov (npr.<em> evklidski prostor<\/em>), terminologijo, vezano na spletne vsebine (npr. <em>prva\/glavna\/spletna\/desna stran<\/em> bloga), z lu\u0161\u010denjem kolokacij iz korpusa Janes pa\u00a0smo identificirali tudi\u00a0frazeologijo in idiomatske izraze (npr. <em>muca jezik papala\/popapala\/popapcala\/papne<\/em>).<\/p>\n<p>Poleg kolokacij splo\u0161nega besedi\u0161\u010da smo preu\u010dili tudi kolokatorje lem, ki so specifi\u010dne za korpus Janes (npr. <em>drag\/ljub\/znani\/slovenski\/pravi tvitera\u0161, nova\/huda\/lepa\/dobra profilka, meja\/\u0161tevilo v\u0161e\u010dkov, prava\/velika bizarka, nova\/huda\/lepa\/dobra profilka<\/em>). Analiza kolokacijskih kandidatov je vodila tudi do popisa pogostih napak ozna\u010devalnikov (npr. napa\u010dna lematizacija, izpu\u0161\u010danje diakriti\u010dnih znamenj), ki nam bo\u00a0v pomo\u010d pri njihovi nadgradnji.<\/p>\n<p>Rezultati analize kolokacij spletne sloven\u0161\u010dine so podrobneje opisani v \u010dlankih S. Pollak (2015) na simpoziju <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2014\/08\/Pollak.pdf\">Obdobja<\/a> in na konferenci <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-010-Kolokacije.pdf\">Sloven\u0161\u010dina na spletu in v novih medijih.<\/a><\/p>\n<h2>2.3 \u00a0Terminologija v spletni\u00a0sloven\u0161\u010dini<\/h2>\n<p>Na \u0161tevilnih forumih in blogih (pa tudi v komentarjih na \u010dlanke v Wikipediji ali celo na nekaterih ra\u010dunih na Twitterju) uporabniki obravnavajo zelo specifi\u010dno tematiko in pri tem uporabljajo terminologijo. Ker gre najpogosteje za neformalni govorni polo\u017eaj, se raba terminologije razlikuje od rabe v standardni sloven\u0161\u010dini.<\/p>\n<p>V okviru projekta smo preu\u010dili rabo terminologije v treh spletnih forumih: <a href=\"http:\/\/med.over.net\">med.over.net<\/a>, <a href=\"http:\/\/avtomobilizem.com\">avtomobilizem.com<\/a> in <a href=\"http:\/\/www.kvarkadabra.net\">kvarkadabra.net<\/a>. S pomo\u010djo\u00a0<a href=\"http:\/\/lojze.lugos.si\/cgitest\/extract.cgi\">avtomatskega lu\u0161\u010dilnika terminov LUIZ<\/a>\u00a0in drugih metod, posebej razvitih v projektu, smo raziskovali predvsem raven specializiranosti posameznega foruma, obliko terminov ter raven nestandardnosti terminologije. Primerjali smo tudi moderirane in nemoderirane forume ter objave strokovnjakov in laikov.<\/p>\n<p>Rezultati so pokazali predvsem, da:<\/p>\n<ul>\n<li>terminolo\u0161ka bogatost foruma ni povezana z ravnijo (ne)standardnosti izrazja, saj je denimo forum avtomobilizem.com izstopal tako po \u0161tevilu terminov kot po dele\u017eu pogovornih, \u017eargonskih in nestandardno zapisanih izrazov (<em>dihtunga, \u0161ibedah, ratkapa\/radkapa, akomolator<\/em>), moderirani medicinski forumi pa prav tako uporabljajo veliko terminologije, a z majhnimi odstopanji od standarda;<\/li>\n<li>se razpravljalci na forumu izra\u017eajo bolj standardno, \u010de je forum moderiran;<\/li>\n<li>se strokovna podro\u010dja mo\u010dno razlikujejo med seboj po terminolo\u0161kih posebnostih spletne komunikacije, tako denimo na podro\u010dju medicine (ginekologije) sre\u010damo vrsto kratic, ki so se ustalile kot poimenovanja znotraj tega spletnega \u017eanra (<em>ZM &#8211; zadnja menstruacija, G &#8211; ginekolog, KT &#8211; kontracepcijske tabletke<\/em>).<\/li>\n<\/ul>\n<p>Rezultati so podrobneje opisani v \u010dlanku Vintar, \u0160. (2015): <a href=\"http:\/\/nl.ijs.si\/janes\/zbornik-konference-slovenscina-na-spletu-in-v-novih-medijih\">Terminologija v spletnih forumih<\/a>.<\/p>\n<h2>2.4 \u00a0Analiza pomenskih premikov v spletni\u00a0sloven\u0161\u010dini<\/h2>\n<p>Pomen besed ni fiksen, temve\u010d se stalno spreminja.\u00a0Dru\u017ebena omre\u017eja so za tovrstne raziskave \u0161e posebej zanimiva, saj je jezik v njih izrazito dinami\u010den in se hitro prilagaja novim\u00a0dru\u017ebenim okoli\u0161\u010dinam.\u00a0Prou\u010devanje pomenskih premikov je nujno za posodabljanje slovarskih gesel in izbolj\u0161anje jezikovnotehnolo\u0161kih aplikacij, kot sta na primer odgovarjanje na vpra\u0161anja in strojno prevajanje.<\/p>\n<p>Analizo pomenskih premikov smo izvedli s primerjavo podobnosti kontekstnih vektorjev (word embeddings)\u00a0pogostih samostalnikov v referen\u010dnem korpusu Gigafida in korpusu tvitov. S pomo\u010djo besednih skic v konkordan\u010dniku SketchEngine smo podrobno\u00a0analizirali 200 samostalnikov, ki so\u00a0v obeh korpusih izkazovali najrazli\u010dnej\u0161a besedilna okolja. Ve\u010dina zaznamovanih pomenskih premikov\u00a0je posledica dnevnega dru\u017ebeno-politi\u010dnega dogajanja (npr.<em> vztrajnik &#8211; protestnik<\/em>, <em>pirat &#8211; politik<\/em>), neformalnih sporo\u010danjskih okoli\u0161\u010din (npr. <em>optika &#8211; internetna povezava<\/em>, <em>carski &#8211; dober<\/em>) in novomedijske stvarnosti (npr. <em>sledilec &#8211; prijatelj na Twitterju<\/em>, <em>opomnik &#8211; aplikacija za opominjanje pomembnih dogodkov<\/em>). Drug zanimiv pojav je pomensko o\u017eanje besed, ki se v referen\u010dnem korpusu pojavljajo v raznolikih besedilnih okoljih in pomenih, medtem ko je v tvitih njihov semanti\u010dni repozitorij\u00a0bistveno o\u017eji. To se dogaja zaradi omejenega nabora tematik, ki so omenjane na Twitterju (npr. <em>posodobiti \u00a0-aplikacijo, podnapis &#8211; v filmu<\/em>), in\u00a0omejevanje rabe besed na dolo\u010dene fiksne vzorce, ki besedam dodajajo pomembno semanti\u010dno komponento\u00a0(npr. <em>kvadrat &#8211; &#8220;na kvadrat&#8221;<\/em>, <em>eter &#8211; &#8220;v etru&#8221;<\/em>). Tretja skupina so besede z enakim semanti\u010dnim repozitorijem a razli\u010dno distribucijo pomenov v obeh korpusih\u00a0(npr. <em>odklop &#8211; po\u010ditnice<\/em>, <em>sesalec &#8211; gospodinjski aparat<\/em>).<\/p>\n<p>Postopek, razvit v okviru te raziskave, je podrobneje predstavljen v \u010dlanku Fi\u0161er, D. in Ljube\u0161i\u0107, N. (2016): <a href=\"https:\/\/nlp.fi.muni.cz\/raslan\/2016\/paper10-Fiser_Ljubesic.pdf\">Detecting semantic shifts in Slovene<\/a> in ima velik potencial\u00a0za\u00a0leksikografijo in ra\u010dunalni\u0161ko podprto\u00a0posodabljanje\u00a0slovarjev.<\/p>\n<h2>2.5 \u00a0Skladnja v nestandardnih besedilih<\/h2>\n<p>Namen raziskave\u00a0je bil utemeljiti korpus Janes kot orodje, nujno potrebno za revizijo in nadgradnjo obstoje\u010dih jezikovnih pravil (in s tem postopka jezikovne standardizacije). Zanjo smo uporabili korpus Janes, saj prina\u0161a besedila, ki za razliko od gradiva v referen\u010dnih korpusih ve\u010dinoma niso jezikovno korigirana in zato realneje izkazuje tendence rabe oz. (ne)intuitivnost obstoje\u010dih jezikovnih pravil v \u0161ir\u0161i jezikovni skupnosti. S premi\u0161ljeno metodologijo primerjave korpusnih podatkov lahko to dejstvo uporabimo za ugotavljanje sistemskih jezikovnih sprememb, ki jih je mogo\u010de \u2013 ali bolje re\u010deno nujno \u2013 upo\u0161tevati pri nadaljnji jezikovni standardizaciji. Za \u0161tudijo primera smo izbrali v slovenisti\u010dnem prostoru dobro poznani in pere\u010di jezikovni problem: zapisovanje in kategorizacijo zvez samostalnika z neujemalnim levim prilastkom (npr. <em>solo petje, RTV prispevek<\/em>). Analiza je razkrila: da se referen\u010dni korpus Kres in korpus Janes glede zapisa teh zvez pomembno razlikujeta; da je raba tovrstnih zvez v korpusu Janes pogostej\u0161a in bolj raznolika kot v korpusu Kres; da se v obeh korpusih pojavlja visok dele\u017e zvez, ki v rabi izkazujejo variantnost v zapisovanju, tudi na ravni posameznih prilastkov; in da je raba v korpusu Janes konsistentnej\u0161a. Predvsem presenetljivo je zadnje odkritje, ki dokazuje, da jezikovna regulacija obravnavanega problema pove\u010duje variantnost v jezikovni rabi \u2013 kar je povsem v nasprotju z \u017eelenim in pri\u010dakovanim in odpira klju\u010dna vpra\u0161anja o namenu ter na\u010dinu lektoriranja v slovenskem prostoru, kot tudi stanju in vlogi jezikovnih priro\u010dnikov za sloven\u0161\u010dino in obstoje\u010dih standardizacijskih teles ter praks.<\/p>\n<p>Rezultati raziskave so bili predstavljeni v naslednjih prispevkih:\u00a0Arhar Holdt, \u0160., Dobrovoljc, K. (2015). <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-01-Zveze-samostalnika.pdf\">Zveze samostalnika z nesklonljivim levim prilastkom v korpusih Janes in Kres<\/a>,\u00a0Arhar Holdt, \u0160., Dobrovoljc, K. (2016): <a href=\"http:\/\/slovenscina2.0.trojina.si\/arhiv\/2016\/2\/Slo2.0_2016_2_02.pdf\">Vrednost korpusa Janes za slovensko normativistiko<\/a>\u00a0in Stabej, M., Dobrovoljc, H., Krek, S., Gantar, P., Popi\u010d, D., Arhar Holdt, \u0160., Fi\u0161er, D., Robnik \u0160ikonja, M. (2016): <a href=\"http:\/\/doi.org\/10.4312\/slo2.0.2016.2.100-126\">Sloven\u0161\u010dina Janes: pogovorna, nestandardna, spletna ali spretna?<\/a><\/p>\n<h2>2.6 \u00a0Sociolingvisti\u010dna analiza konstrukcije in reprezentacije spolov\u00a0na dru\u017ebenih omre\u017ejih<\/h2>\n<p>Korpus tvitov smo preu\u010dili tudi z vidika konstrukcije in reprezentacije spolov. Osredoto\u010dili smo se na tipi\u010dna kolokacijska okolja lem mo\u0161ki in \u017eenska. Kljub pri\u010dakovanjem v zvezi z emancipatori\u010dnimi \u00a0potenciali uporabni\u0161kih spletnih vsebin je analiza kolokacij pokazala, da novi mediji pogosto reproducirajo, celo izumljajo nove oblike neenakosti med spoloma, utrjujejo norme, vezane na spolni izraz, in podpirajo tradicionalne vloge in razmerja mo\u010di, vezana na posamezni spol. Z izrazi, ki ponazarjajo \u017eenski spol v primerjavi s tistimi, ki ponazarjajo mo\u0161kega, se veliko pogosteje ali skoraj ekskluzivno ve\u017eejo besede za opisovanje psihi\u010dne in fizi\u010dne viktimizacije, pa tudi pasivnosti in objektivizacije.<\/p>\n<p>Poleg analize kolokacij smo razlike med spoloma preu\u010devali tudi z vidika tvorjenja besedil, natan\u010dneje preko analize tematik, o katerih pi\u0161ejo slovenski blogerji. Primerjava je pokazala, da tako \u017eenske kot mo\u0161ki blogajo o politiki, dru\u017eini, okolju in prehrani. Mo\u0161ki uporabniki za razliko od \u017eensk bolj posve\u010dajo temam o \u0161portu, glasbi in literaturi ter biologiji, izmed aktualnih dogodkov pa je v ospredju begunska kriza. Blogerke ve\u010dkrat pi\u0161ejo o religiji, \u010dustvih in odnosih ter o socialni politiki.<\/p>\n<p>Preu\u010devanje reprezentacije spola v novih medijih je obravnavana v povzetkih avtoric \u0160krjanec, Sobo\u010dan in Pollak (2015, 2016) na\u00a0<a href=\"http:\/\/www.sociolosko-drustvo.si\/wp-content\/uploads\/2015\/06\/SSD-novice-CELOTA-15-internet.pdf\">sre\u010danju Slovenskega sociolo\u0161kega dru\u0161tva<\/a> ter na konferenci <a href=\"http:\/\/www.unist.hr\/Portals\/15\/INPRA-2016-Programme-final.pdf\">International Conference on Intercultural Pragmatics and Communication<\/a>. Analiza blogovskih tematik v povezavi s spolom avtorjev blogov avtoric \u0160krjanec in Pollak (2016) je bila predstavljena na konferenci <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2016\/09\/CMC-2016_Skrjanec_Pollak_Topic-Ontologies-of-Slovene-Blogosphere.pdf\">Conference on CMC and Social Media Corpora for the Humanities<\/a>.<\/p>\n<h2>2.7 \u00a0Analiza sentimenta v uporabni\u0161kih spletnih vsebinah<\/h2>\n<div class=\"page\" title=\"Page 1\">\n<div class=\"layoutArea\">\n<div class=\"column\">\n<p>Z analizo sentimenta zaznavamo mnenja uporabnikov o dolo\u010denem izdelku, podjetju, politi\u010dnem kandidatu, stranki ipd. V tej raziskavi smo s sistemom, razvitim na IJS (Mozeti\u010d et al., 2016), avtomatsko pripisali sentiment besedilom v korpusu Janes (npr. negativni sentiment za besedilo\u00a0<em>ma nimam besed. Dost mam teh slinastih farjev,ki glumjo sirote,dnarja pa ko to\u010de . Da ne pomislim na Zvon,Betnavo.. Pla\u010dajo naj p&#8230;!<\/em>), pri \u010demer smo imeli tri cilje: evalvirati natan\u010dnost ozna\u010devalnika na\u00a0heterogenih uporabni\u0161ko generiranih vsebinah, analizirati zna\u010dilnosti in distribucijo sentimenta v razli\u010dnih tipih slovenskih uporabni\u0161ko generiranih spletnih vsebin in korpus obogatiti z dragocenim dodatnim metapodatkom o sentimentu, ki bo dostopen tudi za ostale raziskave.<\/p>\n<p>Najvi\u0161jo stopnjo ujemanja avtomatsko pripisanega sentimenta v primerjavi z ro\u010dno pripisanim smo dobili za\u00a0bloge, najni\u017ejo pa za sporo\u010dila na forumih. Razlog za to je najverjetneje dol\u017eina besedil, ki je najve\u010dja pri blogih in je zato v njih sentiment tudi najla\u017eje dolo\u010dljiv. Pri tvitih veliko te\u017eav povzro\u010da sarkazem, ki ga je izven konteksta z avtomatskimi metodami zaenkrat zelo te\u017eko zaznati.\u00a0V vseh tipih besedil, razen v tvitih in pogovorih na wikipediji, prevladuje negativen sentiment. Najmanj\u00a0besedil s pozitivnim sentimentom najdemo v blogih in komentarjih na spletne novice. V tvitih prevladuje nevtralen,\u00a0na pogovornih straneh Wikipedije pa pozitiven sentiment, kar odra\u017ea razlike v komunikacijski\u00a0funkciji posameznih dru\u017ebenih omre\u017eij. Medtem ko blogerji in komentatorji novic izbrane komunikacijske kanale uporabljajo predvsem za izra\u017eanje mnenj, nestrinjanja in frustracije z dnevno politiko in drugimi dogodki, je osnovni cilj \u010dlanov forumov in dru\u017ebenega omre\u017eja Twitter predvsem izmenjava informacij, novic in znanja, uredniki Wikipedije pa si z inkluzivno in spodbujajo\u010do komunikacijo prizadevajo graditi skupnost. Tudi analiza klju\u010dne leksike, uporabljene v besedilih z dolo\u010denim sentimentom, je pokazala precej\u0161nje razlike:\u00a0medtem ko v negativnih besedilih prevladujejo samostalniki in glagoli (neposredno izra\u017eanje negativnega sentimenta), so za pozitivna besedila zna\u010dilni predvsem pridevniki in prislovi (opisovanje pozitivnega sentimenta), lastna imena pa so izrazito pogosta v\u00a0nevtralnih besedilih (fakti\u010dne informativne vsebine).<\/p>\n<p>Analiza sentimenta v korpusu Janes je podrobneje opisana v prispevku Fi\u0161er et al. (2016)\u00a0<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2014\/08\/JTDH-2016_Fiser-et-al_Sentiment-Annotation-of-Slovene-User-Generated-Content.pdf\">Sentiment Annotation of Slovene User-Generated Content<\/a> s konference Jezikovne tehnologije in digitalna humanistika, natan\u010dna analiza napak ro\u010dnega in avtomatskega ozna\u010devanja sentimenta\u00a0pa je predstavljena v prispevku Fi\u0161er in Erjavec (2016)\u00a0<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2014\/08\/JTDH-2016_Fiser-et-al_Sentiment-Annotation-of-Slovene-User-Generated-Content.pdf\">Analysis of Sentiment Labeling of Slovene User-Generated Content<\/a> s\u00a04. konference o ra\u010dunalni\u0161ko posredovani komunikaciji.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<h2>2.8 \u00a0Primerjalna raziskava s standardnim pisnim jezikom<\/h2>\n<p>Kot ugotavljamo v prispevku Popi\u010d\u00a0in Fi\u0161er (2015)\u00a0<a href=\"http:\/\/centerslo.si\/wp-content\/uploads\/2015\/11\/34_2-Popic-Fis.pdf\">Vejica je mrtva, \u017eivela vejica<\/a>, uporabniki Twitterja vejico vestno uporabljajo, vejica se pojavlja celo pogosteje kot v referen\u010dnem jezikovnem gradivu. Prispevek obenem tudi nakazuje, da imamo podobne te\u017eave z vejico, ne glede na to, kje besedila pi\u0161emo \u2013 na spletu ali v bolj tradicionalnih medijih. Da bi podrobneje ugotovili, kje nam vejica v uporabni\u0161kih spletnih vsebinah nagaja najpogosteje, smo zasnovali \u0161tudijo, v kateri smo na vzorcu 500 tvitov dolo\u010dili vse odve\u010dne, manjkajo\u010de in napa\u010dno rabljene vejice, rezultate pa smo predstavili v prispevku Popi\u010d et al. (2016)\u00a0<a href=\"http:\/\/www.sdjt.si\/wp\/wp-content\/uploads\/2016\/09\/JTDH-2016_Popic-et-al_Raba-vejice-v-uporabniskih-spletnih-vsebinah.pdf\">Raba vejice v uporabni\u0161kih spletnih vsebinah<\/a>. Ugotovili smo, da so veji\u010dne te\u017eave v sloven\u0161\u010dini v veliki meri univerzalne, saj se vejica tudi v uporabni\u0161kih spletnih vsebinah obna\u0161a zelo podobno kot sicer \u2013 \u0161e posebno svojeglava je pri odvisnikih in pristavkih, kjer jo zelo radi pozabljamo, na splo\u0161no pa smo z njo zelo var\u010dni, saj v celotnem podkorpusu komajda najdemo kak\u0161no odve\u010dno vejico. Da pa ne bomo vseskozi govorili zgolj o tem, kje imamo pri stavi vejic te\u017eave, smo zasnovali \u0161e eno \u0161tudijo, s katero \u017eelimo pokazati, kje v uporabni\u0161kih spletnih vsebinah te\u017eav nimamo. Na ta na\u010din bomo posku\u0161ali ta (veliki?) skladenjski problem spletnem pisanju predstaviti \u010dim bolj celostno.<\/p>\n<p>Uporabniki pa poleg klasi\u010dnih ortografskih lo\u010dil in znamenj v svoje tvite vklju\u010dujejo tudi emotikone. V prispevku Osrajnik et al. (2o15)\u00a0<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-09-Primerjava-rabe.pdf\">Primerjava rabe ekspresivnih lo\u010dil v tvitih slovenskih uporabnikov in uporabnic<\/a> smo tako prikazali, da uporabniki \u2013 ne glede na spol \u2013 v svojih tvitih za izra\u017eanje ekspresivnosti pogosteje uporabljajo emotikone kot pravopisna lo\u010dila. S tem se zastavljajo zanimiva vpra\u0161anja, predvsem o tem, kako bomo v prihodnosti izra\u017eali naklonskost, tj. razmerje pi\u0161o\u010dega do tistega, kar izra\u017ea.<\/p>\n<p>V konferen\u010dnem prispevku Pesek et al. (2016): <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2016\/09\/CMC-2016_Pesek_et_al_Alternative-Endings-of-Slovene-Verbs.pdf\">Alternative Endings of Slovene Verbs in Third Person Plural<\/a> smo preu\u010devali variantnost glagolskih obrazil v tretji osebi mno\u017eine, pri \u010demer smo se osredoto\u010dili na obrazili &#8211;<i>jo<\/i>\u00a0in &#8211;<i>do<\/i>\u00a0(<i>jejo<\/i>\u00a0in\u00a0<i>jedo<\/i>;\u00a0<i>povejo<\/i>\u00a0in\u00a0<i>povedo<\/i>). Glede na Slovenski pravopis \u00a0naj bi bilo obrazilo &#8211;<i>jo<\/i>\u00a0bolj zna\u010dilno za knji\u017eni pogovorni jezik in tiste glagole, ki so sestavljenke atematskih \u00a0glagolov (<i>jesti<\/i>\u00a0\u2013\u00a0<i>pojesti<\/i>).\u00a0Glagolske kandidate smo izlu\u0161\u010dili iz korpusa Kres in preverili, katera \u00a0varianta je pogostej\u0161a v celotnem korpusu Janes in v njegovih podkorpusih ter v korpusu Kres. Ker je Kres korpus standardne sloven\u0161\u010dine, smo pri\u010dakovali, da bodo v teh besedilih na\u0161li ve\u010d variant z obrazilom &#8211;<i>do<\/i>, v podkorpusih Janes pa bo pogostej\u0161e obrazilo &#8211;<i>jo<\/i>. Analiza je pokazala, da se skoraj vsi glagoli bolj ali manj uravnote\u017eeno pojavljajo z obemi obrazili. Izjemi sta glagola biti (skoraj izklju\u010dno z &#8211;<i>do<\/i>;\u00a0<i>bodo<\/i>) in dati (skoraj izklju\u010dno z &#8211;<i>jo<\/i>;\u00a0<i>dajo<\/i>) v obeh pregledanih korpusih.\u00a0Primerjava med podkorpusi Janes in korpusom Kres je prinesla zanimive zaklju\u010dke. Med seboj so si najbolj podobna besedila iz podkorpusa blogov in korpusa Kres, saj vsebujejo ve\u010d variant z &#8211;<i>do<\/i>. Po drugi strani pa so med seboj primerljive tudi tendence k obrazilu &#8211;<i>jo<\/i>\u00a0v podkorpusih tvitov, forumov in komentarjev. Podkorpus wiki smo zaradi majhnosti iz o\u017eje primerjave \u017eanrov izklju\u010dili.<\/p>\n<p>V konferen\u010dnem prispevku Goli et al. (2016): <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2014\/08\/JTDH-2016_Goli-et-al_Analiza-krajsanja-slovenskih-sporocil.pdf\">Analiza kraj\u0161anja slovenskih sporo\u010dil na dru\u017ebenem omre\u017eju Twitter<\/a>\u00a0smo analizirali pogostost in na\u010dine kraj\u0161anja v slovenskih tvitih, pri \u010demer smo uporabili vzor\u010dni podkorpus 800 tvitov z razli\u010dno stopnjo tehni\u010dne in jezikovne standardnosti. Kot elemente kraj\u0161anja smo obravnavali redukcije na nivoju zapisa, na leksikalni in skladenjski ravni. Skupno smo\u00a0zabele\u017eili\u00a0skoraj 3.500 pojavov kraj\u0161anja, ki smo jih uvrstili v 32 razli\u010dnih kategorij. Ugotovili smo, da se v nestandardnih tvitih pojavlja bistveno ve\u010d redukcij kot v standardnih. Koli\u010dinsko in tipolo\u0161ko najve\u010d se jih pojavlja na nivoju zapisa, najmanj pa na skladenjski ravni. Na nivoju zapisa najpogosteje najdemo opu\u0161\u010danje presledkov pri lo\u010dilih (<i>prepri\u010dano,da<\/i>), na besedni ravni prevladuje kraj\u0161anje s kraticami (<em>BDP<\/em>), na skladenjski ravni pa najdemo predvsem izpuste pomo\u017enih glagolov (<i>uf, zdej mi ze vec stvari jasnih hehe thx za info<\/i>). Med najbolj zanimive kraj\u0161ave bi lahko uvrstili prilo\u017enostne kraj\u0161ave na besedni ravni, ki imajo izrazit zna\u010daj \u010dasovnega, prostorskega oziroma tehni\u010dnega kraj\u0161anja ter odra\u017eajo kreativnost uporabnikov (<i>PV\u00a0<\/i>=<i>\u00a0predsednik vlade<\/i>,\u00a0<i>sod\u00a0<\/i>=<i>\u00a0sodnik<\/i>). Na splo\u0161no lahko kraj\u0161anje pri slovenskih uporabnikih Twitterja ocenimo kot zelo pogosto, saj le dobrih 10 % analiziranih tvitov ni vsebovalo nikakr\u0161nega kraj\u0161anja.<\/p>\n<p>Da imajo uporabniki Twitterja raje veliko za\u010detnico, ko zapisujejo industrijska imena, zlasti ko govorijo o avtomobilih, smo ugotovili v prispevku \u0160krjanec et al. (2015)\u00a0<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-014-Arheologija.pdf\">Arheologija za\u010detnice pri stvarnih lastnih imenih<\/a>, da je to neodvisno od tega, ali gre za zasebni ali korporativni ra\u010dun na Twitterju, pa je pokazala raziskava, objavljena v prispevku Goli et al. (2015)\u00a0<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-05-Velika-in-mala-dilema.pdf\">Velika in mala dilema pri imenih industrijskih izdelkov na dru\u017ebenem omre\u017eju Twitter<\/a>. Obenem smo raziskali, kako pogosti so v spletni sloven\u0161\u010dini sodobni (in tudi nesistemski) besedotvorni postopki v spletni sloven\u0161\u010dini, s katerimi poimenujemo novej\u0161e (predvsem elektronske) izdelke (npr. iPhone), storitve (npr. eDavki), tehnologije (npr. e-HDI) ipd. O najpogostej\u0161ih e-tvorjenkah pi\u0161emo v prispevku Rebernik (2015)\u00a0<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-011-Slovenscina-pod-palcem.pdf\">Sloven\u0161\u010dina pod palcem interneta: vezajne in dvoza\u010detni\u0161ke e-tvorjenke<\/a>, ugotavljamo pa, da je v zadnjem desetletju z razvojem spleta in spletnih tehnologij pri\u0161lo do izjemnega razmaha tovrstnih poimenovanj.<\/p>\n<h2>2.9 \u00a0Slovar tviter\u0161\u010dine<\/h2>\n<p>V okviru raziskovanja leksike ra\u010dunalni\u0161ko posredovane komunikacije (RPK) smo na podlagi korpusa Janes in primerjalno s korpusom Kres izlu\u0161\u010dili nabor leksike, ki je tipi\u010dna za tovrstne \u017eanre. V prvi fazi je metoda lu\u0161\u010denja zajela besede, ki se tipi\u010dno pojavljajo v besedilih RPK na sploh, v drugi fazi pa smo se osredoto\u010dili na besede, ki so znotraj RPK tipi\u010dne predvsem za slovenske tvite. Leksikalna baza v formatu XML \/ TEI vsebuje 11.969 lem in 17.164 oblik, ki so bile nato ro\u010dno pregledane: izlo\u010dene so bile napa\u010dne leme in nestandardni zapisi standardnih besed ter zdru\u017eene podvojene oblike in leme. Nastali seznam vsebuje 1.247 lem, ki predstavljajo leksikalno bazo tviterske leksike, ki jo je mogo\u010de vklju\u010diti v druge leksikalne vire oz. uporabiti pri izdelavi sodobnih leksikalnih opisov za sloven\u0161\u010dino.<\/p>\n<p>Izlu\u0161\u010deno leksiko smo analizirali z vidika standardizacije, stopnje podoma\u010denosti prevzetih besed in z vidika v sloven\u0161\u010dini \u0161e neregistrirane leksike, novih pomenov in pomenskih premikov. Ugotovili smo, da se zlasti v slovenskih tvitih (pa tudi na forumih in v komentarjih) pojavljajo besede, ki jih obstoje\u010di standardizacijski priro\u010dniki za sloven\u0161\u010dino bodisi ne vklju\u010dujejo, \u010deprav v slovenskem besedi\u0161\u010du niso nove (npr. <em>cvikati, dolgcajt<\/em>), bodisi so opredeljene kot pogovorne, ni\u017eje pogovorne ali starinske (npr. <em>\u0161tanga, govno<\/em>). Drugi sklop nestandardnih besed pripada izbiri registra, znotraj katerega lahko prepoznamo zlasti kletvice in \u017ealjivke (npr. <em>komunjara, naci<\/em>), ter novim besedam, ki so nastale po ustaljenih besedotvornih postopkih (npr. <em>depra, brezveza, kuhanc<\/em>).\u00a0Velik dele\u017e RPK specifi\u010dne leksike prihaja iz tujih jezikov, zlasti iz angle\u0161\u010dine, srb\u0161\u010dine in hrva\u0161\u010dine ter nem\u0161\u010dine. Za tovrstno leksiko je zelo o\u010diten trend podoma\u010devanja, ki navadno poteka v ve\u010d stopnjah, od pisnega in glasovnega podoma\u010devanja (npr. <em>update, updejt, apdejt<\/em>) do prilagajanja slovenskemu oblikoslovnemu in besedotvornemu vzorcu (npr. <em>apdejtati, hejtati; pofolovati<\/em>).\u00a0Z vidika opisa sodobnega slovenskega besedi\u0161\u010da je pomembna predvsem detekcija novih besed, za katere obstaja mo\u017enost prehoda tudi v splo\u0161no besedi\u0161\u010de, saj pogosto poimenujejo novo predmetnost ki jo prina\u0161a dinami\u010dna in novim okoli\u0161\u010dinam hitro prilagajajo\u010da se spletna komunikacija (npr. <em>klju\u010dnik<\/em> za angl. hashtag, <em>naslovka, vsegliharstvo, viralen; odslediti<\/em>), in pomenski premiki, ki so jih dele\u017ene v sloven\u0161\u010dini \u017ee obstoje\u010de besede (npr. <em>hud, sledilec, profil; deliti, slediti<\/em>).<\/p>\n<p>Analiza tviterske leksike in slovar tviter\u0161\u010dine je predstavljen v prispevku Gantar et al. (2016): <a href=\"http:\/\/www.sdjt.si\/wp\/wp-content\/uploads\/2016\/09\/JTDH-2016_Gantar-et-al_Slovar-tviterscine.pdf\">Slovar tviter\u0161\u010dine<\/a>, analiza frazerolo\u0161kih prenovitev v RPK pa v prispevku Justin et al. (2015): <a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2015\/11\/JANES15-06-Rana-ura.pdf\">Rana ura, slovenskih fantov grob: analiza frazeolo\u0161kih prenovitev v spletni sloven\u0161\u010dini<\/a>.<\/p>\n<h2>2.10\u00a0 Spletna sloven\u0161\u010dina in emocije<\/h2>\n<p>Z raziskavo (<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2016\/09\/CMC-2016_Zwitter_Fiser_Linguistic-Analysis-of-Emotions.pdf\">Zwitter Vitez, Fi\u0161er 2016<\/a>) smo \u017eeleli zaznati jezikovne specifike komentarjev, ki izra\u017eajo pozitivno ali negativno naravnanost uporabnikov na aktualna dru\u017ebena dogajanja. Analizirali smo vzorec 70 mo\u010dno polariziranih komentarjev novi\u010darskega portala RTV Slovenija, ki se nana\u0161ajo na novico, da se je na tekmovanju za pesem Evrovizije slovenska predstavnica uvrstila v finale. Komentarjem smo ro\u010dno dolo\u010dili kategorijo sentimenta (pozitivno, negativno). Nato smo izvedli jezikoslovno analizo na skladenjski ravni, in sicer glede na vrsto povedi (pripovedna, vzkli\u010dna, vpra\u0161alna in velelna) in glede na kompleksnost povedi (enostav\u010dna, ve\u010dstav\u010dna). Na leksikalni ravni smo analizirali stopnjo nevtralnosti oz. specifi\u010dnosti besedi\u0161\u010da glede na tematiko objave, na ortografski ravni pa formalnost oz. neformalnost zapisa komentarjev.<\/p>\n<p>Rezultati ka\u017eejo, da so pozitivni komentarji najve\u010dkrat formulirani kot vzkli\u010dne povedi (<em>Sre\u010dno!<\/em>) in imajo pogosto enostav\u010dno zgradbo (<em>Imam dober ob\u010dutek.<\/em>) Na leksikalni ravni pozitivni komentarji odsevajo splo\u0161no besedi\u0161\u010de, ki ni povezano s specifi\u010dno tematiko (<em>sre\u010dno, upam, podpiramo<\/em>), na ortografski ravni pa je opaziti veliko primerov zapisa, ki odstopa od standarda (<em>dejmo<\/em>), rabo velikih tiskanih \u010drk (BO), nestandardno rabljenih lo\u010dil (<em>Dajmo klobasica!!!:)<\/em>) in emotikonov (<em>\ud83d\ude09<\/em>). Negativni komentarji so pogosto zapisani v nevtralni, pripovedni obliki (<em>Ne, ne bo.<\/em>) in imajo kompleksno skladenjsko zgradbo (<em>\u010ce zaupa\u0161 na\u0161im medijem, so \u0161e skoraj vsako leto bile kritike glede na\u0161ih pesmi pozitivne, ampak rezultata pa nobenega in isto bo letos)<\/em>. V negativnih komentarjih se pogosto pojavlja besedi\u0161\u010de, ki v okviru konteksta dane novice dobi ironi\u010dno vlogo (<em>davkopla\u010devalci, kuhna, lajna<\/em>), na ortografski ravni pa je opaziti manj posebnosti zapisa kot pri pozitivnih komentarjih.<\/p>\n<p>Jezikovne razlike med pozitivnimi in negativnimi spletnimi komentarji se konsistentno ka\u017eejo na skladenjski, leksikalni in ortografski ravni. Zaznane razlike bi lahko delno razlo\u017eili s kriti\u010dno funkcijo negativnih komentarjev, ki zahteva tehtno argumentacijo, medtem ko pri pozitivnih komentarjih uporabniki ne \u010dutijo potrebe po utemeljevanju svoje naravnanosti. Po drugi strani pa se zdi, da se uporabniki, ki objavljajo pozitivne komentarje, la\u017ee identificirajo s pripadnostjo dru\u017ebeno-demografskim skupinam s tipi\u010dnimi jezikovnimi specifikami, avtorji negativnih komentarjev pa se prepoznajo v vlogi reflektiranih posameznikov, ki uporabljajo manj zaznamovane jezikovne strukture.<\/p>\n<h2>2.11\u00a0 Analiza regionalnih jezikovnih razli\u010dic sloven\u0161\u010dine v tvitih<\/h2>\n<p>V okviru analiz ra\u010dunalni\u0161ko posredovane komunikacije raziskujemo tudi regionalne jezikovne razli\u010dice sloven\u0161\u010dine na spletu oz. v dru\u017ebenih medijih s poudarkom na Twitterju. Predvsem nas zanima, ali se regionalna jezikovna \u010dlenjenost sloven\u0161\u010dine odseva tudi v spletnih besedil oziroma ali (in v kolik\u0161ni meri) pisni jezik uporabnikov odseva njihovo regionalno pripadnost. V prvi fazi raziskav smo zajemali slovenske tvite s podatkom o geolokaciji (koordinatah, s katerih je bil tvit poslan) in v pribli\u017eno enem letu zbrali okrog 130.000 tvitov. Slovenske uporabnike Twitterja smo nato po metodi, opisani v \u010cibej in Ljube\u0161i\u0107 (2015), razporedili v 9 regij, ki predstavljajo 7 nare\u010dnih jezikovnih skupin po delitvi Frana Ramov\u0161a (Primorska, Rovtarska, Gorenjska, \u0160tajerska, Dolenjska, Panonska, Koro\u0161ka) ter Ljubljano in Maribor, ki smo ju obravnavali posebej kot najve\u010dji slovenski mestni sredi\u0161\u010di, h katerima gravitira prebivalstvo z ve\u010d koncev Slovenije.<\/p>\n<p>Za vsako od regij smo izdelali vzorec s 500 tviti. V vsak vzorec smo vklju\u010dili vse uporabnike iz dolo\u010dene regije, vsak pa je v vzorec prispeval najve\u010d 30\u201350 tvitov. Vzor\u010dene tvite smo ro\u010dno pregledali in na podlagi zaznanih pojavov izdelali tipologijo nestandardnih prvin v spletni sloven\u0161\u010dini, ki je prilagodljiva in je vanjo mogo\u010de dodajati nove pojave, ki v vzorcih niso bili zaznani. Najnovej\u0161a razli\u010dica tipologije zajema ve\u010d kategorij, med najpogostej\u0161e pa spadajo izpusti samoglasnikov v razli\u010dnih polo\u017eajih (<em>nobenega<\/em> \u2013 <em>nobenga<\/em>, <em>nari\u0161i<\/em> \u2013 <em>nari\u0161<\/em>, <em>denarja<\/em> \u2013 <em>dnarja<\/em>) in soglasnikov (<em>bolj<\/em> \u2013 <em>bol<\/em>, <em>peljem<\/em> \u2013 <em>pelem<\/em>), alternativna obrazila (<em>imate<\/em> \u2013 <em>imaste<\/em>), razli\u010dice pogostih nepolnopomenskih besed (<em>kaj<\/em>, <em>kva<\/em>, <em>kej<\/em>, <em>kj<\/em>, <em>kuga<\/em>) in razli\u010dne podkategorije nestandardnega besedi\u0161\u010da, npr. izrazi iz ra\u010dunalni\u0161ko posredovane komunikacije (<em>wtf<\/em>, <em>lol<\/em>), germanizmi (<em>cajt, \u0161voh, zihr<\/em>), anglizmi v podoma\u010deni ali citatni obliki (<em>pohajlajtan<\/em>, <em>live<\/em> <em>stream<\/em>) ter pogovorni in slengovski izrazi (<em>mudel<\/em>).<\/p>\n<p>Na podlagi razvite tipologije smo ozna\u010dili vse nestandardne jezikovne pojave v vzorcih. Preliminarni rezultati analize in tipologija so predstavljeni v \u010cibej (2016): Framework for an Analysis of Slovene Regional Language Variants on Twitter. V nadaljevanju bomo izvedli podrobnej\u0161o statisti\u010dno analizo vseh zaznanih nestandardnih prvin med uporabniki iz razli\u010dnih regij ter posku\u0161ali ugotoviti, ali so dolo\u010dene kategorije nestandardnih jezikovnih pojavov zna\u010dilnej\u0161e za dolo\u010deno regijo.<\/p>\n<h2>2.12\u00a0 Analiza vedenja slovenskih uporabnikov dru\u017ebenega omre\u017eja Twitter<\/h2>\n<div class=\"page\" title=\"Page 1\">\n<div class=\"layoutArea\">\n<div class=\"column\">\n<p>Analiza\u00a0vedenja slovenskih uporabnikov na dru\u017ebenem omre\u017eju Twitter je relevantna za podro\u010dja ra\u010dunalni\u0161tva, informatike, medijskih \u0161tudij, komunikologije in jezikoslovja. Izvedli smo jo na korpusu tvitov, ki vsebuje 7,5 milijona tvitov oz. 107 milijonov pojavnic, ki jih je med januarjem 2013 in januarjem 2016 objavilo skoraj 9.000 razli\u010dnih slovenskih uporabnikov. Cilj analize je bil dobiti vpogled v vedenje uporabnikov na tem dru\u017ebenem omre\u017eju in v jezik, ki ga pri tem uporabljajo, za kar smo uporabili metapodatke, ki so neposredno na voljo na dru\u017ebenem omre\u017eju (npr. <em>\u010das objave<\/em>, <em>\u0161t. v\u0161e\u010dkov<\/em>) ter metapodatke, s katerimi smo obogatili korpus avtomatsko (npr. <em>sentiment<\/em> in\u00a0<em>stopnja standaradnosti tvita<\/em>) ali ro\u010dno (npr. <em>tip<\/em> in <em>spol uporabnika<\/em>).<\/p>\n<p>Rezultati analize ka\u017eejo velike razlike v vedenju, vsebini in percepciji tvitov zasebnih in korporativnih uporabnikov, ki\u00a0so v skladju z njihovo primarno komunikacijsko\u00a0funkcijo: korporativni ra\u010duni so bolj aktivni\u00a0\u010dez teden in v \u010dasu uradnih ur, zasebni uporabniki pa \u010dez vikend in ob ve\u010derih. Tviti korporativnih ra\u010dunov so ve\u010dkrat posredovani, tviti zasebnih ra\u010dunov pa v\u0161e\u010dkani. Medtem ko je jezik v tvitih slovenskih uporabnikov najbolj standarden zjutraj, najmanj pa pozno zve\u010der, so tviti korporativnih ra\u010dunov napisani v prete\u017eno standaradni sloven\u0161\u010dini, zasebni uporabniki pa za tvitanje uporabljajo bistveno manj standarden jezik. Za razliko od zasebnih uporabnikov, kjer je najve\u010d nevtralnega in tudi precej negativnega sentimenta, v\u00a0tvitih korporativnih uporabnikov\u00a0prevladuje pozitiven sentiment, pri \u010demer imajo\u00a0tviti, napisani v standardnem jeziku, bolj negatisven sentiment,\u00a0nestandaradni tviti pa bolj pozitivnega.\u00a0Manj\u0161e, a tudi zanimive so razlike med zasebnimi mo\u0161kimi in \u017eenskimi uporabniki. Mo\u0161ki\u00a0so v skoraj vseh pogledih bolj podobni korporativnim uporabnikom: ve\u010d tvitajo\u00a0\u010dez teden in v jutranjih urah ter uporabljajo bolj standaradni jezik. Od korporativnih uporabnikov pa se razlikujejo po tem, da v njihovih tvitih prevladujeta nevtralen in negativen sentiment. Po drugi strani so \u017eenske uporabnice bolj podobne zasebnim ra\u010dunom: najbolj aktivne so \u010dez vikend in v popoldanskih in ve\u010dernih urah, njihovi tviti so prete\u017eno nestandardni in\u00a0najve\u010dkrat v\u0161e\u010dkani. Za razliko od zasebnih uporabnikov na splo\u0161no pa v njihovih tvitih prevladuje pozitiven sentiment.<\/p>\n<\/div>\n<div class=\"page\" title=\"Page 1\">\n<div class=\"layoutArea\">\n<div class=\"column\">\n<p>Glede na velike razlike v vedenju razli\u010dnih tipov uporabnikov smo se preizkusili tudi v avtomatski klasifikaciji zasebnih in korporativnih ra\u010dunov. Avtomatsko prepoznavanje latentnih zna\u010dilnosti uporabnikov dru\u017ebenih omre\u017eij je v mednarodni raziskovalni skupnosto\u00a0trenutno zelo \u017eivahno podro\u010dje, kjer raziskovalci poleg tipa ra\u010duna\u00a0uporabnikom glede na njihovo vedenje sku\u0161ajo avtomatsko pripisati tudi spol, starost, lokacijo, poklic,\u00a0versko in politi\u010dno pripadnost ipd. Za avtomatsko klasifikacijo zasebnih in korporativnih ra\u010dunov smo uporabili dva nabora zna\u010dilk: jezikovno neodvisne (npr. <em>\u0161tevilo tvitov, ki vsebujejo URL<\/em>) in jezikovno odvisne (npr. <em>kazalni zaimek v ednini oz. dvojini<\/em>) ter preprosti model, ki temelji na vre\u010di besed posameznega uporabnika.\u00a0Evalvacija je\u00a0pokazala, da najosnovnej\u0161i\u00a0model, ki temelji na vre\u010di besed, deluje bolje od jezikovno neodvisnih in jezikovno odvisnih zna\u010dilk, da pa z zdru\u017eevanjem vseh treh modelov dose\u017eemo najbolj\u0161i rezultat (F1 ve\u010d kot 96% za zasebne uporabnike). Zanimiva je tudi ugotovitev, da jezikovno neodvisne zna\u010dilke niso dobro prenosljive na drugo \u010dasovno obdobje ali\u00a0drug jezik (npr. na hrva\u0161\u010dino).<\/p>\n<p>Analiza vedenja slovenskih uporabnikov na dru\u017ebenem omre\u017eju Twitter je opisana v prispevku Ljube\u0161i\u0107 in Fi\u0161er (2016)\u00a0<a href=\"http:\/\/nl.ijs.si\/janes\/wp-content\/uploads\/2016\/09\/CMC-2016_Ljubesic_Fiser_Slovene-Twitter-Analytics.pdf\">Slovene Twitter Analytics<\/a>, ki smo ga predstavili na\u00a04. konferenci o ra\u010dunalni\u0161ko posredovani komunikaciji, eksperiment avtomatske klasifikacije tipov uporabnikov pa v prispevku Ljube\u0161i\u0107 in Fi\u0161er (2016)\u00a0<a href=\"http:\/\/noisy-text.github.io\/2016\/pdf\/WNUT08.pdf\">Private od corporate? Predicting User Types on Twitter<\/a>, ki je bil\u00a0predstavljen na 2. delavnici o \u0161umnih uporabni\u0161ko generiranih vsebinah.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<p><!--themify_builder_static--><!--\/themify_builder_static--><\/p>\n","protected":false},"excerpt":{"rendered":"<p>2.1 \u00a0Primerjalna raziskava z govorjenim jezikom Pri analizi govorjenih prvin v spletnih besedilih smo \u017eeleli empiri\u010dno preu\u010diti stereotip, da \u00bbna spletu pi\u0161emo, kot govorimo\u00ab. S korpusno analizo smo \u017eeleli zaznati tipi\u010dne prvine govorne komunikacije, ki so prisotne v spletnih besedilih, in analizirati njihovo vlogo v vsakodnevni komunikaciji na spletu. Zato smo izvedli dvostopenjsko analizo korpusov [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"parent":8,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-109","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"builder_content":"","_links":{"self":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/109","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/comments?post=109"}],"version-history":[{"count":57,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/109\/revisions"}],"predecessor-version":[{"id":6270,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/109\/revisions\/6270"}],"up":[{"embeddable":true,"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/pages\/8"}],"wp:attachment":[{"href":"https:\/\/nl.ijs.si\/janes\/wp-json\/wp\/v2\/media?parent=109"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}