Korpusna analiza

Zaključene raziskave

2.1  Primerjalna raziskava z govorjenim jezikom

Pri analizi govorjenih prvin v spletnih besedilih smo želeli empirično preučiti stereotip, da »na spletu pišemo, kot govorimo«. S korpusno analizo smo želeli zaznati tipične prvine govorne komunikacije, ki so prisotne v spletnih besedilih, in analizirati njihovo vlogo v vsakodnevni komunikaciji na spletu. Zato smo izvedli dvostopenjsko analizo korpusov Janes, Gos in Kres. Najprej smo izluščili tipične elemente govora glede na standardna pisna besedila, potem pa smo specifike govora poiskali v korpusu Janes in analizirali njihovo rabo v posameznih podkorpusih (Tviti, Forumi, Komentarji).

Analiza besednih vrst je pokazala, da v govoru izrazito izstopajo zaimki (ti), členki (pa) in medmeti (oh), kar lahko pripišemo sprotnim okoliščinam načrtovanja in tvorjenja govorjenih besedil. Korpus Janes je po tej plati sicer med govorom in standardnim pisnim jezikom, vendar veliko bliže pisni kot govorjeni slovenščini. Podrobnejša analiza oblikoskladenjskih oznak je izpostavila podobnosti med govorjeno in spletno slovenščino pri izrazito pogostih oblikah osebnega zaimka v imenovalniku (jaz), glagola v sedanjiku druge osebe (veš) v vlogi diskurznih označevalcev in kazalnega zaimka v vlogi besedilnih aktualizatorjev (un ta rdeč).

Na ravni besedišča so tako za govor kot za spletna besedila tipični izrazi interakcije (lej), deiktični izrazi (tale) in izrazi nestandardne izreke oz. zapisa (vidla). Dodatno analizo smo izvedli znotraj kategorije elementov interakcije, s katerimi avtorji besedil utrjujejo svojo identiteto in razkrivajo svoj odnos do zunajjezikovne realnosti. Ključne razlike so se pokazale na ravni variantnosti zapisa oz. izgovora, saj se avtorji spletnih besedil pogosto ne morejo identificirati z dejansko glasovno podobo nekaterih pogostih izrazov (napr. zej za zdaj). Razhajanja med govorom in spletnimi besedili pogojuje tudi prostorska oddaljenost udeležencev, kar se kaže skozi specifično rabo svojilnih in kazalnih zaimkov v spletnih žanrih (tale, tvoj). Tretja opazna točka razhajanja med govorom in analiziranimi spletnimi žanri je potek načrtovanja in tvorjenja besedil, zaradi česar se razlikujejo predvsem ekspresivni izrazi (eee v govoru, lol v spletnih žanrih).

Rezultati raziskave so podrobneje predstavljeni v člankih A. Zwitter Vitez in D. Fišer (2015) na simpoziju Obdobja, na konferenci eLex in na konferenci Slovenščina na spletu in v novih medijih.

2.2  Kolokacije v spletni slovenščini

Pri analizi slovenščine, ki se uporablja v uporabniških spletnih vsebinah, nas zanima, v kolikšni meri se v njem pojavlja novo besedišče in ali se raba splošnega besedišča na družbenih omrežjih v čem razlikuje od standardne slovenščine. S tem namenom proučujemo tipično sopojavljanje besed oz. kolokacije v tvitih, forumskih sporočilih, komentarjih na novice in blogih.

Najprej smo izdelali metodologijo za primerjavo kolokacij dveh korpusov, ki smo jo uporabili za preučevanje razlik med kolokacijami v standardnem jeziku (korpus Kres) in v spletni slovenščini (korpus Janes). Pri proučevanju splošnega besedišča so nas zanimale tiste kolokacije, ki se pojavljajo izključno v korpusu Janes (in ne v korpusu Kres), ali pa je njihova kolokacijska vrednost v korpusu Janes bistveno večja. Med zanimivimi kategorijami kolokacij smo zaznali kolokacije, ki so se na seznam uvrstile zaradi neformalnih kolokatorjev (npr. nategovati ljudi, frej dan), aktualnih tematik (npr. feminizacija moških, transspolna oseba, privatizacija vode), pomenskih premikov (npr. brisanje zgodovine na računalniku), zaznali smo tudi tujejezične prvine (npr. rimejk filma, startup podjetje), terminologijo s tematsko specializiranih forumov (npr. evklidski prostor), terminologijo, vezano na spletne vsebine (npr. prva/glavna/spletna/desna stran bloga), z luščenjem kolokacij iz korpusa Janes pa smo identificirali tudi frazeologijo in idiomatske izraze (npr. muca jezik papala/popapala/popapcala/papne).

Poleg kolokacij splošnega besedišča smo preučili tudi kolokatorje lem, ki so specifične za korpus Janes (npr. drag/ljub/znani/slovenski/pravi tviteraš, nova/huda/lepa/dobra profilka, meja/število všečkov, prava/velika bizarka, nova/huda/lepa/dobra profilka). Analiza kolokacijskih kandidatov je vodila tudi do popisa pogostih napak označevalnikov (npr. napačna lematizacija, izpuščanje diakritičnih znamenj), ki nam bo v pomoč pri njihovi nadgradnji.

Rezultati analize kolokacij spletne slovenščine so podrobneje opisani v člankih S. Pollak (2015) na simpoziju Obdobja in na konferenci Slovenščina na spletu in v novih medijih.

2.3  Terminologija v spletni slovenščini

Na številnih forumih in blogih (pa tudi v komentarjih na članke v Wikipediji ali celo na nekaterih računih na Twitterju) uporabniki obravnavajo zelo specifično tematiko in pri tem uporabljajo terminologijo. Ker gre najpogosteje za neformalni govorni položaj, se raba terminologije razlikuje od rabe v standardni slovenščini.

V okviru projekta smo preučili rabo terminologije v treh spletnih forumih: med.over.net, avtomobilizem.com in kvarkadabra.net. S pomočjo avtomatskega luščilnika terminov LUIZ in drugih metod, posebej razvitih v projektu, smo raziskovali predvsem raven specializiranosti posameznega foruma, obliko terminov ter raven nestandardnosti terminologije. Primerjali smo tudi moderirane in nemoderirane forume ter objave strokovnjakov in laikov.

Rezultati so pokazali predvsem, da:

  • terminološka bogatost foruma ni povezana z ravnijo (ne)standardnosti izrazja, saj je denimo forum avtomobilizem.com izstopal tako po številu terminov kot po deležu pogovornih, žargonskih in nestandardno zapisanih izrazov (dihtunga, šibedah, ratkapa/radkapa, akomolator), moderirani medicinski forumi pa prav tako uporabljajo veliko terminologije, a z majhnimi odstopanji od standarda;
  • se razpravljalci na forumu izražajo bolj standardno, če je forum moderiran;
  • se strokovna področja močno razlikujejo med seboj po terminoloških posebnostih spletne komunikacije, tako denimo na področju medicine (ginekologije) srečamo vrsto kratic, ki so se ustalile kot poimenovanja znotraj tega spletnega žanra (ZM – zadnja menstruacija, G – ginekolog, KT – kontracepcijske tabletke).

Rezultati so podrobneje opisani v članku Vintar, Š. (2015): Terminologija v spletnih forumih.

2.4  Analiza pomenskih premikov v spletni slovenščini

Pomen besed ni fiksen, temveč se stalno spreminja. Družbena omrežja so za tovrstne raziskave še posebej zanimiva, saj je jezik v njih izrazito dinamičen in se hitro prilagaja novim družbenim okoliščinam. Proučevanje pomenskih premikov je nujno za posodabljanje slovarskih gesel in izboljšanje jezikovnotehnoloških aplikacij, kot sta na primer odgovarjanje na vprašanja in strojno prevajanje.

Analizo pomenskih premikov smo izvedli s primerjavo podobnosti kontekstnih vektorjev (word embeddings) pogostih samostalnikov v referenčnem korpusu Gigafida in korpusu tvitov. S pomočjo besednih skic v konkordančniku SketchEngine smo podrobno analizirali 200 samostalnikov, ki so v obeh korpusih izkazovali najrazličnejša besedilna okolja. Večina zaznamovanih pomenskih premikov je posledica dnevnega družbeno-političnega dogajanja (npr. vztrajnik – protestnik, pirat – politik), neformalnih sporočanjskih okoliščin (npr. optika – internetna povezava, carski – dober) in novomedijske stvarnosti (npr. sledilec – prijatelj na Twitterju, opomnik – aplikacija za opominjanje pomembnih dogodkov). Drug zanimiv pojav je pomensko ožanje besed, ki se v referenčnem korpusu pojavljajo v raznolikih besedilnih okoljih in pomenih, medtem ko je v tvitih njihov semantični repozitorij bistveno ožji. To se dogaja zaradi omejenega nabora tematik, ki so omenjane na Twitterju (npr. posodobiti  -aplikacijo, podnapis – v filmu), in omejevanje rabe besed na določene fiksne vzorce, ki besedam dodajajo pomembno semantično komponento (npr. kvadrat – “na kvadrat”, eter – “v etru”). Tretja skupina so besede z enakim semantičnim repozitorijem a različno distribucijo pomenov v obeh korpusih (npr. odklop – počitnice, sesalec – gospodinjski aparat).

Postopek, razvit v okviru te raziskave, je podrobneje predstavljen v članku Fišer, D. in Ljubešić, N. (2016): Detecting semantic shifts in Slovene in ima velik potencial za leksikografijo in računalniško podprto posodabljanje slovarjev.

2.5  Skladnja v nestandardnih besedilih

Namen raziskave je bil utemeljiti korpus Janes kot orodje, nujno potrebno za revizijo in nadgradnjo obstoječih jezikovnih pravil (in s tem postopka jezikovne standardizacije). Zanjo smo uporabili korpus Janes, saj prinaša besedila, ki za razliko od gradiva v referenčnih korpusih večinoma niso jezikovno korigirana in zato realneje izkazuje tendence rabe oz. (ne)intuitivnost obstoječih jezikovnih pravil v širši jezikovni skupnosti. S premišljeno metodologijo primerjave korpusnih podatkov lahko to dejstvo uporabimo za ugotavljanje sistemskih jezikovnih sprememb, ki jih je mogoče – ali bolje rečeno nujno – upoštevati pri nadaljnji jezikovni standardizaciji. Za študijo primera smo izbrali v slovenističnem prostoru dobro poznani in pereči jezikovni problem: zapisovanje in kategorizacijo zvez samostalnika z neujemalnim levim prilastkom (npr. solo petje, RTV prispevek). Analiza je razkrila: da se referenčni korpus Kres in korpus Janes glede zapisa teh zvez pomembno razlikujeta; da je raba tovrstnih zvez v korpusu Janes pogostejša in bolj raznolika kot v korpusu Kres; da se v obeh korpusih pojavlja visok delež zvez, ki v rabi izkazujejo variantnost v zapisovanju, tudi na ravni posameznih prilastkov; in da je raba v korpusu Janes konsistentnejša. Predvsem presenetljivo je zadnje odkritje, ki dokazuje, da jezikovna regulacija obravnavanega problema povečuje variantnost v jezikovni rabi – kar je povsem v nasprotju z želenim in pričakovanim in odpira ključna vprašanja o namenu ter načinu lektoriranja v slovenskem prostoru, kot tudi stanju in vlogi jezikovnih priročnikov za slovenščino in obstoječih standardizacijskih teles ter praks.

Rezultati raziskave so bili predstavljeni v naslednjih prispevkih: Arhar Holdt, Š., Dobrovoljc, K. (2015). Zveze samostalnika z nesklonljivim levim prilastkom v korpusih Janes in Kres, Arhar Holdt, Š., Dobrovoljc, K. (2016): Vrednost korpusa Janes za slovensko normativistiko in Stabej, M., Dobrovoljc, H., Krek, S., Gantar, P., Popič, D., Arhar Holdt, Š., Fišer, D., Robnik Šikonja, M. (2016): Slovenščina Janes: pogovorna, nestandardna, spletna ali spretna?

2.6  Sociolingvistična analiza konstrukcije in reprezentacije spolov na družbenih omrežjih

Korpus tvitov smo preučili tudi z vidika konstrukcije in reprezentacije spolov. Osredotočili smo se na tipična kolokacijska okolja lem moški in ženska. Kljub pričakovanjem v zvezi z emancipatoričnimi  potenciali uporabniških spletnih vsebin je analiza kolokacij pokazala, da novi mediji pogosto reproducirajo, celo izumljajo nove oblike neenakosti med spoloma, utrjujejo norme, vezane na spolni izraz, in podpirajo tradicionalne vloge in razmerja moči, vezana na posamezni spol. Z izrazi, ki ponazarjajo ženski spol v primerjavi s tistimi, ki ponazarjajo moškega, se veliko pogosteje ali skoraj ekskluzivno vežejo besede za opisovanje psihične in fizične viktimizacije, pa tudi pasivnosti in objektivizacije.

Poleg analize kolokacij smo razlike med spoloma preučevali tudi z vidika tvorjenja besedil, natančneje preko analize tematik, o katerih pišejo slovenski blogerji. Primerjava je pokazala, da tako ženske kot moški blogajo o politiki, družini, okolju in prehrani. Moški uporabniki za razliko od žensk bolj posvečajo temam o športu, glasbi in literaturi ter biologiji, izmed aktualnih dogodkov pa je v ospredju begunska kriza. Blogerke večkrat pišejo o religiji, čustvih in odnosih ter o socialni politiki.

Preučevanje reprezentacije spola v novih medijih je obravnavana v povzetkih avtoric Škrjanec, Sobočan in Pollak (2015, 2016) na srečanju Slovenskega sociološkega društva ter na konferenci International Conference on Intercultural Pragmatics and Communication. Analiza blogovskih tematik v povezavi s spolom avtorjev blogov avtoric Škrjanec in Pollak (2016) je bila predstavljena na konferenci Conference on CMC and Social Media Corpora for the Humanities.

2.7  Analiza sentimenta v uporabniških spletnih vsebinah

Z analizo sentimenta zaznavamo mnenja uporabnikov o določenem izdelku, podjetju, političnem kandidatu, stranki ipd. V tej raziskavi smo s sistemom, razvitim na IJS (Mozetič et al., 2016), avtomatsko pripisali sentiment besedilom v korpusu Janes (npr. negativni sentiment za besedilo ma nimam besed. Dost mam teh slinastih farjev,ki glumjo sirote,dnarja pa ko toče . Da ne pomislim na Zvon,Betnavo.. Plačajo naj p…!), pri čemer smo imeli tri cilje: evalvirati natančnost označevalnika na heterogenih uporabniško generiranih vsebinah, analizirati značilnosti in distribucijo sentimenta v različnih tipih slovenskih uporabniško generiranih spletnih vsebin in korpus obogatiti z dragocenim dodatnim metapodatkom o sentimentu, ki bo dostopen tudi za ostale raziskave.

Najvišjo stopnjo ujemanja avtomatsko pripisanega sentimenta v primerjavi z ročno pripisanim smo dobili za bloge, najnižjo pa za sporočila na forumih. Razlog za to je najverjetneje dolžina besedil, ki je največja pri blogih in je zato v njih sentiment tudi najlažje določljiv. Pri tvitih veliko težav povzroča sarkazem, ki ga je izven konteksta z avtomatskimi metodami zaenkrat zelo težko zaznati. V vseh tipih besedil, razen v tvitih in pogovorih na wikipediji, prevladuje negativen sentiment. Najmanj besedil s pozitivnim sentimentom najdemo v blogih in komentarjih na spletne novice. V tvitih prevladuje nevtralen, na pogovornih straneh Wikipedije pa pozitiven sentiment, kar odraža razlike v komunikacijski funkciji posameznih družbenih omrežij. Medtem ko blogerji in komentatorji novic izbrane komunikacijske kanale uporabljajo predvsem za izražanje mnenj, nestrinjanja in frustracije z dnevno politiko in drugimi dogodki, je osnovni cilj članov forumov in družbenega omrežja Twitter predvsem izmenjava informacij, novic in znanja, uredniki Wikipedije pa si z inkluzivno in spodbujajočo komunikacijo prizadevajo graditi skupnost. Tudi analiza ključne leksike, uporabljene v besedilih z določenim sentimentom, je pokazala precejšnje razlike: medtem ko v negativnih besedilih prevladujejo samostalniki in glagoli (neposredno izražanje negativnega sentimenta), so za pozitivna besedila značilni predvsem pridevniki in prislovi (opisovanje pozitivnega sentimenta), lastna imena pa so izrazito pogosta v nevtralnih besedilih (faktične informativne vsebine).

Analiza sentimenta v korpusu Janes je podrobneje opisana v prispevku Fišer et al. (2016) Sentiment Annotation of Slovene User-Generated Content s konference Jezikovne tehnologije in digitalna humanistika, natančna analiza napak ročnega in avtomatskega označevanja sentimenta pa je predstavljena v prispevku Fišer in Erjavec (2016) Analysis of Sentiment Labeling of Slovene User-Generated Content s 4. konference o računalniško posredovani komunikaciji.

Raziskave v teku

2.8  Primerjalna raziskava s standardnim pisnim jezikom

Kot ugotavljamo v prispevku Popič in Fišer (2015) Vejica je mrtva, živela vejica, uporabniki Twitterja vejico vestno uporabljajo, vejica se pojavlja celo pogosteje kot v referenčnem jezikovnem gradivu. Prispevek obenem tudi nakazuje, da imamo podobne težave z vejico, ne glede na to, kje besedila pišemo – na spletu ali v bolj tradicionalnih medijih. Da bi podrobneje ugotovili, kje nam vejica v uporabniških spletnih vsebinah nagaja najpogosteje, smo zasnovali študijo, v kateri smo na vzorcu 500 tvitov določili vse odvečne, manjkajoče in napačno rabljene vejice, rezultate pa smo predstavili v prispevku Popič et al. (2016) Raba vejice v uporabniških spletnih vsebinah. Ugotovili smo, da so vejične težave v slovenščini v veliki meri univerzalne, saj se vejica tudi v uporabniških spletnih vsebinah obnaša zelo podobno kot sicer – še posebno svojeglava je pri odvisnikih in pristavkih, kjer jo zelo radi pozabljamo, na splošno pa smo z njo zelo varčni, saj v celotnem podkorpusu komajda najdemo kakšno odvečno vejico. Da pa ne bomo vseskozi govorili zgolj o tem, kje imamo pri stavi vejic težave, smo zasnovali še eno študijo, s katero želimo pokazati, kje v uporabniških spletnih vsebinah težav nimamo. Na ta način bomo poskušali ta (veliki?) skladenjski problem spletnem pisanju predstaviti čim bolj celostno.

Uporabniki pa poleg klasičnih ortografskih ločil in znamenj v svoje tvite vključujejo tudi emotikone. V prispevku Osrajnik et al. (2o15) Primerjava rabe ekspresivnih ločil v tvitih slovenskih uporabnikov in uporabnic smo tako prikazali, da uporabniki – ne glede na spol – v svojih tvitih za izražanje ekspresivnosti pogosteje uporabljajo emotikone kot pravopisna ločila. S tem se zastavljajo zanimiva vprašanja, predvsem o tem, kako bomo v prihodnosti izražali naklonskost, tj. razmerje pišočega do tistega, kar izraža.

V konferenčnem prispevku Pesek et al. (2016): Alternative Endings of Slovene Verbs in Third Person Plural smo preučevali variantnost glagolskih obrazil v tretji osebi množine, pri čemer smo se osredotočili na obrazili –jo in –do (jejo in jedopovejo in povedo). Glede na Slovenski pravopis  naj bi bilo obrazilo –jo bolj značilno za knjižni pogovorni jezik in tiste glagole, ki so sestavljenke atematskih  glagolov (jesti – pojesti). Glagolske kandidate smo izluščili iz korpusa Kres in preverili, katera  varianta je pogostejša v celotnem korpusu Janes in v njegovih podkorpusih ter v korpusu Kres. Ker je Kres korpus standardne slovenščine, smo pričakovali, da bodo v teh besedilih našli več variant z obrazilom –do, v podkorpusih Janes pa bo pogostejše obrazilo –jo. Analiza je pokazala, da se skoraj vsi glagoli bolj ali manj uravnoteženo pojavljajo z obemi obrazili. Izjemi sta glagola biti (skoraj izključno z –dobodo) in dati (skoraj izključno z –jodajo) v obeh pregledanih korpusih. Primerjava med podkorpusi Janes in korpusom Kres je prinesla zanimive zaključke. Med seboj so si najbolj podobna besedila iz podkorpusa blogov in korpusa Kres, saj vsebujejo več variant z –do. Po drugi strani pa so med seboj primerljive tudi tendence k obrazilu –jo v podkorpusih tvitov, forumov in komentarjev. Podkorpus wiki smo zaradi majhnosti iz ožje primerjave žanrov izključili.

V konferenčnem prispevku Goli et al. (2016): Analiza krajšanja slovenskih sporočil na družbenem omrežju Twitter smo analizirali pogostost in načine krajšanja v slovenskih tvitih, pri čemer smo uporabili vzorčni podkorpus 800 tvitov z različno stopnjo tehnične in jezikovne standardnosti. Kot elemente krajšanja smo obravnavali redukcije na nivoju zapisa, na leksikalni in skladenjski ravni. Skupno smo zabeležili skoraj 3.500 pojavov krajšanja, ki smo jih uvrstili v 32 različnih kategorij. Ugotovili smo, da se v nestandardnih tvitih pojavlja bistveno več redukcij kot v standardnih. Količinsko in tipološko največ se jih pojavlja na nivoju zapisa, najmanj pa na skladenjski ravni. Na nivoju zapisa najpogosteje najdemo opuščanje presledkov pri ločilih (prepričano,da), na besedni ravni prevladuje krajšanje s kraticami (BDP), na skladenjski ravni pa najdemo predvsem izpuste pomožnih glagolov (uf, zdej mi ze vec stvari jasnih hehe thx za info). Med najbolj zanimive krajšave bi lahko uvrstili priložnostne krajšave na besedni ravni, ki imajo izrazit značaj časovnega, prostorskega oziroma tehničnega krajšanja ter odražajo kreativnost uporabnikov (PV = predsednik vladesod = sodnik). Na splošno lahko krajšanje pri slovenskih uporabnikih Twitterja ocenimo kot zelo pogosto, saj le dobrih 10 % analiziranih tvitov ni vsebovalo nikakršnega krajšanja.

Da imajo uporabniki Twitterja raje veliko začetnico, ko zapisujejo industrijska imena, zlasti ko govorijo o avtomobilih, smo ugotovili v prispevku Škrjanec et al. (2015) Arheologija začetnice pri stvarnih lastnih imenih, da je to neodvisno od tega, ali gre za zasebni ali korporativni račun na Twitterju, pa je pokazala raziskava, objavljena v prispevku Goli et al. (2015) Velika in mala dilema pri imenih industrijskih izdelkov na družbenem omrežju Twitter. Obenem smo raziskali, kako pogosti so v spletni slovenščini sodobni (in tudi nesistemski) besedotvorni postopki v spletni slovenščini, s katerimi poimenujemo novejše (predvsem elektronske) izdelke (npr. iPhone), storitve (npr. eDavki), tehnologije (npr. e-HDI) ipd. O najpogostejših e-tvorjenkah pišemo v prispevku Rebernik (2015) Slovenščina pod palcem interneta: vezajne in dvozačetniške e-tvorjenke, ugotavljamo pa, da je v zadnjem desetletju z razvojem spleta in spletnih tehnologij prišlo do izjemnega razmaha tovrstnih poimenovanj.

2.9  Slovar tviterščine

V okviru raziskovanja leksike računalniško posredovane komunikacije (RPK) smo na podlagi korpusa Janes in primerjalno s korpusom Kres izluščili nabor leksike, ki je tipična za tovrstne žanre. V prvi fazi je metoda luščenja zajela besede, ki se tipično pojavljajo v besedilih RPK na sploh, v drugi fazi pa smo se osredotočili na besede, ki so znotraj RPK tipične predvsem za slovenske tvite. Leksikalna baza v formatu XML / TEI vsebuje 11.969 lem in 17.164 oblik, ki so bile nato ročno pregledane: izločene so bile napačne leme in nestandardni zapisi standardnih besed ter združene podvojene oblike in leme. Nastali seznam vsebuje 1.247 lem, ki predstavljajo leksikalno bazo tviterske leksike, ki jo je mogoče vključiti v druge leksikalne vire oz. uporabiti pri izdelavi sodobnih leksikalnih opisov za slovenščino.

Izluščeno leksiko smo analizirali z vidika standardizacije, stopnje podomačenosti prevzetih besed in z vidika v slovenščini še neregistrirane leksike, novih pomenov in pomenskih premikov. Ugotovili smo, da se zlasti v slovenskih tvitih (pa tudi na forumih in v komentarjih) pojavljajo besede, ki jih obstoječi standardizacijski priročniki za slovenščino bodisi ne vključujejo, čeprav v slovenskem besedišču niso nove (npr. cvikati, dolgcajt), bodisi so opredeljene kot pogovorne, nižje pogovorne ali starinske (npr. štanga, govno). Drugi sklop nestandardnih besed pripada izbiri registra, znotraj katerega lahko prepoznamo zlasti kletvice in žaljivke (npr. komunjara, naci), ter novim besedam, ki so nastale po ustaljenih besedotvornih postopkih (npr. depra, brezveza, kuhanc). Velik delež RPK specifične leksike prihaja iz tujih jezikov, zlasti iz angleščine, srbščine in hrvaščine ter nemščine. Za tovrstno leksiko je zelo očiten trend podomačevanja, ki navadno poteka v več stopnjah, od pisnega in glasovnega podomačevanja (npr. update, updejt, apdejt) do prilagajanja slovenskemu oblikoslovnemu in besedotvornemu vzorcu (npr. apdejtati, hejtati; pofolovati). Z vidika opisa sodobnega slovenskega besedišča je pomembna predvsem detekcija novih besed, za katere obstaja možnost prehoda tudi v splošno besedišče, saj pogosto poimenujejo novo predmetnost ki jo prinaša dinamična in novim okoliščinam hitro prilagajajoča se spletna komunikacija (npr. ključnik za angl. hashtag, naslovka, vsegliharstvo, viralen; odslediti), in pomenski premiki, ki so jih deležne v slovenščini že obstoječe besede (npr. hud, sledilec, profil; deliti, slediti).

Analiza tviterske leksike in slovar tviterščine je predstavljen v prispevku Gantar et al. (2016): Slovar tviterščine, analiza frazeroloških prenovitev v RPK pa v prispevku Justin et al. (2015): Rana ura, slovenskih fantov grob: analiza frazeoloških prenovitev v spletni slovenščini.

2.9  Spletna slovenščina in emocije

Z raziskavo (Zwitter Vitez, Fišer 2016) smo želeli zaznati jezikovne specifike komentarjev, ki izražajo pozitivno ali negativno naravnanost uporabnikov na aktualna družbena dogajanja. Analizirali smo vzorec 70 močno polariziranih komentarjev novičarskega portala RTV Slovenija, ki se nanašajo na novico, da se je na tekmovanju za pesem Evrovizije slovenska predstavnica uvrstila v finale. Komentarjem smo ročno določili kategorijo sentimenta (pozitivno, negativno). Nato smo izvedli jezikoslovno analizo na skladenjski ravni, in sicer glede na vrsto povedi (pripovedna, vzklična, vprašalna in velelna) in glede na kompleksnost povedi (enostavčna, večstavčna). Na leksikalni ravni smo analizirali stopnjo nevtralnosti oz. specifičnosti besedišča glede na tematiko objave, na ortografski ravni pa formalnost oz. neformalnost zapisa komentarjev.

Rezultati kažejo, da so pozitivni komentarji največkrat formulirani kot vzklične povedi (Srečno!) in imajo pogosto enostavčno zgradbo (Imam dober občutek.) Na leksikalni ravni pozitivni komentarji odsevajo splošno besedišče, ki ni povezano s specifično tematiko (srečno, upam, podpiramo), na ortografski ravni pa je opaziti veliko primerov zapisa, ki odstopa od standarda (dejmo), rabo velikih tiskanih črk (BO), nestandardno rabljenih ločil (Dajmo klobasica!!!:)) in emotikonov (😉). Negativni komentarji so pogosto zapisani v nevtralni, pripovedni obliki (Ne, ne bo.) in imajo kompleksno skladenjsko zgradbo (Če zaupaš našim medijem, so še skoraj vsako leto bile kritike glede naših pesmi pozitivne, ampak rezultata pa nobenega in isto bo letos). V negativnih komentarjih se pogosto pojavlja besedišče, ki v okviru konteksta dane novice dobi ironično vlogo (davkoplačevalci, kuhna, lajna), na ortografski ravni pa je opaziti manj posebnosti zapisa kot pri pozitivnih komentarjih.

Jezikovne razlike med pozitivnimi in negativnimi spletnimi komentarji se konsistentno kažejo na skladenjski, leksikalni in ortografski ravni. Zaznane razlike bi lahko delno razložili s kritično funkcijo negativnih komentarjev, ki zahteva tehtno argumentacijo, medtem ko pri pozitivnih komentarjih uporabniki ne čutijo potrebe po utemeljevanju svoje naravnanosti. Po drugi strani pa se zdi, da se uporabniki, ki objavljajo pozitivne komentarje, laže identificirajo s pripadnostjo družbeno-demografskim skupinam s tipičnimi jezikovnimi specifikami, avtorji negativnih komentarjev pa se prepoznajo v vlogi reflektiranih posameznikov, ki uporabljajo manj zaznamovane jezikovne strukture.

2.10  Analiza regionalnih jezikovnih različic slovenščine v tvitih

V okviru analiz računalniško posredovane komunikacije raziskujemo tudi regionalne jezikovne različice slovenščine na spletu oz. v družbenih medijih s poudarkom na Twitterju. Predvsem nas zanima, ali se regionalna jezikovna členjenost slovenščine odseva tudi v spletnih besedil oziroma ali (in v kolikšni meri) pisni jezik uporabnikov odseva njihovo regionalno pripadnost. V prvi fazi raziskav smo zajemali slovenske tvite s podatkom o geolokaciji (koordinatah, s katerih je bil tvit poslan) in v približno enem letu zbrali okrog 130.000 tvitov. Slovenske uporabnike Twitterja smo nato po metodi, opisani v Čibej in Ljubešić (2015), razporedili v 9 regij, ki predstavljajo 7 narečnih jezikovnih skupin po delitvi Frana Ramovša (Primorska, Rovtarska, Gorenjska, Štajerska, Dolenjska, Panonska, Koroška) ter Ljubljano in Maribor, ki smo ju obravnavali posebej kot največji slovenski mestni središči, h katerima gravitira prebivalstvo z več koncev Slovenije.

Za vsako od regij smo izdelali vzorec s 500 tviti. V vsak vzorec smo vključili vse uporabnike iz določene regije, vsak pa je v vzorec prispeval največ 30–50 tvitov. Vzorčene tvite smo ročno pregledali in na podlagi zaznanih pojavov izdelali tipologijo nestandardnih prvin v spletni slovenščini, ki je prilagodljiva in je vanjo mogoče dodajati nove pojave, ki v vzorcih niso bili zaznani. Najnovejša različica tipologije zajema več kategorij, med najpogostejše pa spadajo izpusti samoglasnikov v različnih položajih (nobeneganobenga, narišinariš, denarjadnarja) in soglasnikov (boljbol, peljempelem), alternativna obrazila (imateimaste), različice pogostih nepolnopomenskih besed (kaj, kva, kej, kj, kuga) in različne podkategorije nestandardnega besedišča, npr. izrazi iz računalniško posredovane komunikacije (wtf, lol), germanizmi (cajt, švoh, zihr), anglizmi v podomačeni ali citatni obliki (pohajlajtan, live stream) ter pogovorni in slengovski izrazi (mudel).

Na podlagi razvite tipologije smo označili vse nestandardne jezikovne pojave v vzorcih. Preliminarni rezultati analize in tipologija so predstavljeni v Čibej (2016): Framework for an Analysis of Slovene Regional Language Variants on Twitter. V nadaljevanju bomo izvedli podrobnejšo statistično analizo vseh zaznanih nestandardnih prvin med uporabniki iz različnih regij ter poskušali ugotoviti, ali so določene kategorije nestandardnih jezikovnih pojavov značilnejše za določeno regijo.

2.11  Analiza vedenja slovenskih uporabnikov družbenega omrežja Twitter

Analiza vedenja slovenskih uporabnikov na družbenem omrežju Twitter je relevantna za področja računalništva, informatike, medijskih študij, komunikologije in jezikoslovja. Izvedli smo jo na korpusu tvitov, ki vsebuje 7,5 milijona tvitov oz. 107 milijonov pojavnic, ki jih je med januarjem 2013 in januarjem 2016 objavilo skoraj 9.000 različnih slovenskih uporabnikov. Cilj analize je bil dobiti vpogled v vedenje uporabnikov na tem družbenem omrežju in v jezik, ki ga pri tem uporabljajo, za kar smo uporabili metapodatke, ki so neposredno na voljo na družbenem omrežju (npr. čas objave, št. všečkov) ter metapodatke, s katerimi smo obogatili korpus avtomatsko (npr. sentiment in stopnja standaradnosti tvita) ali ročno (npr. tip in spol uporabnika).

Rezultati analize kažejo velike razlike v vedenju, vsebini in percepciji tvitov zasebnih in korporativnih uporabnikov, ki so v skladju z njihovo primarno komunikacijsko funkcijo: korporativni računi so bolj aktivni čez teden in v času uradnih ur, zasebni uporabniki pa čez vikend in ob večerih. Tviti korporativnih računov so večkrat posredovani, tviti zasebnih računov pa všečkani. Medtem ko je jezik v tvitih slovenskih uporabnikov najbolj standarden zjutraj, najmanj pa pozno zvečer, so tviti korporativnih računov napisani v pretežno standaradni slovenščini, zasebni uporabniki pa za tvitanje uporabljajo bistveno manj standarden jezik. Za razliko od zasebnih uporabnikov, kjer je največ nevtralnega in tudi precej negativnega sentimenta, v tvitih korporativnih uporabnikov prevladuje pozitiven sentiment, pri čemer imajo tviti, napisani v standardnem jeziku, bolj negatisven sentiment, nestandaradni tviti pa bolj pozitivnega. Manjše, a tudi zanimive so razlike med zasebnimi moškimi in ženskimi uporabniki. Moški so v skoraj vseh pogledih bolj podobni korporativnim uporabnikom: več tvitajo čez teden in v jutranjih urah ter uporabljajo bolj standaradni jezik. Od korporativnih uporabnikov pa se razlikujejo po tem, da v njihovih tvitih prevladujeta nevtralen in negativen sentiment. Po drugi strani so ženske uporabnice bolj podobne zasebnim računom: najbolj aktivne so čez vikend in v popoldanskih in večernih urah, njihovi tviti so pretežno nestandardni in največkrat všečkani. Za razliko od zasebnih uporabnikov na splošno pa v njihovih tvitih prevladuje pozitiven sentiment.

Glede na velike razlike v vedenju različnih tipov uporabnikov smo se preizkusili tudi v avtomatski klasifikaciji zasebnih in korporativnih računov. Avtomatsko prepoznavanje latentnih značilnosti uporabnikov družbenih omrežij je v mednarodni raziskovalni skupnosto trenutno zelo živahno področje, kjer raziskovalci poleg tipa računa uporabnikom glede na njihovo vedenje skušajo avtomatsko pripisati tudi spol, starost, lokacijo, poklic, versko in politično pripadnost ipd. Za avtomatsko klasifikacijo zasebnih in korporativnih računov smo uporabili dva nabora značilk: jezikovno neodvisne (npr. število tvitov, ki vsebujejo URL) in jezikovno odvisne (npr. kazalni zaimek v ednini oz. dvojini) ter preprosti model, ki temelji na vreči besed posameznega uporabnika. Evalvacija je pokazala, da najosnovnejši model, ki temelji na vreči besed, deluje bolje od jezikovno neodvisnih in jezikovno odvisnih značilk, da pa z združevanjem vseh treh modelov dosežemo najboljši rezultat (F1 več kot 96% za zasebne uporabnike). Zanimiva je tudi ugotovitev, da jezikovno neodvisne značilke niso dobro prenosljive na drugo časovno obdobje ali drug jezik (npr. na hrvaščino).

Analiza vedenja slovenskih uporabnikov na družbenem omrežju Twitter je opisana v prispevku Ljubešić in Fišer (2016) Slovene Twitter Analytics, ki smo ga predstavili na 4. konferenci o računalniško posredovani komunikaciji, eksperiment avtomatske klasifikacije tipov uporabnikov pa v prispevku Ljubešić in Fišer (2016) Private od corporate? Predicting User Types on Twitter, ki je bil predstavljen na 2. delavnici o šumnih uporabniško generiranih vsebinah.

2.12  Prepoznavanje žaljivega govora na spletu

S pomočjo korpusa spletnih besedil bomo identificirali tudi elemente žaljivega govora. Gre za področje, ki je v Sloveniji šele v zametkih, zato bodo rezultati te raziskave relevantni za številne institucije, ki so odgovorne za zagotavljanje kulture dialoga (npr. varuh človekovih pravic in spletni portali novinarskih hiš). Iz besedil bomo izpisali problematične segmente z eksplicitnimi elementi žaljivega govora in na podlagi njih poskusili ustvariti značilke, ki bodo osnova za avtomatsko zaznavanje potencialno žaljivih izsekov v celotnem korpusu spletnih besedil.

Scroll Up