Slovarček tviterščine

Slovarček tviterščine 1.0 predstavlja prvi poskus slovarskega opisa nestandardne slovenščine. Slovarček vsebuje 1002 gesli, od katerih jih je 499 generiranih avtomatsko, 503 pa jih vsebuje tudi ročno dodane slovarske informacije. Gesla vsebujejo tudi povezave do več korpusov dostopnih na noSketch Engine CLARIN.SI in na slovarski portal Fran ter grafični prikaz distribucije uporabe gesla po posameznih vrstah tvitov in uporabnikov.

Za pregledovanje je slovarček dostopen prek spletnega vmesnika Lexonomy na CJVT, za prevzem pod licenco CC BY-SA pa v repozitoriju CLARIN.SI na naslovu http://hdl.handle.net/11356/1172.

Geslovnik

Geslovnik za slovarček je nastal na podlagi avtomatsko izluščenih lem iz korpusa Janes Tviti v0.3.4, podatke o pogostnosti pa smo primerjali s korpusom Gigafida v1.0 ter s preostalim delom korpusa Janes, torej s forumi, komentarji in blogi. Na ta način smo izluščili besedišče, ki je (a) za tvite bolj značilno in se v drugih žanrih računalniško posredovane komunikacije ne pojavlja oz. se pojavlja razmeroma redko, in (b) besedišče, ki se v danem pomenu ne pojavlja v korpusu Gigafida (acc, asap, fejs, fen) ali pa je tudi v Gigafidi vezano predvsem na internetna in nestandardna besedila (apdejt, dabest, dejt). Iz širšega geslovnika smo nato v slovar vključili besede, ki v obstoječih slovarskih priročnikih za slovenščino (portal Fran) niso opisane (bremzati, štanga, štikle, trolati) ali pa pri njihovem opisu prihaja do opaznih pomenskih premikov, vezanih primarno na tviterski žanr in računalniško posredovano komunikacijo (tripati, čivkati).

Vrste gesel

Avtomatsko generirana gesla vsebujejo podatke o frekvenci iztočnice, o stopnji podomačenosti (tuje podomačeno/nepodomačeno) in standardnosti (nestandardna beseda) ter oznako krajšava, ki označuje kratice in okrajšave. Poleg tega pa še povezave na konkordance v korpusih Janes-Tweet, Janes, SlWac in Gigafida ter na slovarski portal Fran, če je beseda prisotna v teh korpusih oz. registrirana v katerem od obstoječih slovarskih priročnikov znotraj tega portala. Avtomatsko so geslom dodani tudi grafi, ki prikazujejo podatke o tipu uporabnika tvita (službeni, zasebni) o njegovem spolu (moški ženski, nevtralni), ter o standardnosti (nestandardni, srednji, standardni) in sentimentu tvita (negativen, nevtralen, pozitiven), v katerem se iztočnica pojavlja.

Ročno izdelanim geslom so poleg avtomatsko generiranih podatkov dodani še variantni zapisi iztočnice ter kratka pomenska razlaga ali opis rabe, ki je značilna za tviterski žanr. Posebej so znotraj gesla navedene frazeološke enote, v katerih se pojavlja iztočnica, razlaga pomena in izbrani zgledi iz korpusa. Če se iztočnica pri posameznih pomenih pojavlja v tipičnih besednih povezavah, so te navedene v obliki kolokacij in ponazorjene z izbranimi primeri iz korpusa.

Avtomatsko generirani slovarski podatki

Povezave na korpuse in slovarje

Vsaka iztočnica ima dodano povezavo na konkordance CLARIN.SI spletnega konkordančnika noSketch Engine v korpusih Janes-Tweet, Janes, slWaC in Gigafida, če se v njih pojavlja. Korpusa Janes-Tweet in Janes vsebujeta besedila računalniško posredovane komunikacije, slWaC je korpus slovenskih internetnih besedil, Gigafida pa zastopa splošno besedišče, ki se pojavlja v publicističnih, stvarnih in umetnostnih, v manjši meri pa tudi v internetnih besedilih. Če se iztočnica pojavlja v katerem od obstoječih slovarjev ISJFR, je dodana povezava na portal Fran.

Variantnost

Če se iztočnica v tvitih pojavlja v različnih osnovnih oblikah (default, defolt, difolt; facebook, fejsbuk, fejs, fb), ji je dodana varianta ali niz variant. Vsaka varianta je v slovarčku predstavljena kot samostojna iztočnica, pripisani pa so ji tudi vsi slovarski podatki, ki se nanašajo na konkretni variantni zapis, npr. stopnja podomačenosti ter zgledi rabe, ki ponazarjajo obnašanje (ne)podomačene variante v sobesedilu.  V nekaterih primerih lahko variantni zapis izkazuje tudi dodatni ali nov pomen (bloger – blogger).

Grafi

Vsako slovarsko geslo je pospremljeno s štirimi grafi, ki podajajo statistiko relativne pogostosti pojavitve gesla glede na vrednosti štirih metapodatkov, ki so pripisani vsakemu tvitu, in sicer spol in tip uporabnika (avtorja tvita), ki sta pripisana tvitom ročno, ter jezikovna standardnost in sentiment tvita, ki sta tvitom pripisana avtomatsko.

Na primer, verjetnost, da se geslo pojavilo v tvitu ženskega avtorja p(word | female) = f(word, female) / f(female), pri čemer je f(word, female) število pojavitev gesla v tvitih žensk in f(female) število vseh tvitov, ki so jih napisale ženske. Za vse štiri kategorije metapodatkov so formule torej sledeče:

  • Vir tvita (source):
    • Službeni: p(word | corporate) = c(word, corporate) / c(corporate)
    • Zasebni: p(word | private) = c(word, private) / c(private)
  • Spol avtorja (sex)
    • M: p(word | male) = c(word, male) / c(male)
    • Ž: p(word | female) = c(word, female) / c(female)
    • N: p(word | neutral) = c(word, neutral) / c(neutral)
  • Standardnost tvita (Linguistic standardness)
    • Nestandardni: p(word | L3) = c(word, L3) / c(L3)
    • Srednji: p(word | L2) = c(word, L2) / c(L2)
    • Standardni: p(word | L1) = c(word, L1) / c(L1)
  • Sentiment tvita (sentiment)
    • Negativen: p(word | negative) = c(word, negative) / c(negative)
    • Nevtralen: p(word | neutral) = c(word, neutral) / c(neutral)
    • Pozitiven: p(word | positive) = c(word, positive) / c(positive)

Za risanje grafov smo uporabili knjižnico pyplot Python paketa matlibplot.

Ročno dodani slovarski podatki

Standardnost

V slovarček tviterščine so izhodiščno vključene besede, ki se pojavljajo v tvitih, ki imajo avtomatsko pripisano najvišjo stopnjo tehnične in jezikovne nestandardnosti (Ljubešić et al. 2015). Dodatno je oznaka nestandardna beseda pripisana tipično prevzetim besedam, ki so v slovenščini že relativno ustaljene in jih je mogoče najti v nestandardnih besedilnih žanrih tudi zunaj tvitov in računalniško posredovane komunikacije, npr. cajteng, fršlok, kofe. Razlog za vključitev v slovar tviterščine je njihovo pogosto pojavljanje tudi v tvitih. Kot nestandardne smo označevali tudi besede, ki imajo v jeziku prepoznavno standardno različico, npr. bremzati – zavirati, izležavati – poležavatičelav – plešast, bolano – bolno, ter besede, ki svojo nestandardnost izkazujejo v izbiri registra, zlasti kletvice (bemti, jebote) in žaljivke (govno, komunajzar). Novejših besed, prevzetih iz angleščine ali nemščine (frendica, iber), načeloma nismo opredeljevali glede na standardnost, čeprav imajo nekatere prav tako standardno ustreznico, npr. hengati – družiti se; invajtati – povabiti, ampak zgolj glede na stopnjo podomačenosti.

Stopnja podomačenosti

Z oznako tuje podomačeno so v slovarčku opredeljene besede, ki poleg enega ali več podomačenih zapisov ohranjajo zapis v izvirniku, npr. follower – folover, in besede, kjer je zapis oz. kateri od variantnih zapisov pisno in/ali glasovno podomačen, npr. happy – hepi, cute – kjut. Kot stopnjo podomačenosti smo upoštevali tudi sposobnost tvorbe novih podomačenih oblik, npr. followat – pofollowat/pofollovat/pofolovat, kenslati – skenslati.

Oznaka tuje nepodomačeno je pripisana besedam, ki so v tvitih znotraj slovenskega konteksta zastopane zgolj ali pretežno v izvirni obliki, npr. annoying, dealhardcore, multitasking. V to skupino sodijo tudi frazeološke enote tujejezičnega izvora, ki ohranjajo tudi izvirni zapis, npr. pitaj boga, lagano sportski, kein problem.

Nove besede

Oznaka nova beseda je pripisana iztočnicam, ki predstavljao potencialno integracijo v slovenski jezik. Večinoma gre za prevzete besede, ki imajo v slovenščini že relativno ustaljeno standardno različico, npr. komp – računalnikčekirati – preveriti, in za besede, ki se zunaj tviterskega žanra ali računalniško posredovane komunikacije v danem pomenu (še) ne pojavljajo npr. šerati, folovati, ritvitati, odslediti, virtualka, bizarka ipd. Manjše število tako označenih besed se poleg v tvitih pojavlja tudi v žanrsko specifičnih besedilih korpusa Gigafida, npr. tiskovka, basketaš, bakica, bruhica, dolpoteg.

Frazelologija in besedne zveze

Če se iztočnica tipično pojavlja v frazeološki enoti ali besedni zvezi, ki ima svoj pomen ali samostojno komunikacijsko vlogo, je v slovarčku opisana znotraj gesla, vključno z opisom pomena in korpusnimi zgledi (ceglc – plonk ceglc, comment – no comment) ali pa je prikazana kot samostojna iztočnica skupaj z vsemi slovarskimi podatki (brez veze, kopi pejst).

Pomenski opis

V ročno izdelanh geslih je iztočnicam dodan tudi kratek pomenski opis pri posameznih pomenih in pri frazeoloških enotah. Pomenski opis izhaja iz tipične rabe besede ali zveze v tviterskem žanru ter izpostavlja področje ali okoliščine rabe (blendati, junk; blender), v nekaterih primerih tudi register (bitch; btk) in komunikacijsko funkcijo besede (bajdevej, bejž). Nekaterim prevzetim besedam, zlasti kraticam in krajšavam, je dodana tudi razvezava ali ustreznik v izvirnem jeziku (bday, bdw; bed).