Orodja za procesiranje

3.1 Izdelava ročno označenega korpusa

Slovenščina računalniško posredovane komunikacija prinaša raznovrstne specifike (tudi) na leksikalni, oblikoskladenjski in skladenjski ravni. Za ustrezno avtomatsko obdelavo slovenščine je zato treba zagotoviti, da bodo ob učnih množicah standardnega jezika na voljo tudi označene in ročno pregledane množice nestandardnega jezika. Za ta namen smo iz korpusa Janes 0.3 po vnaprej podanih kriterijih za reprezentativnost in uravnoteženost vzorčili posamezna besedila, dobljeni korpus avtomatsko označili in s tem dobili osnovo za “zlati standard”. Za vsako raven označevanja smo izdelali smernice, nato izvedli anotacijsko kampanjo v orodju WebAnno@CLARIN.SI ter označena besedila izvozili v tri podkorpuse.

3.2 Prilagajanje jezikoslovnega označevanja

Zaradi razlik med spletno in standardno slovenščino (npr. pogovorno zapisane besede) je točnost označevanja standardnih jezikoslovnotehnoloških orodij pri nestandardni slovenščini bistveno slabša. Na podlagi ročno označenega korpusa in leksikona smo prilagodili obstoječe metode in tehnologije, da so sposobne obdelovati tudi nestandardni jezik. Za standardizacijo besed v predlaganem korpusu smo uporabili metodo transkripcije, ki temelji na statističnem strojnem prevajanju. Kot enoto uporablja črke in se nauči modela preslikav iz parov nestandardna beseda : standardna beseda.

3.3 Izdelani viri v odprtem dostopu

Ob koncu projekta smo z izdelanim označevalnikom ponovno označili korpus, pri čemer smo ga tudi posodobili z novimi besedili. Definirali smo pravila zaščite avtorskih pravic in varstva osebnih podatkov, pri čemer smo upoštevali izkušnje iz obdobja, ko je bila na voljo prva različica korpusa v prostem dostopu. Korpus smo poleg prostega dostopa preko konkordančnika ponudili tudi v odprti dostop, tako da je možen prevzem korpusne baze v XML / TEI in izvedenih formatih. Povezave do korpusa Janes 1.0 in njegovih podkorpusov za iskanje v konkordančniku in za prevzem so dostopne tule.

3.4 Delotoki in spremljevalni korpus

Ob koncu projekta smo imeli razvita medsebojno povezana orodja za zajem, obdelavo in spletno dostopnost korpusa skozi konkordančnik, kar smo izkoristili na dva načina, oba povezana z možnostjo prevzema rezultatov projekta v raziskovalno infrastrukturo CLARIN. Izbrana izdelana orodja za obdelave in označevanja (nestandardnih) besedil smo ponudili v uporabo drugim skozi spletne delotoke, in sicer skozi WebLicht in ClowdFlows.

Vzpostavili bomo tudi prototipni sistem, ki bo sproti zajemal nove vsebine, jih občasno pretvoril, označil, indeksiral in ponudil v uporabo skozi konkordančnik. S tem bomo vzpostavili prvi slovenski spremljevalni korpus, pomemben mejnik v dojemanju raziskav razvoja in spreminjanja našega jezika, saj bo omogočal sprotno spremljanje internetne slovenščine in novosti ter sprememb tako na ravni leksike kot tudi vseh ostalih morebitnih zanimivosti, npr. (ne)ustaljenost ortografskih variant skozi čas, prilagajanje sloga in registra uporabnikov, spreminjanje diskurzivnih praks ipd.