Orodja za procesiranje

3.1  Izdelava ročno označenega korpusa

Slovenščina računalniško posredovane komunikacija prinaša raznovrstne specifike (tudi) na leksikalni, oblikoskladenjski in skladenjski ravni. Za ustrezno avtomatsko obdelavo slovenščine je zato treba zagotoviti, da bodo ob učnih množicah standardnega jezika na voljo tudi označene in ročno pregledane množice nestandardnega jezika. Za ta namen smo iz korpusa Janes 0.3 po vnaprej podanih kriterijih za reprezentativnost in uravnoteženost vzorčili posamezna besedila, dobljeni korpus avtomatsko označili in s tem dobili osnovo za “zlati standard”. Za vsako raven označevanja smo izdelali smernice, nato izvedli anotacijsko kampanjo v orodju WebAnno@CLARIN.SI ter označena besedila izvozili v tri podkorpuse:

  1. Janes-Norm, ki pokriva tokenizacijo, vključno z ohranjanjem stičnosti; razdelitev na stavke oz. povedi; normalizacijo oz. standardizacijo besednih oblik;
  2. Janes-Tag, ki dodatno pokriva oblikoskladensjko označevanje in lematizacijo;
  3. Janes-Syn, ki temu doda še odvisnostno skladnjo nad normaliziranimi pojavnicami, s čimer smo sistem za odvisnostno označevanje JOS prilagodili za označevanje nestandardnih prvin. Pilotsko označena množica obsega 200 tvitov. Prilagoditve sistema, s katerimi smo dopolnili označevalne smernice, so primarno na petih ravneh: označevanje žanrsko specifičnih elementov, kot npr. emotikoni, emojiji, naslovi spletnih strani, sklici na uporabniška imena in ključniki; raba tujejezičnih prvin; eliptičnost in fragmentarnost jezika; nestandardna raba ločil; in druge skladenjske posebnosti, npr. atipični besedni red, raba nestandardnih veznikov, nestandardnega slovničnega števila, določnosti, podspola živosti, pojav jezikovnih elementov, sicer tipičnih za govorjeni jezik in podobno. O metodologiji označevanja je mogoče prebrati v prispevku Arhar Holdt, Š., Fišer, D., Erjavec, T., Krek, S. (2016): Syntactic Annotation of Slovene CMC: First Steps. Možnosti skladenjskega označevanja (standardne in nestandardne) slovenščine ter uporabnost označenih rezultatov smo predstavili tudi na poletni šoli Janes.

Ročno označeni korpusi so na voljo na tej povezavi.

3.2  Prilagajanje jezikoslovnega označevanja

Zaradi razlik med spletno in standardno slovenščino (npr. pogovorno zapisane besede) je točnost označevanja standardnih jezikoslovnotehnoloških orodij pri nestandardni slovenščini bistveno slabša. Na podlagi ročno označenega korpusa in leksikona smo prilagodili obstoječe metode in tehnologije, da so sposobne obdelovati tudi nestandardni jezik. Za standardizacijo besed v predlaganem korpusu smo uporabili metodo transkripcije, ki temelji na statističnem strojnem prevajanju. Kot enoto uporablja črke in se nauči modela preslikav iz parov nestandardna beseda : standardna beseda.

3.3  Izdelani viri v odprtem dostopu

Ob koncu projekta bomo z izdelanim označevalnikom ponovno označili korpus, pri čemer ga bomo tudi posodobili z novimi besedili. Ponovno bomo definirali pravila zaščite avtorskih pravic in varstva osebnih podatkov, pri čemer bomo upoštevali izkušnje iz obdobja, ko je bila na voljo prva različica korpusa v prostem dostopu. Korpus bomo poleg prostega dostopa preko konkordančnika ponudili tudi v odprti dostop, tako da bo možen prevzem korpusne baze v XML / TEI in izvedenih formatih.

3.4  Delotoki in spremljevalni korpus

Ob koncu projekta bomo imeli razvita medsebojno povezana orodja za zajem, obdelavo in spletno dostopnost korpusa skozi konkordančnik, kar bomo izkoristili na dva načina, oba povezana z možnostjo prevzema rezultatov projekta v raziskovalno infrastrukturo CLARIN. Izbrana izdelana orodja za obdelave in označevanja (nestandardnih) besedil bomo ponudili v uporabo drugim skozi spletne delotoke. Vzpostavili bomo tudi prototipni sistem, ki bo sproti zajemal nove vsebine, jih občasno pretvoril, označil, indeksiral in ponudil v uporabo skozi konkordančnik. S tem bomo vzpostavili prvi slovenski spremljevalni korpus, pomemben mejnik v dojemanju raziskav razvoja in spreminjanja našega jezika, saj bo omogočal sprotno spremljanje internetne slovenščine in novosti ter sprememb tako na ravni leksike kot tudi vseh ostalih morebitnih zanimivosti, npr. (ne)ustaljenost ortografskih variant skozi čas, prilagajanje sloga in registra uporabnikov, spreminjanje diskurzivnih praks ipd.

Scroll Up