Nacionalni projekt J6-7094:
“Slovenska znanstvena besedila: viri in opis”

Razvoj in uporaba slovenskega znanstvenega jezika v visokem šolstvu ter znanosti je zadnja leta eno osrednjih vprašanj slovenske jezikovne politike. Problem je izpostavljen tudi v Resoluciji o Nacionalnem programu za jezikovno politiko 2014–2018, na vpliv, ki ga imata znanje in razvoj znanstvenega jezika na vitalnost posameznega jezika, pa opozarja tudi več evropskih študij. Zaradi tega je nujno izdelati sodobne referenčne jezikovne vire, ki bodo pomagali opolnomočiti slovenski znanstveni jezik, in na njih izvesti raziskave tega segmenta slovenščine.

Slovenske univerze so vzpostavile repozitorije svojih publikacij, ki vsebujejo raznorodna besedila, od diplomskih do doktorskih del na njihovih fakultetah kot znanstvene in strokovne prispevke, leta 2013 pa je bil vzpostavljeni tudi Nacionalni portal odprte znanosti, ki agregira vsebine iz univerzitetnih repozitorijev. Portal ponuja dostop do prek 123.000 slovenskih objav s širokega nabora strokovnih področij. Ta dela so izjemno dragocen, a zaenkrat še neizkoriščen vir podatkov o znanstveni slovenščini, kot tudi bogat vir terminoloških podatkov.

V projektu smo izdelali korpus slovenske znanstvene slovenščine, ki vsebuje diplomska, magistrska in doktorska dela prevzeta s portala odprte znanosti. Besedila so zajeta iz formata PDF, kar zahteva razvoj metod za čiščenje besedil, luščenje strukture dokumentov ter pretvorbo v enovit in standardiziran zapis XML. Korpus je jezikoslovno označen z na novo razvitimi orodji.

Korpus je služil kot osnova za nove metode avtomatiziranega luščenja slovenske terminologije. Izluščeni terminološki kandidati bodo objavljeni prek prosto dostopnega spletnega slovarskega vmesnika, ki bo omogočal tako pregledovanje kot urejanje zbirk, kar bo slovenskim znanstvenim skupnostim z najrazličnejših področij omogočilo vključitev v upravljanje s terminologijo svojega področja.

Pomemben segment projekta je bila tudi prva empirično zasnovana raziskava slovenskega znanstvenega jezika, ki je temeljila na zbranem korpusu. Opis znanstvene slovenščine smo dopolnili z izvedbo anket in poglobljenih intervjujev, s katerimi smo pridobili podatke o tistih delih znanstvenega pisanja v slovenščini, s katerimi imajo pisci (zlasti doktorski študenti in mlajši doktorji znanosti) največ težav.

Rezultati projekta so dostopni v največji možni meri: izdelani viri in orodja so prosto in javno dostopni širši raziskovalni skupnosti, s čimer bodo pripomogli k napredku korpusnega jezikoslovja, digitalne humanistike in jezikovnih tehnologij za slovenščino. Viri so arhivirani v repozitoriju raziskovalne infrastrukture CLARIN.SI, ki je prevzela tudi vzdrževanje korpusa po zaključku projekta. Celotni korpus, kot tudi njegovi trije podkorpusi so dostopni za analizo prek konkordančnikov in za prenos z repozitorija CLARIN.SI:

Pri projektu so sodelovali raziskovalci s štirih znanstvenoraziskovalnih ustanov, ki so si za uresničitev zastavljenih ciljev prizadevali z različnimi, a komplementarnimi znanji. Cilji projekta so torej bili: okrepitev slovenskega znanstvenega jezika, boljša opremljenost slovenskega jezika za delovanje v informacijski družbi in zagotavljanje večje odprtosti znanstvenih rezultatov.