Nacionalni projekt J6-7094:
“Slovenska znanstvena besedila: viri in opis”

Razvoj in uporaba slovenskega znanstvenega jezika v visokem šolstvu ter znanosti je zadnja leta eno osrednjih vprašanj slovenske jezikovne politike. Problem je izpostavljen tudi v Resoluciji o Nacionalnem programu za jezikovno politiko 2014–2018, na vpliv, ki ga imata znanje in razvoj znanstvenega jezika na vitalnost posameznega jezika, pa opozarja tudi več evropskih študij. Zaradi tega je nujno izdelati sodobne referenčne jezikovne vire, ki bodo pomagali opolnomočiti slovenski znanstveni jezik, in na njih izvesti raziskave tega segmenta slovenščine.

Slovenske univerze so vzpostavile repozitorije svojih publikacij, ki vsebujejo raznorodna besedila, od diplomskih do doktorskih del na njihovih fakultetah kot znanstvene in strokovne prispevke, leta 2013 pa je bil vzpostavljeni tudi Nacionalni portal odprte znanosti, ki agregira vsebine iz univerzitetnih repozitorijev. Portal ponuja dostop do prek 123.000 slovenskih objav s širokega nabora strokovnih področij. Ta dela so izjemno dragocen, a zaenkrat še neizkoriščen vir podatkov o znanstveni slovenščini, kot tudi bogat vir terminoloških podatkov.

V projektu izdelujemo korpus slovenske znanstvene slovenščine, ki vsebuje besedila, prevzeta s portala odprte znanosti. Besedila so zajeta iz formata PDF, kar zahteva razvoj metod za čiščenje besedil, luščenje strukture dokumentov ter pretvorbo v enovit in standardiziran zapis XML. Korpus je jezikoslovno označen z na novo razvitimi orodji.

Razvili bomo tudi metode za klasifikacijo besedil, ki bodo izboljšale uporabnost portala odprte znanosti s tem, da bo z njimi omogočeno bolj kompleksno iskanje po vsebinah, nadgrajen pa bo tudi vmesnik za knjižničarje, ki v univerzitetne repozitorije vnašajo nova besedila.

Korpus bo služil kot osnova za nove metode avtomatiziranega luščenja slovenske terminologije. Izluščeni terminološki kandidati bodo objavljeni prek prosto dostopnega spletnega slovarskega vmesnika, ki bo omogočal tako pregledovanje kot urejanje zbirk, kar bo slovenskim znanstvenim skupnostim z najrazličnejših področij omogočilo vključitev v upravljanje s terminologijo svojega področja. S strani nekaterih izmed teh skupnosti bomo pridobili tudi odziv na terminološko zbirko, ki jo bomo zanje pripravili v projektu. Pomemben segment projekta je tudi prva empirično zasnovana raziskava slovenskega znanstvenega jezika, ki bo temeljila na zbranem korpusu. Opis znanstvene slovenščine bomo dopolnili z izvedbo anket in poglobljenih intervjujev, s katerimi bomo pridobili podatke o tistih delih znanstvenega pisanja v slovenščini, s katerimi imajo pisci (zlasti doktorski študenti in mlajši doktorji znanosti) največ težav.

Rezultati projekta bodo dostopni v največji možni meri: izdelani viri in orodja bodo prosto in javno dostopni širši raziskovalni skupnosti, s čimer bodo pripomogli k napredku korpusnega jezikoslovja, digitalne humanistike in jezikovnih tehnologij za slovenščino. Viri bodo arhivirani v repozitoriju raziskovalne infrastrukture CLARIN.SI, ki bo prevzela tudi vzdrževanje korpusa po zaključku projekta. Projekt bo v svoje aktivnosti vpel tudi širšo slovensko znanstveno skupnost in druge zainteresirane javnosti.

Pri projektu sodelujejo raziskovalci s štirih znanstvenoraziskovalnih ustanov, ki si za uresničitev zastavljenih ciljev prizadevajo z različnimi, a komplementarnimi znanji. Cilji projekta so torej: okrepitev slovenskega znanstvenega jezika, boljša opremljenost slovenskega jezika za delovanje v informacijski družbi in zagotavljanje večje odprtosti znanstvenih rezultatov.