next up previous contents
Naprej: Bibliografija Navzgor: Računalniške zbirke besedil Nazaj: MULTEXT-East

Zaključek

Članek je predstavil nekatere vidike računalniških zbirk besedil. Uporabnost takšnih korpusov je nedvomna, vendar pa je njihova izdelava, razširjanje in uporaba razmeroma zahtevna. V članku sem se osredotočil na bolj tehnične vidika zapisa, izdelave in uporabnosti korpusov, izpustil pa sem obravnavo ravno tako pomembnih pravnih in človeških vidikov -- teh se na kratko dotaknemo tu.

Pravno vprašanje je izredno pomembno, posebno pri izdelavi, saj so besedila v korpusu še vedno last avtorjev, založb ali prevajalcev. Ti se ponavadi bolj ali manj upravičeno bojijo zaupati svoja besedila na računalniškemu mediju urednikom korpusa in nato tretjim osebam, saj je, vsaj v teoriji, ta besedila nato možno razmeroma enostavno ponatisniti ali kako drugače neavtorizirano uporabiti. Izkušnje evropskih projektov kažejo, da uredniki korpusov porabijo ponavadi skorajda več časa za pridobitev privoljenj lastnikov besedil kot pa nato za izdelavo samega korpusa. Pravni status dodatno zapleta dejstvo, da korpus sestavljajo tudi oznake v njem, le-te pa so last urednikov korpusa.

Če so uredniki korpusa tudi njegovi edini uporabniki, je neavtorizirana uporaba še relativno enostavno obvladljiva. Vendar pa utegne korpus biti zanimiv tudi tretjim osebam. Ob predpostavki, da lastniki besedil, pa tudi uredniki korpusov, zaupajo pravnemu sistemu svoje države, je možno nezaželjeno izkoriščanje korpusov urediti z ustreznimi izjavami, s katerimi se morajo zavezati tako uredniki korpusov kot tudi nadaljnji uporabniki. Formuliranje takšnih izjav na srečo postaja vedno lažje, saj je na voljo že dosti primerov iz evropskih projektov.

Seveda pa je izdelava korpusov, posebno široko dostopnih, smiselna samo, če se ti korpusi nato tudi uporabljajo. Tu stopi v ospredje človeški faktor, saj dosti institucij, ki bi takšne korpuse lahko s pridom uporabljale nima razvite računalniške ekspertize. Verjetno je najlažji način, kako takšni jezikovni viri lahko zaživijo, uvajanje njihove uporabe v primerne visokošolske študije ter s popularizacijo celotnega področja jezikovnih tehnologij.

Kot je bilo že rečeno, javno dostopnih in standardiziranih korpusov za slovenski jezik še ni. Izdelava korpusov in ostalih jezikovnih virov je predraga, da bi bilo smiselno že v prvi fazi prepustiti njihov nastanek ekonomskim faktorjem, še posebej za jezike s tako majhnim številom govorcev kot jih ima slovenski jezik. Z vladnim financiranjem in sodelovanjem založb, računalniških hiš in akademskih institucij bi bilo nujno najprej omogočiti izdelavo široko dostopnih virov, saj šele ti lahko dajo eno od prepotrebnih osnov za nadaljnji razvoj raziskovanja in uporabe naše materinščine.


next up previous contents
Naprej: Bibliografija Navzgor: Računalniške zbirke besedil Nazaj: MULTEXT-East

Tomaž Erjavec