Delovni sklop 1: KORPUS
V okviru DS1 smo izdelali korpus KAS, ki vsebuje prek 1,5 milijarde besed z 82,000 diplomskih in magistrskih del ter doktorskih disertacij, zbranih iz digitalnih knjižnic slovenskih univerz. Besedila v korpusu so opremljena z bogatimi metapodatki, sama besedila pa so oblikoskladenjsko označena in lematizirana. Korpus je javno dostopen prek CLARIN.SI, in sicer tako repozitorija kot instalacije konkordančnikov KonText in noSketch Engine, in je razdeljen tudi na podkorpuse:
- KAS: celoten korpus (repozitorij, KonText, noSkE)
- KAS-Dipl: diplomska dela (repozitorij, KonText, noSkE)
- KAS-Mag: magistrska dela (repozitorij, KonText, noSkE)
- KAS-Dr: doktorska dela (repozitorij, KonText, noSkE)
Izdelava in vsebina prototipne različice korpusa sta opisana v publikaciji:
- ERJAVEC, Tomaž, FIŠER, Darja, LJUBEŠIĆ, Nikola, LOGAR, Nataša, OJSTERŠEK, Milan. Slovenska znanstvena besedila: prototipni korpus in načrt analiz. Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016 Faculty of Arts, University of Ljubljana, Ljubljana, Slovenia, 2016, str. 58-64. [COBISS.SI-ID 62530146] [PDF]
Delovni sklop 2: TERMINI
Delo v okviru DS2 je opisano v naslednjih publikacijah:
- FIŠER, Darja, SUCHOMEL, Vit, JAKUBIČEK, Miloš. Terminology extraction for academic Slovene using Sketch Engine. RASLAN 2016: Recent Advances in Slavonic Natural Language Processing : proceedings. Brno: Tribun EU, 2016, str. 135-141. [COBISS.SI-ID 62994018] [PDF]
- KUKOVIČIČ, Klara Eva. 2018. Uporabnost luščilnikov terminologije Sketch Engine in CollTerm z vidika (študenta) prevajalca. Zbornik konference Jezikovne tehnologije in digitalna humanistika / Proceedings of the conference on Language Technologies & Digital Humanities. Faculty of Electrical Engineering, University of Ljubljana. 20.–21. 9. 2018, Ljubljana. [PDF] [PPT]
Izdelane podatkovne množice so dostopne v repozitoriju CLARIN.SI:
- ERJAVEC, Tomaž, FIŠER, Darja, LJUBEŠIĆ, Nikola, ARHAR HOLDT, Špela, BREN, Urban, ROBNIK ŠIKONJA, Marko, UDOVIČ, Boštjan. Terminology identification dataset KAS-term 1.0. Ljubljana: Slovenian Language Resource Repository CLARIN.SI, 2018. http://hdl.handle.net/11356/1198. [COBISS.SI-ID 31753511]
Glej tudi:
Špela Arhar Holdt. 2017. Navodila za ocenjevanje terminoloških kandidatov. Delovno poročilo projekta. [PDF, DOCX] - ERJAVEC, Tomaž, FIŠER, Darja, LJUBEŠIĆ, Nikola, BITENC, Maja. Bilingual terminology extraction dataset KAS-biterm 1.0. Ljubljana: Slovenian Language Resource Repository CLARIN.SI, 2018. http://hdl.handle.net/11356/1199. [COBISS.SI-ID 31753255]
Delovni sklop 3: DISKURZ
V okviru DS3 smo uporabili izdelani prototipni korpus KAS za preučitev uporabe trpnika v slovenskem strokovnem jeziku. Analiza je opisana v publikaciji:
- LOGAR, Nataša, ARHAR HOLDT, Špela, ERJAVEC, Tomaž. Slovenski strokovni jezik: korpusni opis trpnika. Toporišičeva obdobja, (Obdobja, ISSN 1408-211X, Simpozij, = Symposium, 35), 2016, str. 237-245. [COBISS.SI-ID 34453853] [PDF]
Na osnovi izdelanega korpusa smo leksikalno analizirali strokovno-znanstveni jezik:
- LOGAR, Nataša, ERJAVEC, Tomaž. Slovene academic writing : a corpus approach to lexical analysis. V: Interdisciplinary knowledge-making, challenges for LSP research : book of abstracts. Bergen: Norwegian School of Economics. 2017, str. 44. [COBISS.SI-ID 34988381]
Pripravili smo pregled učnih načrtov predmetov, povezanih s tvorjenjem strokovno-znanstvenih besedil na slovenskih in tujih univerzah, s poudarkom na seznamih literature, zlasti na njihovem učbeniškem in priročniškem delu. Pregled je opisan v:
- LOGAR, Nataša. Strokovno-znanstveni jezik: študijska literatura in priročniki v Sloveniji ter kratek pregled tujih praks. Delovno poročilo projekta, 2018. [PDF]
- LOGAR, Nataša. Poučevanje strokovno-znanstvenega jezika na slovenskih univerzah: pregled študijske literature in navodil za izdelavo zaključnih del. Slovenščina 2.0 0 : empirične, aplikativne in interdisciplinarne raziskave, ISSN 2335-2736, 2017, letn. 5, št. 1, str. 38–69. [PDF]
Na osnovi izdelanega korpusa KAS smo preučili nekatere značilnosti strokovno-znanstvene slovenščine:
- LOGAR, Nataša, ERJAVEC, Tomaž. 2018. Strokovno-znanstvena slovenščina: besednovrstne in oblikoskladenjske značilnosti. Zbornik konference Jezikovne tehnologije in digitalna humanistika / Proceedings of the conference on Language Technologies & Digital Humanities. Faculty of Electrical Engineering, University of Ljubljana. 20.–21. 9. 2018, Ljubljana. [PDF] [PPT]
- OSRAJNIK, Eneja, FIŠER, Darja, GORJANC, Vojko. 2018. Korpusna analiza nestandardne vejice po uvajalnih prislovnih zvezah v slovenskih formalnih in neformalnih besedilih. Zbornik konference Jezikovne tehnologije in digitalna humanistika / Proceedings of the conference on Language Technologies & Digital Humanities. Faculty of Electrical Engineering, University of Ljubljana. 20.–21. 9. 2018, Ljubljana. [PDF] [PPT]
Posvetili smo se tudi splošnostrokovna leksiki, torej besedam, ki sicer niso terminološke, so pa zelo pomembne za natančno, jasno in jedrnato ubesedovanje strokovne vsebine ter je značilna za strokovno-znanstveno pisanje nasploh. Na osnovi korpusa KAS smo izluščili 463 iztočnic in jih prikazali v njihovi tipični okolici: s kolokatorji in zgledi rabe. Zbirka ALEKS je dostopna na spletu, njeno izdelavo in sestavo pa opiše delovno poročilo projekta:
- Zbirka ALEKS v1.0 (‘akademska leksika slovenščine’) v repozitoriju CLARIN.SI in na portalu Termania.
- LOGAR, Nataša, KOSEM, Iztok, Tomaž ERJAVEC. ALEKS: Leksikalno-skladenjska podatkovna zbirka slovenskega strokovno-znanstvenega jezika (zasnova in zgradba). Ljubljana: Fakulteta za družbene vede; Center za jezikovne vire in tehnologije; Institut “Jožef Stefan”, 2019. Delovno poročilo projekta. [COBISS.SI-ID 300937984] [PDF]
Delovni sklop 4: DISEMINACIJA
V okviru DS4 smo v 2016 v sklopu konference “Jezikovne tehnologije in digitalna humanistika” organizirali panel “Terminologija v poklicnem vsakdanu: stanje in potrebe” z namenom, da preveri stanje in potrebe slovenske terminologije, da lahko projekt čim bolje uresniči svoje poslanstvo na tem področju. Panel je povezovala Nataša Logar, Univerza v Ljubljani, Fakulteta za družbene vede. Govorci in govorke so bili:
- Urban Bren, Univerza v Mariboru, Fakulteta za kemijo in kemijsko tehnologijo
- Miro Romih, Amebis, d. o. o., Kamnik
- Mojca Žagar Karer, Inštitut za slovenski jezik Frana Ramovša, ZRC SAZU
- Katja Benevol Gabrijelčič, Islovar
- Sašo Dolenc, Kvarkadabra
- Katarina Krapež, Univerza na Primorskem, Fakulteta za management
Pogovor je bil objavljen v reviji Slovenščina 2.0:
- LOGAR, Nataša, BENEVOL GABRIJELČIČ, Katja, BREN, Urban, DOLENC, Sašo, KRAPEŽ, Katarina, ROMIH, Miro, ŽAGAR KARER, Mojca, KREK, Simon, GORJANC, Vojko, JEMEC TOMAZIN, Mateja, ARHAR HOLDT, Špela, FIŠER, Darja. Terminologija v poklicnem vsakdanu : stanje in potrebe. Slovenščina 2.0 : empirične, aplikativne in interdisciplinarne raziskave, ISSN 2335-2736, 2016, letn. 4, št. 1, str. 42-78. doi: 10.4312/slo2.0.2016.1.42-78. [COBISS.SI-ID 63583074] [PDF]