Projekt JOS:
jezikoslovno označevanje
slovenskega jezika
Projekt JOS je razvil označene korpuse slovenskega jezika in pridružene vire, namenjene spodbujanju razvoja jezikovnih tehnologij za slovenski jezik. Rezultati vsebujejo Oblikoskladenjske specifikacije JOS (definicija nabora oblikoskladenjskih oznak), dva označena korpusa in dva spletna servisa. Razviti viri so v celoti dostopni pod licencami Creative Commons.
Spletna servisa
Korpusa JOS: jos100k in jos1M
Jezikoslovno označena korpusa JOS vsebujeta vzorčene odstavke iz korpusa FidaPLUS. Korpus jos100k vsebuje 100.000 besed s podrobno ročno preverjenimi jezikoslovnimi oznakami, ki vsebujejo leme, oblikoskladenjske oznake, skladenjska razmerja in leksikalno-pomenske oznake na izbranih samostalnikih. Korpus jos1M vsebuje 1 milijon besed z delno ročno preverjenimi lemami in oblikoskladenjskimi oznakami.
Oba korpusa sta dostopna v izvornem zapisu XML in v tabelaričnih formatih. Shema XML temelji na smernicah TEI P5. Datoteke v tabelaričnih formatih so manjše in verjetno preprostejše za neposredno uporabo, vendar pa ne vsebujejo vseh informacij iz izvornega korpusa. Tabelarične datoteke so na voljo z jezikoslovnimi oznakami tako v slovenščini kot v angleščini.
Kolofona TEI (korpusni metapodatki) sta na voljo tudi v formatu HTML (jos100k in jos1M), tako v slovenskem kot angleškem jeziku. Kolofon vsebuje med drugim bibliografski opis vseh besedil iz korpusa, taksonomijo besedil FIDA, oblikoskladenjsko knjižnico JOS z oblikoskladenjskemi oznakami in njihovimi lastnostmi, in kratko razlago za uporabljene skladenjske odvisnosti.
Korpusa sta dostopna po licenci Creative Commons, Priznanje avtorstva-Nekomercialno 3.0: vire lahko uporabljate v raziskovalne namene, pod pogojem, da navedete izvorne avtorje; v znanstvenih publikacijah to pomeni citiranje ustreznega dela ali del, dostopnih v bibliografiji.
Bibliografija
Tomaž Erjavec, Darja Fišer, Simon Krek, Nina Ledinek: The JOS Linguistically Tagged Corpus of Slovene. Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10), Malta, 2010.
Darja Fišer, Tomaž Erjavec: sloWNet: Construction and Corpus Annotation. Proceedings of Fifth International Conference of the Global WordNet Association (GWC'10), Mumbay, 2010.
Nina Ledinek, Tomaž Erjavec: Odvisnostno površinskoskladenjsko označevanje slovenščine: specifikacije in označeni korpusi. Zbornik Simpozija Obdobja: Infrastruktura slovenščine in slovenistike, Ljubljana, 2009.
Tomaž Erjavec, Simon Krek: Oblikoskladenjske specifikacije in označeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije, 2008, Ljubljana.
Tomaž Erjavec, Simon Krek: The JOS Morphosyntactically Tagged Corpus of Slovene. Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08), Marrakech 2008.
Povezave
- Projekt SSJ: sporazumevanje v slovenskem jeziku
- Jezikovni viri MULTEXT-East
- Infrastruktura CLARIN.SI
- sloWNet
- Text Encoding Initiative in TEI P5