Korpus jos1M
Korpus jos1M vsebuje 1.000.000 besed, sestavljajo ga vzorčeni odstavki iz korpusa FidaPLUS. Namen korpusa je, da služi kot učni vir za jezikoslovno označevanje slovenskega jezika, saj oznake pokrivajo oblikoslovno raven jezikoslovne obravnave in so delno ročno prevejene preverjene. Korpus vsebuje sledeče podatke:
- besedila v korpusu so označena z bibliografskimi podatki in razvščena v besedilno taksonomijo FIDE
- besedila vsebujejo celotne vzorčene odstavke, ti stavke, ti pa besede, ločila in presledke
- besede imajo pripisano oblikoskladenjsko oznako in lemo; te so bile delno ročno preverjene.
Dokumentacija ravni označevanja (glej tudi publikacije):
- oblikoskladenjske oznake: specifikacije in navodila za označevalce
Prevzem jos1M V1.1:
- kolofon TEI v HTML: slovenski, angleški
- korpus je dostopen za prevzem v repozitoriju CLARIN.SI pod
stalnim URL:
http://hdl.handle.net/11356/1037
Ročno preverjanje korpusa jos1M je bilo izvedeno v okviru projekta "BMT: razvoj glasovnega bralnika besedil za mobilne telefone za slepe in slabovidne uporabnike".
Operacijo sta delno financirala Evropska unija iz Evropskega sklada za regionalni razvoj ter Ministrstvo za visoko šolstvo, znanost in tehnologijo v okviru razvojne prioritete Gospodarsko-razvojna infrastruktura in prednostne usmeritve Informacijska družba v okviru Operativnega programa krepitve regionalnih razvojnih potencialov 2007-2013.