Jezikovni strežnik nl.ijs.si
Odsek za tehnologije znanja
Institut "Jožef Stefan"


English	slovensko

Korpus jos1M

Korpus jos1M vsebuje 1.000.000 besed, sestavljajo ga vzorčeni odstavki iz korpusa FidaPLUS. Namen korpusa je, da služi kot učni vir za jezikoslovno označevanje slovenskega jezika, saj oznake pokrivajo oblikoslovno raven jezikoslovne obravnave in so delno ročno prevejene preverjene. Korpus vsebuje sledeče podatke:

besedila v korpusu so označena z bibliografskimi podatki in razvščena v besedilno taksonomijo FIDE
besedila vsebujejo celotne vzorčene odstavke, ti stavke, ti pa besede, ločila in presledke
besede imajo pripisano oblikoskladenjsko oznako in lemo; te so bile delno ročno preverjene.

Dokumentacija ravni označevanja (glej tudi publikacije):

oblikoskladenjske oznake: specifikacije in navodila za označevalce

Prevzem jos1M V1.1:

kolofon TEI v HTML: slovenski, angleški
korpus je dostopen za prevzem v repozitoriju CLARIN.SI pod stalnim URL:
http://hdl.handle.net/11356/1037

Ročno preverjanje korpusa jos1M je bilo izvedeno v okviru projekta "BMT: razvoj glasovnega bralnika besedil za mobilne telefone za slepe in slabovidne uporabnike".

Operacijo sta delno financirala Evropska unija iz Evropskega sklada za regionalni razvoj ter Ministrstvo za visoko šolstvo, znanost in tehnologijo v okviru razvojne prioritete Gospodarsko-razvojna infrastruktura in prednostne usmeritve Informacijska družba v okviru Operativnega programa krepitve regionalnih razvojnih potencialov 2007-2013.