Korpus jos100k V2.0
Korpus jos100k vsebuje 100.000 besed, sestavljajo ga vzorčeni odstavki iz korpusa FidaPLUS. Namen korpusa je, da služi kot referenčni vir za jezikoslovno označevanje slovenskega jezika, saj ročno preverjene oznake pokrivajo tri nivoje jezikoslovne obravnave. Korpus je označen na naslednjih nivojih:
- besedila v korpusu so označena z bibliografskimi podatki in razvščena v besedilno taksonomijo korpusa Fida(PLUS)
- besedila vsebujejo celotne vzorčene odstavke, ti stavke, ti pa besede, ločila in presledke
- besede imajo pripisano oblikoskladenjsko oznako in lemo
- stavkom je pripisan graf z odvisnostnimi skladenjskimi razmerji
- vse pojavitve stotih najpogostejših samostalnikov so označene s konceptom (sinset id) iz semantičnega leksikona sloWNet
Dokumentacija ravni označevanja (glej tudi publikacije):
- oblikoskladenjske oznake: specifikacije in navodila za označevalce
- skladenjske oznake: navodila za označevalce
- pomenske oznake: navodila za označevalce in dodatek s primeri
Prevzem jos100k V2.0:
- kolofon TEI v HTML:
- korpus je dostopen za prevzem na http://nl.ijs.si/jos/download/