Projekt SSJ:
Sporazumevanje v slovenskem jeziku

Zapis korpusov SSJ

Tomaž Erjavec

Stran http://nl.ijs.si/ssj/, zadnja sprememba 2009-02-16

Stran podaja specifikacije za format zapisa korpusov projekta SSJ. Shema zapisa je definirana v XML in sloni na priporočilih Text Encoding Initiative, inačice TEI P5. Za specifikacjo oblikoslovnih ozkak uporablja Priporočila za oblikoslovno označevanje slovenskih besedil JOS projekta Jezikoslovno označevanje slovenskega jezika.

Shema SSJ

Shema SSJ doloća formalno sintakso in pomen elementov in atributov dovoljenih v korpusih SSJ. Skladnost s shemo se preverja preko validatorjev XML, bodisi preko sheme DTD ali, bolje, RelaxNG. Konkretna shema je narejena na osnovi parametrizacije priporočil TEI P5, skozi spletni servis Roma.

Shema v več oblikah in z dokumentacijo je v schema.zip, oz. po posameznih datotekah:

tei_ssj.dtd
Shema SSJ v jeziku DTD
tei_ssj.rnc, tei_ssj.rng
Shema SSJ v jeziku RelaxNG, kompaktni zapis in zapis XML
tei_ssj.zip
Shema SSJ v jeziku W3C schema, v arhivu ZIP
tei_ssj_doc HTML, PDF
TEI dokumentacija razredov, elementov in atributov v shemah SSJ
tei_ssj_schema.xml
TEI parametriziacija za shemo SSJ

Primeri

Korpus SSJ je sestavljen iz kolofona korpusa in dokumentov. Kolofon korpusa vsebuje korpusne metapodatke, in sicer splošne podatke o korpusu ter knjižnice (taksonomije, oblikoslovne oznake). Vsak dokument ima spet svoj kolofon (bibliografski podatki, taksoni), in besedilo. Besedilo je nadalje razdeljeno na odstavke in jezikoslovno označeno.

Struktura je ponazorjena z ilustrativnih korpusom, ki vsebuje dve besedili. Primere je v examples.zip, oz. po posameznih datotekah:

ssjF0020933.xml
Primer manjšega besedila
ssjF0027135.xml
Primer večjega besedila
ssjKorpus-test.xml
Testni kolofon korpusa, ki vsebuje splošne podatke o korpusu, knjižnice jezikov, taksonomih in oblikoslovnih oznak JOS, ter sklic na gornji dve besedili.


Operacija se izvaja v okviru Operativnega programa razvoja človeških virov za obdobje 2007-2013, razvojne prioritete: razvoj človeških virov in vseživljenjskega učenja; prednostne usmeritve: izboljšanje kakovosti in učinkovitosti sistemov izobraževanja in usposabljanja 2007-2013.
Operacijo delno financira Evropska unija iz Evropskega socialnega sklada. Operacijo delno financira Ministrstvo za šolstvo in šport.

Valid HTML 4.01!