| nl.ijs.si | SVEZ-IJS kolofon TEI | Zapis korpusa | Prenos | Konkordance | Reference | Povezave |
Korpus SVEZ-IJS ACQUIS, V1.0 vsebuje približno 10 mil. besed, ki tvorijo angleško-slovenski pomnilnik prevodov SVEZ ACQUIS. Ta pomnilnik prevodov je bil izdelan med procesom prevajanja zakonodaje EU (ACQUIS) v slovenski jezik, v okviru prevajalske skupine SVEZ (Služba vlade RS za evropske zadeve). Vladne strani tudi ponujajo opis in iskanje po spremljevalnem korpusu EVROKORPUS, ki je ravno tako izpeljan iz pomnilnika prevodov SVEZ ACQUIS.
Na Odseku za tehnologije znanje, Instituta "Jožef Stefan" smo predelali pomnilnik prevodov v jezikoslovno označen in standardno zapisan korpus SVEZ-IJS ACQUIS. Proces izdelave je bil naslednji:
Priprava korpusa je potekala popolnoma avtomatsko, zato jezikoslovne oznake vsebujejo prenekatero napako. Medtem ko poročila o posameznih napakah v 10 milijonskem korpusu niso preveč koristna, nas pa zelo zanima slišati o sistematskih napakah, ki jih opazite v oznakah ali v zapisu korpusa.
Korpus SVEZ-IJS ACQUIS je zapisan v XML, v skladu s Priporočili Iniciative za zapis besedil TEI P4. Glava TEI vsebuje bolj podrobne podatke o korpusu - dostopna je tudi v HTML, kjer je opis vsakega elementa povezan s svojo razlago v TEI P4.
Telo korpusa je zaporedje poravnanih besedilnih segmentov, t.i. prevodnih enot. Vsaka vsebuje meta-informacijo o prevodni enoti in dva segmenta, enega v angleškem in enega v slovenskem jeziku. Besede v teh segmentih so potem še jezikoslovno označene. Spodaj primer iz prevodne enote iz para segmentov:
<ab n="163"> | začetek prevodne enote št. 163 |
<interpGrp resp="svez" type="seg"> | meta-podatki o prevodni enoti |
<interp type="status" value="legal" corresp="status.legal"/> | status prevoda: dovoljene vrednosti so podane v glavi |
<interp type="acquis" value="3" corresp="acquis.3"/> | področje ACQUIS: dovoljene vrednosti so podane v glavi |
<interp type="celex" value="32000L0042"/> | identifikacija dokumenta po shemi CELEX (lahko več kot en) |
</interpGrp> | konec meta-informatcije |
<seg lang="en"> | začetek angleškega segmenta |
<w ana="Sp" ctag="IN" lemma="for">For</w> | besede so označene s <w> |
<w ana="Ncnp" ctag="NNS" lemma="egg">eggs</w> | vrednost lemma je osnovna oblika besede |
... | |
<w ana="Sp" ctag="IN">in</w> | lemma je prisotna samo kadar se razlikuje od besede |
<w ana="Vmpp" ctag="VBG">mg/kg</w> | vrednost ana je
oblikoslovna oznaka MULTEXT-East:
dovoljene vrednosti so podane v glavi (vidi tudi napako v oznaki!) |
<w ana="Afp" ctag="JJ">fat</w> | vrednost ctag je oznaka iz nabora za Penn Treebank - samo za angleščino |
<c>.</c> | ločila so označena s <c> |
</seg> | konec angleškega segmenta |
<seg lang="sl"> | začetek slovenskega segmenta |
<w ana="Spsa" lemma="za">Za</w> | lemma je prisotna četudi se razlikuje od besede samo v veliki začetnici |
<w ana="Ncnpa" lemma="jajce">jajca</w> | |
... | |
</seg> | konec slovenskega segmenta |
</ab> | konec prevodne enota |
Korpus je prosto dostopen za iskanje skozi IJS mrežni konkordančnik kjer je potrebno izbrati za korpus SVEZ-IJS-SL ali SVEZ-IJS-EN. Po korpusi pa seveda lahko iščete tudi preko iskalnika dostopnega na strani EVROKORPUS-a.
The Konkordančnik na IJS uporablja IMS Corpus Query Processor. CQP omogoča kompleksne poizvedbe, saj vsebuje ne samo besede, pač pa tudi atribute lemma and msd. Bolj podroben opis poizvedovalnega jezika najdemo v concordance query help, v ilustracijo pa podamo spodaj nekaj primerov
Korpus je tudi dostopen za prenos, vendar samo v raziskovalne namene, in pod pogojem, da so avtorji korpusa, (Služba vlade RS za evropske zadeve in Odsek za tehnologije znanja Instituta "Jožef Stefan") navedeni v vsakem delu, ki bo uporabilo ta korpus. Za dostop do korpusa prosim izpolnite in pošljite mrežni sporazum o uporabi korpusa. Po elektronski pošti boste dobili uporabniško ime in geslo, s katerima lahko korpus shranite.
Ker sporazume obdelujemo ročno, dogovora mogoče ne boste dobili takoj. Če pa se slušajno zgodi, da odgovora ne prejmete več kot teden, nas prosim obvestite o problemu na tomaz.erjavec @ ijs.si.
Korpus SVEZ-IJS je opisan v