(in English)

SVEZ IJS

Slovensko-angleški korpus SVEZ-IJS ACQUIS

nl.ijs.si SVEZ-IJS kolofon TEI Zapis korpusa Prenos Konkordance Reference Povezave

Korpus SVEZ-IJS ACQUIS, V1.0 vsebuje približno 10 mil. besed, ki tvorijo angleško-slovenski pomnilnik prevodov SVEZ ACQUIS. Ta pomnilnik prevodov je bil izdelan med procesom prevajanja zakonodaje EU (ACQUIS) v slovenski jezik, v okviru prevajalske skupine SVEZ (Služba vlade RS za evropske zadeve). Vladne strani tudi ponujajo opis in iskanje po spremljevalnem korpusu EVROKORPUS, ki je ravno tako izpeljan iz pomnilnika prevodov SVEZ ACQUIS.

Na Odseku za tehnologije znanje, Instituta "Jožef Stefan" smo predelali pomnilnik prevodov v jezikoslovno označen in standardno zapisan korpus SVEZ-IJS ACQUIS. Proces izdelave je bil naslednji:

  1. normalizacija (odstrani oznake za formatiranje)
  2. tokenizacija (razdeli besedilo na besede, ločila in povedi)
  3. oblikoslovno označevanje (označi vsako besedo z njeno oblikoslovno oznako MULTEXT-East)
  4. lematizacija (določi besedam njihovo osnovno obliko)
  5. kodiranje (zapis datotek po standardu TEI P4)
  6. dodajanje v bazo konkordančnika (korpus je dostopen za iskanje preko mrežnega konkordančnika)
  7. priprava za prenos (korpus je dostopen za prenos, ko pošljete sporazum o uporabi)
Zapis, oznake in dostopnost korpusa so izbrane, da bi pripomogle k razvoju jezikovnih tehnologij in raziskavam na področju luščenja dvo-jezične terminologije, oboje predvsem za slovenski jezik.

Priprava korpusa je potekala popolnoma avtomatsko, zato jezikoslovne oznake vsebujejo prenekatero napako. Medtem ko poročila o posameznih napakah v 10 milijonskem korpusu niso preveč koristna, nas pa zelo zanima slišati o sistematskih napakah, ki jih opazite v oznakah ali v zapisu korpusa.

Zapis

Korpus SVEZ-IJS ACQUIS je zapisan v XML, v skladu s Priporočili Iniciative za zapis besedil TEI P4. Glava TEI vsebuje bolj podrobne podatke o korpusu - dostopna je tudi v HTML, kjer je opis vsakega elementa povezan s svojo razlago v TEI P4.

Telo korpusa je zaporedje poravnanih besedilnih segmentov, t.i. prevodnih enot. Vsaka vsebuje meta-informacijo o prevodni enoti in dva segmenta, enega v angleškem in enega v slovenskem jeziku. Besede v teh segmentih so potem še jezikoslovno označene. Spodaj primer iz prevodne enote iz para segmentov:

Zapis v korpusu:
<ab n="163">začetek prevodne enote št. 163
 <interpGrp resp="svez" type="seg">meta-podatki o prevodni enoti
  <interp type="status" value="legal" corresp="status.legal"/>status prevoda: dovoljene vrednosti so podane v glavi
  <interp type="acquis" value="3" corresp="acquis.3"/>področje ACQUIS: dovoljene vrednosti so podane v glavi
  <interp type="celex" value="32000L0042"/>identifikacija dokumenta po shemi CELEX (lahko več kot en)
 </interpGrp>konec meta-informatcije
 <seg lang="en">začetek angleškega segmenta
  <w ana="Sp" ctag="IN" lemma="for">For</w>besede so označene s <w>
  <w ana="Ncnp" ctag="NNS" lemma="egg">eggs</w>vrednost lemma je osnovna oblika besede
...
  <w ana="Sp" ctag="IN">in</w>lemma je prisotna samo kadar se razlikuje od besede
  <w ana="Vmpp" ctag="VBG">mg/kg</w>vrednost ana je oblikoslovna oznaka MULTEXT-East: dovoljene vrednosti so podane v glavi (vidi tudi napako v oznaki!)
  <w ana="Afp" ctag="JJ">fat</w>vrednost ctag je oznaka iz nabora za Penn Treebank - samo za angleščino
  <c>.</c>ločila so označena s <c>
 </seg>konec angleškega segmenta
 <seg lang="sl">začetek slovenskega segmenta
  <w ana="Spsa" lemma="za">Za</w>lemma je prisotna četudi se razlikuje od besede samo v veliki začetnici
  <w ana="Ncnpa" lemma="jajce">jajca</w>
...
 </seg>konec slovenskega segmenta
</ab>konec prevodne enota

Konkordance

Korpus je prosto dostopen za iskanje skozi IJS mrežni konkordančnik kjer je potrebno izbrati za korpus SVEZ-IJS-SL ali SVEZ-IJS-EN. Po korpusi pa seveda lahko iščete tudi preko iskalnika dostopnega na strani EVROKORPUS-a.

The Konkordančnik na IJS uporablja IMS Corpus Query Processor. CQP omogoča kompleksne poizvedbe, saj vsebuje ne samo besede, pač pa tudi atribute lemma and msd. Bolj podroben opis poizvedovalnega jezika najdemo v concordance query help, v ilustracijo pa podamo spodaj nekaj primerov

URL-ji zgornjih primerov neposredno prožijo konkordančnik, in lahko služijo kako avtomatizirati iskanje po korpusu.

Prenos

Korpus je tudi dostopen za prenos, vendar samo v raziskovalne namene, in pod pogojem, da so avtorji korpusa, (Služba vlade RS za evropske zadeve in Odsek za tehnologije znanja Instituta "Jožef Stefan") navedeni v vsakem delu, ki bo uporabilo ta korpus. Za dostop do korpusa prosim izpolnite in pošljite mrežni sporazum o uporabi korpusa. Po elektronski pošti boste dobili uporabniško ime in geslo, s katerima lahko korpus shranite.

Ker sporazume obdelujemo ročno, dogovora mogoče ne boste dobili takoj. Če pa se slušajno zgodi, da odgovora ne prejmete več kot teden, nas prosim obvestite o problemu na tomaz.erjavec @ ijs.si.

Bibliografija

Korpus SVEZ-IJS je opisan v

Povezave

Zahvala

Izdelava korpusa je bila delno financirana v okviru projekta CRP V2-0894 "Izdelava virov in sistema za simultano prevajanje slovenščina-angleščina", in s strani projektov EU 6FWP IST SEKT in ALVIS.

Pravilen HTML 4.01!

Stran zadnjič obnovljena 2006-05-19, et