kolofon TEI

§opis datoteke
§navedba naslova
§naslov
Angleško-slovenski vzporedni korpus TRANS5
§nosilec raziskave
§ime Tomaž Erjavec
§naslov
Odsek za tehnologije znanja
Institut "Jožef Stefan"
Jamova cesta 39
1000 Ljubljana
§nosilec raziskave
§ime Špela Vintar
§naslov
Oddelek za prevajalstvo
Filozofska fakulteta
Univerza v Ljubljani
Aškerčeva 2
1000 Ljubljana
Slovenija
§navedba izdaje
§izdaja 0.1
§obseg 104 dvojezičnih besedil<termin>, 2.75 milijonov besed<termin>
§navedba objave
§distributer
§naslov
Odsek za tehnologije znanja
Institut "Jožef Stefan"
Jamova cesta 39
1000 Ljubljana
§kraj objave http://nl.ijs.si/trans/
§dostopnost

Korpus je prosto dostopen za iskanje preko spletnega korkordančnika. Za dostop do celotnega korpusa v XML prosim kontaktirajte enega od avtorjev korpusa in pojasnite za kaj bi korpus rabi uporabili.

§datum 2012-11-01
§opis vira
§seznam bibliografskih enot http://nl.ijs.si/elan/http://nl.ijs.si/~spela/trans-index.htmlhttp://langtech.jrc.ec.europa.eu/ECDC-TM.html
§bibliografska enota
§naslov
Slovensko-angleški vzporedni korpus IJS-ELAN
§izdajatelj IJS
§datum 2003
§bibliografska enota
§naslov
Slovensko-angleški vzporedni korpus TRANS
§izdajatelj IJS
§datum 2005
§bibliografska enota
§naslov
JRC ECDC pomnilnik prevodov: angleško-slovenski par
§izdajatelj JRC
§datum 2012
§opis označevanja
§opis projekta

Namen korpusa je zagotoviti čim večji ročno poravnan angleško-slovenski vzporedni korpus, ki je jezikoslovno označen. Korpus lahko služi kot vir prevodov besed in fraz ali kot učna oz. testna množica za razvoj večjezičnih jezikovnih tehnologij.

§uredniška načela
§segmentacija

Besedila so ročno segmentirana na (poravnane) prevodne enote, znotraj njih pa avtomatsko na stavke, besede, ločila in presledke.

§interpretacija

Besedilo je bilo avtomatsko tokenizirano, besede pa označena z oblikoskladenjsko oznako in lemo. Za označevanje slovenščine je bil upoabljen program ToTrTaLe, za angleščino pa TreeTagger z modelom naučenim na Penn Treebank. Vsaka beseda ima dve oblikoskladenjski oznaki. Za slovenščino poda atrubut @ctag reducirano angleško oznako po specifikacijah SPOOK tag, atribut @ana pa celotno angleško oznako pospecifikacijah JOS. Za angleščino vsebuje @ctag izvorno TreeTagger (Penn) oznako, medtem ko vsebuje @ana preslikavo na ekvivalentno oznako iz specifikacij SPOOK.

§opis značilnosti besedila
§uporaba jezikov
§jezik
identifikator = sl
§termin
slovenščina
§jezik
identifikator = en
§termin
angleščina
§opis sprememb
§sprememba Tomaž Erjavec<ime>: First version of corpus, corpus header.
§datum 2012-11-01