kolofon TEI

§opis datoteke
§navedba naslova
§naslov
JRC DGT pomnilnik prevodov: sl,en,de,fr,it
§navedba odgovornosti
§ime Tomaž Erjavec, IJS
§odgovornost
Pretvorba v TEI, jezikoslovno označevanje
§navedba izdaje
§izdaja V0.4
§obseg 165 milijonov besed<termin>
§navedba objave
§dostopnost

The corpus is available under the same conditions as the source DGT-TM translation memory.

§opis vira http://langtech.jrc.ec.europa.eu/
§bibliografska enota
§naslov JRC DGT-TM: Translation Memory in 22 languages
§avtor Directorate-General for Translation
§izdajatelj JRC
§datum 2004-2011
§bibliografska enota Steinberger Ralf, Andreas Eisele, Szymon Klocek, Spyridon Pilos, Patrick Schlüter<avtor> (2012<datum>). DGT-TM: A freely Available Translation Memory in 22 Languages.<naslov> Proceedings of the 8th international conference on Language Resources and Evaluation (LREC'2012), Istanbul, 21-27 May 2012.
§opis označevanja
§opis projekta

Za namene tega korpusa so bili iz baze DGT-TM izločeni slovenski, angleški, nemški, francoski in italijanski deli in besede v njih označene z lemo in oblikoskladenjsko oznako.

§uredniška načela
§interpretacija

Besedilo je bilo avtomatsko tokenizirano, besede pa označena z oblikoskladenjsko oznako in lemo. Za označevanje slovenščine je bil uporabljen program ToTrTaLe, za ostale jezika pa TreeTagger. Vsaka beseda ima dve oblikoskladenjski oznaki. Za slovenščino poda atribut @ctag reducirano angleško oznako po specifikacijah SPOOK tag, atribut @ana pa celotno angleško oznako po specifikacijah JOS. Za ostale jezike vsebuje @ctag izvorno TreeTagger oznako, medtem ko vsebuje @ana preslikavo na ekvivalentno oznako iz specifikacij SPOOK.

§opis značilnosti besedila
§klasifikacija besedila
§ključne besede
shema = local
§termin
zakonodaja/pravo
§uporaba jezikov
§jezik
identifikator = sl
§termin
slovenščina
§jezik
identifikator = de
§termin
nemščina
§jezik
identifikator = en
§termin
angleščina
§jezik
identifikator = fr
§termin
francoščina
§jezik
identifikator = it
§termin
italijanščina
§opis sprememb
§sprememba Tomaž Erjavec<ime>: Added texts from 2011 and de,fr,it.
§datum 2013-01-14
§sprememba Tomaž Erjavec<ime>: First version of en+sl corpus, corpus header.
§datum 2012-11-04