Steinberger Ralf, Andreas Eisele, Szymon Klocek, Spyridon Pilos, Patrick Schlüter<avtor>
(2012<datum>).
DGT-TM: A freely Available Translation Memory in 22 Languages.<naslov>
Proceedings of the 8th international conference on Language Resources and Evaluation (LREC'2012),
Istanbul,
21-27 May 2012.
Za namene tega korpusa so bili iz baze
DGT-TM izločeni slovenski, angleški, nemški, francoski in italijanski deli in besede v njih označene z lemo
in oblikoskladenjsko oznako.
Besedilo je bilo avtomatsko tokenizirano,
besede pa označena z oblikoskladenjsko oznako in lemo. Za
označevanje slovenščine je bil uporabljen program ToTrTaLe,
za ostale jezika pa TreeTagger. Vsaka beseda ima dve oblikoskladenjski oznaki.
Za slovenščino poda atribut @ctag reducirano angleško
oznako po specifikacijah
SPOOK tag, atribut @ana pa celotno angleško oznako
po specifikacijah
JOS. Za ostale jezike vsebuje @ctag izvorno TreeTagger
oznako, medtem ko vsebuje @ana preslikavo na
ekvivalentno oznako iz specifikacij
SPOOK.