kolofon TEI

§opis datoteke
§navedba naslova
§naslov
Korpus LeMonde
§nosilec raziskave
§ime Špela Vintar (FF)
§financer
ARRS, projekt J6-2009-0581 "Slovensko prevodoslovje - viri in raziskave"
§navedba odgovornosti
§ime Adriana Mezeg
§odgovornost
Zagotovitev digitalnih izvrinikov, korekcije OCR, poravnava.
§navedba odgovornosti
§ime
identifikator = ET
Tomaž Erjavec (IJS)
§odgovornost
Jezikoslovno označevanje, zapis TEI.
§navedba izdaje
§izdaja V1.0
§obseg 300 dvojezičnih besedil<termin>, 1144 tisoč besed<termin>
§navedba objave
§datum 2012-05-15
§kraj objave nl.ijs.si/spook lojze.lugos.si/spook
§dostopnost

Korpus je dosopen preko konkordančnikov na nl.ijs.si.

§opis vira
§bibliografska enota
§naslov
Časopis Le Monde
§opis označevanja
§opis projekta

Projekt SPOOK: “Slovensko prevodoslovje: viri in raziskave”.

§uredniška načela
§normalizacija

Napake v OCR besedila popravljene.

§segmentacija

Besedila so ročno segmentirana na (poravnane) prevodne enote, znotraj njih pa avtomatsko na stavke, besede, ločila in presledke.

§interpretacija

Besedilo je bilo avtomatsko tokenizirano, besede pa označena z oblikoskladenjsko oznako in lemo. Za označevanje slovenščine je bil upoabljen program ToTrTaLe, za angleščino pa TreeTagger z modelom naučenim na Penn Treebank. Vsaka beseda ima dve oblikoskladenjski oznaki. Za slovenščino poda atrubut @ctag reducirano angleško oznako po specifikacijah SPOOK tag, atribut @ana pa celotno angleško oznako pospecifikacijah JOS. Za angleščino vsebuje @ctag izvorno TreeTagger (Penn) oznako, medtem ko vsebuje @ana preslikavo na ekvivalentno oznako iz specifikacij SPOOK.

§opis značilnosti besedila
§klasifikacija besedila
§ključne besede
shema = local
§termin
neumetniško
§uporaba jezikov
§jezik
identifikator = sl
§termin
slovenščina
§jezik
identifikator = fr
§termin
francoščina
§opis sprememb
§sprememba Tomaž Erjavec<ime>: Conversion to TEI P5.
§datum 2012-05-15
§sprememba Adriana Mezeg<ime>: OCR correction and text alignment.
§datum 2009-12-01