COP project 106 MULTEXT-East ``1984'', Romanian
Contributors: Dan Tufis and Stefan Bruda (RACAI), Lidia Diaconu, Calin Diaconu (ICI)
The Romanian version of ``1984'' was typed in after the printed book published by the ``Univers'' Publishing house, with a translation due to Mihnea Gafitta. The copyright problems are still questionable. The ``Univers'' Publishing house had a limited copyright which expired at the beginning of this year. The type-in process introduced a lot of errors. The proofreading, done by a different person than the typist elliminated much of the errors. During the dictionary construction several other errors showed up and were corrected.
As computed by the Unix program wc over the whole CES-1 document the Romanian version of ``1984'' has 104580 words.
The Romanian ``1984'' corpus body consists of three <div type=part> and of one <div type=appendix> . Each part is further subdivided into a number of <div type=chapter> . In the Romanian version, each <div> is followed by a <head> , giving the part or chapter number.
The <div> elements have the n attribute, giving the successive number of the appropriate level of the <div> , and the id attribute, whose value has the prefix ro1984 and the chapter and section numbers separated by periods, e.g. <div type=part n=1 id=ro1984.1.1> .
The text is segmented into paragraphs, with the <head> , <quote> , <note> , and <poem> elements marked-up at the paragraph level.
Sub-paragraph tagging consists of <hi> , <q> , <foreign> .
Rendering information, given as the CES conformant two-letter value of the rend attribute has been in most cases included with the appropriated tags, except for the default preceding mdash of the <q> tag.
In our markup, the mdash had beeen replaced by simple quotes i.e. rend="PRE lsquo POST rsquo" (preceded by left side quote, followed by right side quote).
The tag usage for the ``1984'' corpus is shown below.
<tagsdecl> <tagusage gi=body occurs=1></tagusage> <tagusage gi=div occurs=28></tagusage> <tagusage gi=head occurs=28></tagusage> <tagusage gi=hi occurs=410></tagusage> <tagusage gi=l occurs=30></tagusage> <tagusage gi=note occurs=3></tagusage> <tagusage gi=p occurs=1278></tagusage> <tagusage gi=poem occurs=6></tagusage> <tagusage gi=q occurs=996></tagusage> <tagusage gi=quote occurs=186></tagusage> <tagusage gi=text occurs=1></tagusage> <tagusage gi=foreign occurs=421></tagusage> </tagsdecl>
The following is an example from the Romanian ``1984'' corpus:
<text> <body lang="ro" id="ro1984"> <div type=part n=1 id="ro1984.1"> <head> <hi rend="CA">PARTEA ÎNTÂI</hi></head> <div type=chapter n=1 id="ro1984.1.1"> <head> 1 </head> <p>Într-o zi senină şi friguroasă de aprilie , pe când ceasurile băteau ora treisprezece , Winston Smith , cu bărbia înfundată în piept pentru a scăpa de vântul care-l lua pe sus , se strecură iute prin uşile de sticlă ale Blocului Victoria , deşi nu destul de repede pentru a împiedica un vârtej de praf şi nisip să pătrundă o dată cu el. Holul blocului mirosea a varză călită şi a preşuri vechi. La unul din capete se afla un afiş mult prea mare pentru interior , care înfăţişa figura enormă , lată de peste un metru , a unui bărbat în jur de patruzeci şi cinci de ani , cu o mustaţă neagră şi stufoasă , şi cu trăsături frumoase dar dure. Winston se îndreptă către scări. Nu avea nici un rost să încerce la lift. Chiar şi în vremurile cele mai bune funcţiona doar din când în când , iar în prezent curentul electric era tăiat în timpul zilei , ca parte integrantă a campaniei de economisire organizată în pregătirea Săptămânii Urii. Apartamentul lui se găsea la etajul şapte , aşa încât Winston , care avea treizeci şi nouă de ani şi o ulceraţie varicoasă deasupra gleznei drepte , o luă pe jos , încet , oprindu-se de mai multe ori să se odihnească. Pe fiecare palier , aşezată faţă în faţă cu uşa liftului , figura cea enormă îl privea fix de perete. Era una din acele poze în aşa fel realizate , încât ochii te urmăresc din orice unghi. Textul de dedesubt suna: </p> <quote rend="CA" type="slogan">FRATELE CEL MARE ESTE CU OCHII PE TINE </quote> . . <\div> . . . <\div> <\body> <\text>
There was no original electronic version. The book was typed-in. Apparently, either the Romanian Publisher or the translator took some liberty in defining paragraphs and this is why the paragraphs in the Romanian version do not match the paragraphs in the English version (ECI edition). However, this is does not happen many times.
The whole Romanian ``1984'' CES1 corpus was cross-checked with the printed edition, and the printed edition was used to insert additional (e.g. <hi> ) markup. In marking the paragraphs we followed the Romanian published version.