COP project 106 MULTEXT-East ``1984'', Hungarian
Contributors: Csaba Oravecz and Laszló Tihanyi (RIL)
Since there was no digital source serving as the basis of the CES1 encoded version of the Hungarian translation of ``1984'', the book had to be typed in. Copyright issues regarding the free use of the translation for academic and research purposes have been satisfactorily settled.
The Hungarian version contains 81167 words, as indicated in the header of the encoded corpus.
The Hungarian corpus of ``1984'' is composed of three <div type=part> and of one <div type=appendix> . Each part is further subdivided into a number of <div type=chapter> . In the Hungarian version, each <div type=part> is followed by a <head> , rendering the number of the part as it is indicated in literal written form in the printed edition.
The <div> elements have the n attribute, giving the successive number of the appropriate level of the <div> , and the id attribute, whose value has the prefix ORWhu , and the chapter and section numbers separated by periods, e.g. <div type=chapter n=2 id=ORWhu.1.2> .
The text is segmented into paragraphs, with the <quote> , <note> , <poem> and <title> elements marked-up at the paragraph level.
Sub-paragraph tagging is represented by <hi> , <q> and <name> . Names have been tagged only in the first chapter by hand, Due to this hand tagging, all the tagged names are correct, but apart from this first chapter, the text contains untagged names. The name tags, however, do contain the type attribute.
Rendering information has been in most cases included with the appropriated tags with the possible values: asterisk , italics , caps , centered caps , PRE mdash POST mdash , PRE mdash, PRE ldquor POST rdquor .
The following is an example from the Hungarian ``1984'' corpus:
<p> Az <name type=org>Igazság-minisztérium</name> — <name type=org lang=ns>Minigaz</name>, ahogy újbeszélül<ptr target=N1 rend=asterisk> nevezték — ijesztően elütött a környékén lévő többi épülettől. Ragyogó fehér betonból készült, óriási, piramis alakú építmény volt, s háromszáz méter magasan nyúlt fel a levegőbe. Onnan, ahol <name type=person>Winston</name> állt, éppen el lehetett olvasni a <name type=org>Párt</name> három jelmondatát, amely díszes betűkből volt kirakva az épület fehér homlokzatára: <q rend="centered caps" type=slogan> A HÁBORÚ: BÉKE </q> <q rend="centered caps" type=slogan> A SZABADSÁG: SZOLGASÁG </q> <q rend="centered caps" type=slogan> A TUDATLANSÁG: ERŐ </q> </p> <note place=foot id=N1>Az újbeszél <name type=place>Óceánia</name> hivatalos nyelve. Nyelvtani rendszerének és szókincsének magyarázatát lásd a függelékben.</note>
The original was typed into Word for Windows 6.0, and then a number of conversion programs were made and used to convert it into ASCII. Rendition information was automatically extracted from the Word version and converted into mark-up, and then checked and supplemented by hand. Here follows an example from the DOS-text version:
<p> Az Igazság-minisztérium - Minigaz, ahogy újbeszélül* nevezték - ijesztôen elütött a környékén lévô többi épület- * Az újbeszél ňceánia hivatalos nyelve. Nyelvtani rendszerének és szókincsének magyarázatát lásd a Függelékben. <pb=9> tôl. Ragyogó fehér betonból készült, óriási, piramis alakú építmény volt, s háromszáz méter magasan nyúlt fel a levegôbe. Onnan, ahol Winston állt, éppen el lehetett olvasni a Párt három jelmondatát, amely díszes betűkbôl volt kirakva az épület fehér homlokzatára: </p> <p> A HĹBORů: BÉKE </p> <p> A SZABADSĹG: SZOLGASĹG </p> <p> A TUDATLANSĹG: ERş </p>
The Word doc-file, converted into DOS text format, was the basis of the encoding. It was checked with the printed edition and corrections and additional markup were supplied by hand. A number of errors in the electronic version as well as in the printed edition have been detected. Corrections related to the latter are indicated in the header of ``1984''.