Contributors: Csaba Oravecz and Laszló Tihanyi (RIL)
Since there was no digital source serving as the basis of the CES1 encoded version of the Hungarian translation of ``1984'', the book had to be typed in. Copyright issues regarding the free use of the translation for academic and research purposes have been satisfactorily settled.
The Hungarian version contains 81167 words, as indicated in the header of the encoded corpus.
The Hungarian corpus of ``1984'' is composed of three <div type=part> and of one <div type=appendix>. Each part is further subdivided into a number of <div type=chapter>. In the Hungarian version, each <div type=part> is followed by a <head>, rendering the number of the part as it is indicated in literal written form in the printed edition.
The <div> elements have the n attribute, giving the successive number of the appropriate level of the <div>, and the id attribute, the value of which is prefixed with Ohu, and contains a number scheme indicating the hierarchical position of the element in the sgml tree, e.g. <div id="Ohu.1.2" type=chapter n=1>. The id attribute is also specified on each element down to the sentence level.
The text is segmented into paragraphs, with the <quote>, <note>, <poem> and <list> elements marked up at the paragraph level.
Sub-paragraph tagging is represented by <hi>, <q> and <name>. Frequently occurring names of people, places, organizations, products, languages, and events, are marked throughout the text.
Rendering information is specified in the header of the corpus file. If not explicitly indicated therein, it is included with the appropriate tag in the rend attribute. Possible values are: asterisk, IT for italics, CA for capitals, CE CA for centered caps, PRE mdash, PRE ldquor POST rdquor.
The following is an example from the Hungarian 1984 corpus:
<p id="Ohu.1.2.7"> <s id="Ohu.1.2.7.1">Az <name type=org>Igazság-minisztérium</name> — <name type=org lang=ns-hu>Minigaz</name>, ahogy újbeszélül<ptr id="Ohu.1.2.7.1.3" target="Ohu.1.2.8" rend=asterisk> nevezték — ijesztően elütött a környékén lévő többi épülettől.</s> <sid="Ohu.1.2.7.2">Ragyogó fehér betonból készült, óriási, piramis alakú építmény volt, s háromszáz méter magasan nyúlt fel a levegőbe.</s> <s id="Ohu.1.2.7.3">Onnan, ahol <name type=person>Winston</name> állt, éppen el lehetett olvasni a <name type=org>Párt</name> három jelmondatát, amely díszes betűkből volt kirakva az épület fehér homlokzatára: <q id="Ohu.1.2.7.3.3" rend="CE CA" type=slogan> A háború: béke </q> <q id="Ohu.1.2.7.3.4" rend="CE CA" type=slogan> A szabadság: szolgaság </q> <q id="Ohu.1.2.7.3.5" rend="CE CA" type=slogan> A tudatlanság: erő </q></s> </p> <note id="Ohu.1.2.8" place=foot>Az újbeszél <name type=place>Óceánia</name> hivatalos nyelve. Nyelvtani rendszerének és szókincsének magyarázatát lásd a függelékben.</note>
The original was typed into Word for Windows 6.0, and then a number of
conversion programs were made and used to convert it into
ASCII. Rendition information was automatically extracted from the Word
version and converted into mark-up, and then checked and supplemented
by hand. Here follows an example from the DOS-text version:
<p>
Az Igazság-minisztérium - Minigaz, ahogy újbeszélül*
nevezték - ijesztôen elütött a környékén lévô többi épület-
* Az újbeszél ňceánia hivatalos nyelve. Nyelvtani
rendszerének és szókincsének magyarázatát lásd a
Függelékben.
<pb=9>
tôl. Ragyogó fehér betonból készült, óriási, piramis alakú
építmény volt, s háromszáz méter magasan nyúlt fel a
levegôbe. Onnan, ahol Winston állt, éppen el lehetett
olvasni a Párt három jelmondatát, amely díszes betűkbôl volt
kirakva az épület fehér homlokzatára:
</p>
<p>
A HĹBORů: BÉKE
</p>
<p>
A SZABADSĹG: SZOLGASĹG
</p>
<p>
A TUDATLANSĹG: ERş
</p>
The Word doc-file, converted into DOS text format, was the basis of the encoding. It was checked with the printed edition and corrections and additional markup were supplied by hand. A number of errors in the electronic version as well as in the printed edition have been detected. Corrections related to the latter are indicated in the header of ``1984''.