Contributors: Dan Tufis and Stefan Bruda (RACAI), Lidia Diaconu, Calin Diaconu (ICI)
The contents of the Romanian MULTEXT-East newspaper corpus are 128 articles from the daily newspaper ``România Libera'', Bucharest, from 12 Apr. 1995.
The digital source used as the basis of encoding was provided, unofficialy by one of the collaborators of ``România Libera'' and consisted of data WORD files made by the newspaper's editor.
The Romanian site didn't obtained a license agreement, but a verbal approval for the use of these articles for the purposes of the MULTEXT-East project.
As computed by the Unix program wc over the whole CES-1 document, the Romanian newspaper corpus has 26448 words.
The corpus body consists of 128 <div type=article>, each of which contains one file from the original digital data, in most cases constituting one article, and sometimes a series of articles. The articles are grouped by <div type=page>.
Each <div type=article> begins with one or more <head>. Some articles end with <byline>.
The text is segmented into paragraphs, with no other paragraph level tagging, except the tags discussed above and <sp> for interviews. Sub-paragraph tagging consists of <hi> and <q>.
The tag usage for the newspaper corpus is shown below.
<tagsdecl>
<tagusage gi=body occurs=1></tagusage>
<tagusage gi=div occurs=138></tagusage>
<tagusage gi=head occurs=179></tagusage>
<tagusage gi=hi occurs=681></tagusage>
<tagusage gi=p occurs=573></tagusage>
<tagusage gi=q occurs=76></tagusage>
<tagusage gi=text occurs=1></tagusage>
<tagusage gi=byline occurs=77></tagusage>
<tagusage gi=sp occurs=26></tagusage>
</tagsdecl>
Example from the corpus:
<div type=page n=1 id="roRL12Apr.1">
<div type=article>
<head>
DUS-ÎNTORS</head>
<head>
Raport pentru stomacuri</head>
<p>
Proverbele sunt un tezaur de înţelepciune. Nu toate
însă. Unele
proverbe şi-au pierdut înţelesul, dar continuă
să beneficieze
de prestigiul tradiţional al zicerilor populare. Un proverb foarte
circulat spune că <q rend=dblq>Prostul nu doarme de grija
altuia</q>. Cândva, îl denunţa pe
băgăreţ, pe omul care nu-şi vede de treaba lui.
Cel puţin, aşa cred, fiindcă numai un prost poate
să creadă că grijile - adică temerile, fricile,
nefericirile - altora nu ne privesc. Că singura soluţie,
când alţii sunt plini de griji, e să dormi bine.
Proverbul acesta funcţionează negativ, ca un tezaur de
suficienţă. Foarte multe proverbe sunt reflexul unor timpuri
dominate de spaimă şi resemnare. Şi,
bineînţeles, de prostie. De grija altora, cei care nu dorm
sunt întotdeauna deştepţii. Puţini, mulţi
câţi avem. Zicala citată conţine punctul de
vedere al omului mărginit. E izbânda vremelnică a <hi
rend=dblq>maselor</hi>. O formă de cinism mitocănesc devenit
folclor. În tramvaiul 34, un nătărău
fără griji cugeta la intelectualitate. <q
rend=dblq>Aşa cum mă vedeţi</q> - zicea el - <q
rend=dblq>nu mă dau pe zece profesori</q>. A devenit un obicei ca
dascălul să fie unitatea de măsură a
importanţei altor profesiuni. Suntem, bănuiesc, singura
ţară din lume care scoate anecdote pe seama
învăţătorilor. Dacă asta se mai
întâmplă şi-n alte locuri, situaţia e
gravă. E neîndoielnic că glumele proaste despre
intelighenţie nu le nasc decât cei care, ca şi
gânditorul public din tramvai, se socotesc mai deştepţi
ca oamenii cu studii. Cum s-a ajuns oare aici? Ceva s-a schimbat în
România. Un lucru e ca înainte: ordinea socială.
Intelectualitatea vine tot după clasa muncitoare şi
ţărănimea muncitoare. Nimeni, de la putere, nu a avut
curajul să
pună treburile la punct. Raporturile puterii cu intelectualitatea
poartă pecetea
unei ostilităţi mocnite. Un nenorocit de parlamentar
majoritar spunea, referitor
la exodul creierelor româneşti: <q rend=dblq> Cine vrea
să plece, e liber
să plece. Nu ţinem pe nimeni cu sila!</q>. Ca şi
mărginitul din
tramvai, suficientul din parlament se simţea dezlegat să se
exprime aşa
deoarece, în cinci ani, nici preşedintele, nici
prim-miniştrii nu au referit
niciodată clar şi programatic la problemele
intelectualităţii.
O guvernare de stomacuri pentru stomacuri, de stomacuri cu somnul gros
şi adânc.</p>
<byline>
Tudor Octavian</byline>
</div>
.
.
.
The digital source, used as the basis of encoding, consisted of WORD files, in general, one file per article, made by the newspaper's editor.
Due to the lack of the printed versions, no hilighting marking has been provided, except for the rend=dblq marking found in the text. Also, the text contained a number of typo errors, which were also in the printed version. We corrected these errors in the newpaper corpus.