Contributors: Dan Tufis and Stefan Bruda (RACAI), Lidia Diaconu, Calin Diaconu (ICI)
The contents of the Romanian MULTEXT-East newspaper corpus are 128 articles from the daily newspaper ``România Libera'', Bucharest, from 12 Apr. 1995.
The digital source used as the basis of encoding was provided, unofficialy by one of the collaborators of ``România Libera'' and consisted of data WORD files made by the newspaper's editor.
The Romanian site didn't obtained a license agreement, but a verbal approval for the use of these articles for the purposes of the MULTEXT-East project.
As computed by the Unix program wc over the whole CES-1 document, the Romanian newspaper corpus has 26448 words.
The corpus body consists of 128 <div type=article> , each of which contains one file from the original digital data, in most cases constituting one article, and sometimes a series of articles. The articles are grouped by <div type=page> .
Each <div type=article> begins with one or more <head> . Some articles end with <byline> .
The text is segmented into paragraphs, with no other paragraph level tagging, except the tags discussed above and <sp> for interviews. Sub-paragraph tagging consists of <hi> and <q> .
The tag usage for the newspaper corpus is shown below.
<tagsdecl> <tagusage gi=body occurs=1></tagusage> <tagusage gi=div occurs=138></tagusage> <tagusage gi=head occurs=179></tagusage> <tagusage gi=hi occurs=681></tagusage> <tagusage gi=p occurs=573></tagusage> <tagusage gi=q occurs=76></tagusage> <tagusage gi=text occurs=1></tagusage> <tagusage gi=byline occurs=77></tagusage> <tagusage gi=sp occurs=26></tagusage> </tagsdecl>
Example from the corpus:
<div type=page n=1 id="roRL12Apr.1"> <div type=article> <head> DUS-ÎNTORS</head> <head> Raport pentru stomacuri</head> <p> Proverbele sunt un tezaur de înţelepciune. Nu toate însă. Unele proverbe şi-au pierdut înţelesul, dar continuă să beneficieze de prestigiul tradiţional al zicerilor populare. Un proverb foarte circulat spune că <q rend=dblq>Prostul nu doarme de grija altuia</q>. Cândva, îl denunţa pe băgăreţ, pe omul care nu-şi vede de treaba lui. Cel puţin, aşa cred, fiindcă numai un prost poate să creadă că grijile - adică temerile, fricile, nefericirile - altora nu ne privesc. Că singura soluţie, când alţii sunt plini de griji, e să dormi bine. Proverbul acesta funcţionează negativ, ca un tezaur de suficienţă. Foarte multe proverbe sunt reflexul unor timpuri dominate de spaimă şi resemnare. Şi, bineînţeles, de prostie. De grija altora, cei care nu dorm sunt întotdeauna deştepţii. Puţini, mulţi câţi avem. Zicala citată conţine punctul de vedere al omului mărginit. E izbânda vremelnică a <hi rend=dblq>maselor</hi>. O formă de cinism mitocănesc devenit folclor. În tramvaiul 34, un nătărău fără griji cugeta la intelectualitate. <q rend=dblq>Aşa cum mă vedeţi</q> - zicea el - <q rend=dblq>nu mă dau pe zece profesori</q>. A devenit un obicei ca dascălul să fie unitatea de măsură a importanţei altor profesiuni. Suntem, bănuiesc, singura ţară din lume care scoate anecdote pe seama învăţătorilor. Dacă asta se mai întâmplă şi-n alte locuri, situaţia e gravă. E neîndoielnic că glumele proaste despre intelighenţie nu le nasc decât cei care, ca şi gânditorul public din tramvai, se socotesc mai deştepţi ca oamenii cu studii. Cum s-a ajuns oare aici? Ceva s-a schimbat în România. Un lucru e ca înainte: ordinea socială. Intelectualitatea vine tot după clasa muncitoare şi ţărănimea muncitoare. Nimeni, de la putere, nu a avut curajul să pună treburile la punct. Raporturile puterii cu intelectualitatea poartă pecetea unei ostilităţi mocnite. Un nenorocit de parlamentar majoritar spunea, referitor la exodul creierelor româneşti: <q rend=dblq> Cine vrea să plece, e liber să plece. Nu ţinem pe nimeni cu sila!</q>. Ca şi mărginitul din tramvai, suficientul din parlament se simţea dezlegat să se exprime aşa deoarece, în cinci ani, nici preşedintele, nici prim-miniştrii nu au referit niciodată clar şi programatic la problemele intelectualităţii. O guvernare de stomacuri pentru stomacuri, de stomacuri cu somnul gros şi adânc.</p> <byline> Tudor Octavian</byline> </div> . . .
The digital source, used as the basis of encoding, consisted of WORD files, in general, one file per article, made by the newspaper's editor.
Due to the lack of the printed versions, no hilighting marking has been provided, except for the rend=dblq marking found in the text. Also, the text contained a number of typo errors, which were also in the printed version. We corrected these errors in the newpaper corpus.