Dan Tufis & al * Corpora and Corpus-Based Morpho-Lexical Processing




Once the input text is tokenized (Figure 2), a dictionary look-up procedure can be invoked to assign each lexical token all its possible morpho-lexical interpretations (Figure 3). This procedure was incorporated into a special XEMACS mode (mtems-mode, due to T. Erjavec from the Josef Stefan Institute in Ljubliana, modified and extended by ªt. Bruda from RACAI in Bucharest) in order to take advantage of the editing facilities of XEMACS. By knowing the significance of the morpho-syntactic codes we used, the mtems-mode allows a user to manually disambiguate the segmenter's output (see Figure 4).

Într-o zi seninã ºi friguroasã de aprilie, pe când ceasurile bãteau ora treisprezece, Winston Smith, cu bãrbia înfundatã în piept pentru a scãpa de vântul care-l lua pe sus, se strecurã iute prin uºile de sticlã ....
Fig. 1. - Plain text.

Într- Într-Spsay Într-Spsay
o oQf Pp3fsa--------w Mcfsrl Tifsr Va--3s oTifsr
zi ziVmip1s Ncfsrn Vmm-2s ziNcfsrn
seninã seninãAfpfsrn seninãAfpfsrn
ºi ºiCcssp Px3--d--------w Rp ºiCcssp
friguroasã friguroasãAfpfsrn friguroasãAfpfsrn
de deCsssp Spsa deSpsa
aprilie aprilieNcms-n aprilieNcms-n
, , ,
pe peSpsa peSpsa
când cândRw cândRw
ceasurile ceasurileNcfpry ceasurileNcfpry
bãteau bãteauVmii3p bãteauVmii3p
ora oraNcfsry oraNcfsry
treisprezece treisprezeceMc-p-l treisprezeceMc-p-l
, , ,
Winston WinstonNpms-n WinstonNpms-n
Smith SmithNp SmithNp
, , ,
cu cuSpsa cuSpsa
bãrbia bãrbiaNcfsry bãrbiaNcfsry
înfundatã înfundatãVmp--sf Afpfsrn înfundatãAfpfsrn
în înSpsa înSpsa
piept pieptNcms-n pieptNcms-n
pentru pentruSpsa pentruSpsa
a aI Qn Spsa Tsfs Va--3s aQn
scãpa scãpaVmnp Vmii3s Vmm-2s scãpaVmnp
de deCsssp Spsa deSpsa
vântul vântulNcmsry vântulNcmsry
care carePw3--r Vmsp3 Ncfp-n Dw3--r---e careDw3--r---e
-l -lPp3msa--y-----w -lPp3msa--y-----w
lua luaVmp--sm Vmnp Vmii3s Vmm-2s luaVmii3s
pe peSpsa peSpsa
sus susNcms-n Rgp susRgp
, , ,
se sePx3--a--------w sePx3--a--------w
strecurã strecurãVmis3s strecurãVmis3s
iute iuteAfpfsrn Afpms-n Rgp Ncfson iuteRgp
prin prinSpsa prinSpsa
uºile uºileNcfpry uºileNcfpry
de deCsssp Spsa deSpsa
sticlã sticlãNcfsrn sticlãNcfsrn
... ... ...
Fig. 2. - Segmented text Fig. 3. - Ambiguously annotated text Fig. 4. - Disambiguated text



40

Previous Next