Priporočila za oblikoskladenjsko označevanje SPOOK

1. Ozadje

Gor: Specifikacije SPOOK Naslednji: 2. Skupni del

Priporočila za oblikoskladenjsko označevanje SPOOK v usklajenem naboru oznak zajamejo štiri zahodnoevropske jezike (angleščina, francoščina, nemščina, italijanščina in slovenščina), ki jih vsebuje slovenski vzporedni oblikoskladenjsko označeni korpus SPOOK. Priporočila so osnovana na priporočilih MULTEXT-East, ki sicer pokrivajo 16 jezikov, pa od naštetih samo slovenščino. Oznake SPOOK imajo za osnovo nabore oblikoskladenjskih oznak, ki jih uporabljajo jezikovni modeli označevalnika TreeTagger, s katerim so bili označena tujejezična besedila v korpusu SPOOK. Za razliko od ostalih jezikov, je bil slovenski del korpusa označen s s programom ToTrTaLe, ki uporablja oznake iz oblikoskladenjskih specifikacij za slovenski jezik JOS, ki so enake kot specifikacije za slovenski jezik MULTEXT-East.

V priporočilih so verjetno najbolj uporabni seznami oblikoskladenjskih oznak, ki so opremljene tudi s preslikavami iz oznak TreeTaggerja in primeri. Na voljo so za naslednje jezike:
Gor: Specifikacije SPOOK Naslednji: 2. Skupni del
Tomaž Erjavec Odsek za tehnologije znanjaInstitut "Jožef Stefan". Datum: 2012-05-22
This work is licensed under the Creative Commons licence Attribution-ShareAlike 3.0.