Korpus in oblikoskladenjska priporočila SPOOK
V okviru projekta Slovensko prevodoslovje: viri in raziskave (J6-2009) je bil izdelan večjezični prevodoslovni vzporedno-primerljivi korpus. Besedila so avtomatsko oblikoskladenjsko označena in lematizirana, pri čemer so oblikoskladenjske oznake skladne s Oblikoskladenjskimi priporočili SPOOK.
Korpus SPOOK
Korpus SPOOK vsebuje angleške, francoske, italijanske in nemške izvirne romane, ki so stavčno poravnana s slovenskimi prevodi, poleg tega pa vsebuje še delež slovenskih izvirnih romanov.
Korpus je na voljo registriranim uporabnikom preko spletnega konkordančnika. Zaradi avtorskopravnih omejitev korpus ni prosto dostopen. Za pridobitev uporabniškega imena in gesla se obrnite na dr. Špelo Vintar (spela.vintar at ff.uni-lj.si).
podkorpus SPOOK | jezik | mio. pojavnic | mio. besed | enot | od | do |
nemški | de | 0,55 | 0,47 | 7 | 1983 | 2008 |
prevodi iz nemščine | sl | 0,53 | 0,44 | 7 | 2000 | 2010 |
angleški | en | 1,16 | 0,97 | 9 | 1992 | 2007 |
prevodi iz angleščine | sl | 1,15 | 0,92 | 9 | 2002 | 2008 |
francoski | fr | 0,81 | 0,7 | 12 | 1989 | 2006 |
prevodi iz fancoščine | sl | 0,72 | 0,6 | 12 | 1997 | 2008 |
italijanski | it | 0,49 | 0,41 | 7 | 1992 | 2001 |
prevodi iz italijanščine | sl | 0,48 | 0,39 | 7 | 1999 | 2004 |
izvirno slovenski | sl | 1,64 | 1,34 | 25 | 1996 | 2006 |
Oblikoskladenjska priporočila SPOOK
Priporočila za oblikoskladenjsko označevanje SPOOK v usklajenem naboru oznak zajamejo štiri zahodnoevropske jezike (angleščina, francoščina, nemščina, italijanščina in slovenščina), ki jih vsebuje slovenski vzporedni oblikoskladenjsko označeni korpus SPOOK. Priporočila so osnovana na priporočilih MULTEXT-East, ki sicer pokrivajo 16 jezikov, pa od naštetih samo slovenščino. Oznake SPOOK imajo za osnovo nabore oblikoskladenjskih oznak, ki jih uporabljajo jezikovni modeli označevalnika TreeTagger, s katerim so bili označena tujejezična besedila v korpusu. Za razliko od ostalih jezikov, je bil slovenski del korpusa označen s programom ToTrTaLe, ki uporablja oznake iz oblikoskladenjskih specifikacij JOS, ki so enake kot specifikacije za slovenski jezik MULTEXT-East, različica 4.
Priporočila SPOOK so dostopna na naslednje načine:
- Priporočila v slovenščini
- Priporočila v angleščini
- Priporočila v izvornem formatu TEP P5
- Arhivirana za prenos
- Tabele za predvorbo med oznakami
Povezave
- Jezikovni viri MULTEXT-East
- Jezikoslovni viri za sodobno sloveščino JOS
- Text Encoding Initiative in TEI P5