JOS morphosyntactic specifications for Slovene
Appendix A Differences between MULTEXT-East and JOS specifications
Up: Contents Next: Appendix B Comparison with other recommendations for morphosyntactic annotation
This appendix summarises the differences in attributes and their values between the
MULTEXT-East specifications used in the annotation of
FIDA, FidaPLUS and Fida+X corpora, and the JOS specifications. It is available only in Slovene.
Samostalnik:
-
Samostalnik: lastnost "živost" je prestavljena na 5. mesto
Glagol:
-
Lastnost "vrsta":
-
"polnopomenski" in “modalni” postenejo "glavni"
-
"vezni" se preimenuje v "pomožni".
-
Ukinjena je kategorija "čas" (bivša št. 3)
-
sedanja in prihodnja obl. glagola se prestavita v gl. obliko (št. 2)
-
povednik se ukinja in namesto njega uporabi sedanjo obl. glagola.
-
Ukinjena je kategorija "način" (bivša št. 7)
-
deležniki z lastnostjo "tvornik" ostanejo
-
deležniki z lastnostjo "trpni_deležnik" se spremenijo v pridevnike vrste
"deležniški".
-
Kategorija "vid" se prestavi na št. 2 (iz št. 14) in dobi lastnost "dvovidski".
-
Vse kategorije od kategorija oblika se prestavijo za mesto višje.
Pridevnik:
-
Pridevniki z lastnostjo "kakovostni" in "vrstni" postanejo "splošni".
-
Kategorija vrsta dobi lastnost "deležniški".
-
Ukine se kategorija "živost".
-
Pri kategoriji "stopnja" gre "elativ" v “osnovnik”.
Prislov:
-
Kategorija vrsta dobi lastnost "deležniški".
-
Pri kategoriji "stopnja" gre “osnovnik” v nedoločeno.
-
Pri kategoriji "stopnja" gre "elativ" v nedoločeno.
Zaimek:
-
Ukinejo se vse kategorije od 8. naprej, vključno z živostjo.
-
Pri kategoriji 8. se poimenovanje spremeni v "oblika" in lastnosti "da" in "ne"
zamenjata s "klitični" in “navezni”
Števnik:
-
Pod kategorijo "vrsta" se doda lastnost "zaimkovni".
-
Ukine se kategorija "živost".
-
Kategorija Zapis gre na 1. mesto. Ostale kategorije se pomaknejo za mesto
višje.
Predlog:
-
Ukineta se kategoriji "vrsta" in "sestavljenost".
Veznik:
-
Ukine se kategorija "oblika".
Neuvrščeno:
-
Dodan atribut vrsta z naslednjimi vrednostmi:
-
j – tujejezični citat, ponavadi večbeseden, ki deluje izven sistema
slovenskega jezika, npr. “and so on” ima vse tri besede označene z Nj.
-
t – tipkarska napaka; tudi če je zarado majkajočega ali odvečnega presledka,
npr. “inje kon čal” ima vse tri “besede” označene z Nt.
-
p – napaka zaradi pomanjkljivosti programa, kjer je delil
preveč ali premalo, npr. pri “http:// nl. ijs. si” označimo vse štiri pojavnice z Np.
Up: Contents Next: Appendix B Comparison with other recommendations for morphosyntactic annotation