imp25k

Dept. of Knowledge Technologies, JSI

kolofon TEI

§opis datoteke
§navedba naslova
§naslov

Besedišče starejše slovenščine imp25k
§nosilec raziskave
§ime Tomaž Erjavec
§naslov

Odsek za tehnologije znanja

Institut "Jožef Stefan"

Jamova cesta 39

1000 Ljubljana

§navedba odgovornosti
§ime Maja Žorga Dulmin
§odgovornost

Vodenje jezikoslovnega označevanja.
§navedba odgovornosti
§ime Darja Fišer
§odgovornost

Jezikoslovno označevanje, priprava pripomočkov za označevalce.
§navedba odgovornosti
§ime Tina Benčina
§ime Katja Cingerle
§ime Metod Čepar (ZRC SAZU)
§ime Alenka Jelovšek (ZRC SAZU)
§ime Urška Kamenšek
§ime Nina Mikulin
§ime Zala Šmid
§odgovornost

Jezikoslovno označevanje.
§navedba izdaje
§izdaja 1.1
§obseg 28,000
§termin

gesel
§navedba objave
§distributer
§naslov

Odsek za tehnologije znanja

Institut "Jožef Stefan"

Jamova cesta 39

1000 Ljubljana

§kraj objave http://nl.ijs.si/imp/
§dostopnost

Avtorske pravice za to izdajo ureja licenca Creative Commons Priznanje avtorstva 4.0.

Dovoljeno vam je tako rekoč vse, pod naslednjimi pogoji:

  • Priznanje avtorstva. Pri uporabi dela morate navesti izvirne avtorje digitalnega vira, v znanstvenih publikacijah pa citirati ustrezno publikacijo, ki opisuje delo na digitalnem viru. Seznam publikacij je dostopen na strani http://nl.ijs.si/imp/.

§datum 2014-09-13
§opis vira

Besedišče je bilo avtomatsko generirano iz dveh korpusov starejše slovenščine. Iz ročno označenega korpusa goo300k so bile vzete vse besedne pojavnice in njihove oznake, iz večjega korpusa foo3M pa so bile obdelane samo izbrane besede.

§opis označevanja
§opis projekta

Projekt EU IMPACT ‘Improving Access to Text’ (2010–2012).

Narodna in univerzitetna knjižnica in Institut "Jožef Stefan": Izdelava referenčnih besedil starejše slovenščine (za signature "NUK" and "FPGN").

§opis projekta

Raziskovalna nagrada Google ‘Language Models for Historical Slovene’ (2011–2012).

§uredniška načela
§standardne vrednosti

Dvočrkovne kode jezikov sledijo ISO 639 in so definirane v elementu uporabe jezikov. Izjema je koda "sl-bohoric", ki označuje besedila napisana v bohoričici.

Oblikoslovne oznake sledijo priporočilom za oblikoskladenjsko označevanje IMP, c.f. http://nl.ijs.si/imp/msd/

§načela označevanja
§imenski prostor

ime = https://www.tei-c.org/ns/1.0
§uporaba oznake

ime elementa = text pojavitev = 1
besedilo
§uporaba oznake

ime elementa = body pojavitev = 1
telo besedila
§uporaba oznake

ime elementa = entry pojavitev = 28034
geslo
§uporaba oznake

ime elementa = form pojavitev = 168452
podatki o obliki
§uporaba oznake

ime elementa = orth pojavitev = 168452
pisna oblika
§uporaba oznake

ime elementa = lbl pojavitev = 266407
labela
§uporaba oznake

ime elementa = gramGrp pojavitev = 31137
skupina podatkov o skladnji
§uporaba oznake

ime elementa = pos pojavitev = 61250
besedna vrsta
§uporaba oznake

ime elementa = gram pojavitev = 170053
podatek o skladnji
§uporaba oznake

ime elementa = gloss pojavitev = 2700
razlaga
§uporaba oznake

ime elementa = cit pojavitev = 210775
citirano
§uporaba oznake

ime elementa = quote pojavitev = 210775
navedba
§uporaba oznake

ime elementa = oVar pojavitev = 212705
kazalka na variantno pisno obliko
§uporaba oznake

ime elementa = milestone pojavitev = 125072
mejnik
§uporaba oznake

ime elementa = bibl pojavitev = 213253
bibliografska enota
§uporaba oznake

ime elementa = author pojavitev = 147104
avtor
§uporaba oznake

ime elementa = title pojavitev = 210775
naslov
§uporaba oznake

ime elementa = date pojavitev = 210775
datum
§načela sistema lastnosti
§knjižnica lastnosti

§lastnost

ime = besedna_vrsta identifikator = S0-sl ustreza = N0-en
simbol

vrednost = samostalnik
§lastnost

ime = vrsta identifikator = S1.o-sl ustreza = N1.c-en
simbol

vrednost = občno_ime
§lastnost

ime = vrsta identifikator = S1.l-sl ustreza = N1.p-en
simbol

vrednost = lastno_ime
§lastnost

ime = spol identifikator = S2.m-sl ustreza = N2.m-en
simbol

vrednost = moški
§lastnost

ime = spol identifikator = S2.z-sl ustreza = N2.f-en
simbol

vrednost = ženski
§lastnost

ime = spol identifikator = S2.s-sl ustreza = N2.n-en
simbol

vrednost = srednji
§lastnost

ime = besedna_vrsta identifikator = G0-sl ustreza = V0-en
simbol

vrednost = glagol
§lastnost

ime = vrsta identifikator = G1.g-sl ustreza = V1.m-en
simbol

vrednost = glavni
§lastnost

ime = vrsta identifikator = G1.p-sl ustreza = V1.a-en
simbol

vrednost = pomožni
§lastnost

ime = vid identifikator = G2.d-sl ustreza = V2.e-en
simbol

vrednost = dovršni
§lastnost

ime = vid identifikator = G2.n-sl ustreza = V2.p-en
simbol

vrednost = nedovršni
§lastnost

ime = vid identifikator = G2.v-sl ustreza = V2.b-en
simbol

vrednost = dvovidski
§lastnost

ime = besedna_vrsta identifikator = P0-sl ustreza = A0-en
simbol

vrednost = pridevnik
§lastnost

ime = vrsta identifikator = P1.p-sl ustreza = A1.g-en
simbol

vrednost = splošni
§lastnost

ime = vrsta identifikator = P1.s-sl ustreza = A1.s-en
simbol

vrednost = svojilni
§lastnost

ime = vrsta identifikator = P1.d-sl ustreza = A1.p-en
simbol

vrednost = deležniški
§lastnost

ime = stopnja identifikator = P2.n-sl ustreza = A2.p-en
simbol

vrednost = nedoločeno
§lastnost

ime = stopnja identifikator = P2.p-sl ustreza = A2.c-en
simbol

vrednost = primernik
§lastnost

ime = stopnja identifikator = P2.s-sl ustreza = A2.s-en
simbol

vrednost = presežnik
§lastnost

ime = besedna_vrsta identifikator = R0-sl ustreza = R0-en
simbol

vrednost = prislov
§lastnost

ime = vrsta identifikator = R1.s-sl ustreza = R1.g-en
simbol

vrednost = splošni
§lastnost

ime = vrsta identifikator = R1.d-sl ustreza = R1.r-en
simbol

vrednost = deležje
§lastnost

ime = stopnja identifikator = R2.n-sl ustreza = R2.p-en
simbol

vrednost = nedoločeno
§lastnost

ime = stopnja identifikator = R2.r-sl ustreza = R2.c-en
simbol

vrednost = primernik
§lastnost

ime = stopnja identifikator = R2.s-sl ustreza = R2.s-en
simbol

vrednost = presežnik
§lastnost

ime = besedna_vrsta identifikator = Z0-sl ustreza = P0-en
simbol

vrednost = zaimek
§lastnost

ime = besedna_vrsta identifikator = K0-sl ustreza = M0-en
simbol

vrednost = števnik
§lastnost

ime = zapis identifikator = K1.a-sl ustreza = M1.d-en
simbol

vrednost = arabski
§lastnost

ime = zapis identifikator = K1.r-sl ustreza = M1.r-en
simbol

vrednost = rimski
§lastnost

ime = zapis identifikator = K1.b-sl ustreza = M1.l-en
simbol

vrednost = besedni
§lastnost

ime = besedna_vrsta identifikator = D0-sl ustreza = S0-en
simbol

vrednost = predlog
§lastnost

ime = besedna_vrsta identifikator = V0-sl ustreza = C0-en
simbol

vrednost = veznik
§lastnost

ime = besedna_vrsta identifikator = L0-sl ustreza = Q0-en
simbol

vrednost = členek
§lastnost

ime = besedna_vrsta identifikator = M0-sl ustreza = I0-en
simbol

vrednost = medmet
§lastnost

ime = besedna_vrsta identifikator = O0-sl ustreza = Y0-en
simbol

vrednost = okrajšava
§lastnost

ime = besedna_vrsta identifikator = N0-sl ustreza = X0-en
simbol

vrednost = neuvrščeno
§lastnost

ime = vrsta identifikator = N1.j-sl ustreza = X1.f-en
simbol

vrednost = tujejezično
§lastnost

ime = vrsta identifikator = N1.t-sl ustreza = X1.t-en
simbol

vrednost = tipkarska
§lastnost

ime = vrsta identifikator = N1.p-sl ustreza = X1.p-en
simbol

vrednost = program
§knjižnica vrednosti lastnosti

§struktura lastnosti

identifikator = Som ustreza = Ncm
besedna_vrsta = samostalnik, vrsta = občno_ime, spol = moški
§struktura lastnosti

identifikator = Soz ustreza = Ncf
besedna_vrsta = samostalnik, vrsta = občno_ime, spol = ženski
§struktura lastnosti

identifikator = Sos ustreza = Ncn
besedna_vrsta = samostalnik, vrsta = občno_ime, spol = srednji
§struktura lastnosti

identifikator = Slm ustreza = Npm
besedna_vrsta = samostalnik, vrsta = lastno_ime, spol = moški
§struktura lastnosti

identifikator = Slz ustreza = Npf
besedna_vrsta = samostalnik, vrsta = lastno_ime, spol = ženski
§struktura lastnosti

identifikator = Sls ustreza = Npn
besedna_vrsta = samostalnik, vrsta = lastno_ime, spol = srednji
§struktura lastnosti

identifikator = Gp ustreza = Va
besedna_vrsta = glagol, vrsta = pomožni
§struktura lastnosti

identifikator = Ggd ustreza = Vme
besedna_vrsta = glagol, vrsta = glavni, vid = dovršni
§struktura lastnosti

identifikator = Ggn ustreza = Vmp
besedna_vrsta = glagol, vrsta = glavni, vid = nedovršni
§struktura lastnosti

identifikator = Ggv ustreza = Vmb
besedna_vrsta = glagol, vrsta = glavni, vid = dvovidski
§struktura lastnosti

identifikator = Ppn ustreza = Agp
besedna_vrsta = pridevnik, vrsta = splošni, stopnja = nedoločeno
§struktura lastnosti

identifikator = Ppp ustreza = Agc
besedna_vrsta = pridevnik, vrsta = splošni, stopnja = primernik
§struktura lastnosti

identifikator = Pps ustreza = Ags
besedna_vrsta = pridevnik, vrsta = splošni, stopnja = presežnik
§struktura lastnosti

identifikator = Pdn ustreza = App
besedna_vrsta = pridevnik, vrsta = deležniški, stopnja = nedoločeno
§struktura lastnosti

identifikator = Psn ustreza = Asp
besedna_vrsta = pridevnik, vrsta = svojilni, stopnja = nedoločeno
§struktura lastnosti

identifikator = Rsn ustreza = Rgp
besedna_vrsta = prislov, vrsta = splošni, stopnja = nedoločeno
§struktura lastnosti

identifikator = Rsr ustreza = Rgc
besedna_vrsta = prislov, vrsta = splošni, stopnja = primernik
§struktura lastnosti

identifikator = Rss ustreza = Rgs
besedna_vrsta = prislov, vrsta = splošni, stopnja = presežnik
§struktura lastnosti

identifikator = Rd ustreza = Rr
besedna_vrsta = prislov, vrsta = deležje
§struktura lastnosti

identifikator = Z ustreza = P
besedna_vrsta = zaimek
§struktura lastnosti

identifikator = Ka ustreza = Md
besedna_vrsta = števnik, zapis = arabski
§struktura lastnosti

identifikator = Kr ustreza = Mr
besedna_vrsta = števnik, zapis = rimski
§struktura lastnosti

identifikator = Kb ustreza = Ml
besedna_vrsta = števnik, zapis = besedni
§struktura lastnosti

identifikator = D ustreza = S
besedna_vrsta = predlog
§struktura lastnosti

identifikator = V ustreza = C
besedna_vrsta = veznik
§struktura lastnosti

identifikator = L ustreza = Q
besedna_vrsta = členek
§struktura lastnosti

identifikator = M ustreza = I
besedna_vrsta = medmet
§struktura lastnosti

identifikator = O ustreza = Y
besedna_vrsta = okrajšava
§struktura lastnosti

identifikator = N ustreza = X
besedna_vrsta = neuvrščeno
§struktura lastnosti

identifikator = Nj ustreza = Xf
besedna_vrsta = neuvrščeno, vrsta = tujejezično
§struktura lastnosti

identifikator = Nt ustreza = Xt
besedna_vrsta = neuvrščeno, vrsta = tipkarska
§struktura lastnosti

identifikator = Np ustreza = Xp
besedna_vrsta = neuvrščeno, vrsta = program
§opis značilnosti besedila
§uporaba jezikov
§jezik

identifikator = sl
§termin

slovenščina
§jezik

identifikator = sl-bohoric
§termin

slovenščina v bohoričici
§jezik

identifikator = sl-dajnko
§termin

slovenščina v dajnčici
§jezik

identifikator = sl-metelko
§termin

slovenščina v metelščici
§jezik

identifikator = de
§termin

nemščina
§jezik

identifikator = la
§termin

latinščina
§jezik

identifikator = en
§termin

angleščina
§opis sprememb
§sprememba Tomaž Erjavec<ime>: Generation of lexicon from corpus.
§datum 2015-05-25
§sprememba Tomaž Erjavec<ime>: Fixed error in occurrence counts, a few corrections in the corpus.
§datum 2014-09-13
§sprememba Tomaž Erjavec<ime>: Generation of lexicon from corpus for V1.0.
§datum 2014-01-09


Datum: 2015-05-25

Avtorske pravice za besedilo te izdaje določa licenca Creative Commons Priznanje avtorstva 3.0.