See page in English
V prispevku predstavljamo postopek za izbiro govornih segmentov pri polifonski združevalni sintezi govora, pri katerem smo s poenostavitvami postopkov iskanja poti po grafu vplivali na hitrost postopka za izbiro govornih segmentov tako, da se to čim manj odraža na kvaliteti govora. Izbrani segmenti so še vedno optimalni, le cene lepljenja segmentov, na katerih temelji izbira, so manj natančne. Postopek je primeren za uporabo v vgrajenih sintetizatorjih govora.
V članku bomo predstavili nadgradnjo razpoznavalnika slovenskega tekočega govora za domeno dnevnoinformativnih oddaj. Sistem UMB Broadcast News trenutno predstavlja najkompleksnejši razpoznavalnik slovenskega govora. Zasnovan je na slovenski govorni in tekstovni bazi BNSI Broadcast News. V novo verzijo sistema UMB BN smo vključili več novih, kompleksnih modulov. Glavne spremembe so bile izpeljane na področju akustične segmentacije, izločanja značilk ter akustičnega modeliranja. Za vrednotenje sistema smo uporabili celoten testni nabor baze BNSI, ki vsebuje govorni signal v zelo različnih akustičnih okoljih (7 različnih f-razredov). Uporaba novih metod je uspešno izboljšala delovanje sistema za razpoznavanje slovenskega tekočega govora UMB BN.
Prispevek obravnava vpliv predhodne segmentacije in klasifikacije govor/negovor na segmentacijo govorca oz. na pravilno zaznavo menjave govorca v zvočnem nizu. V članku je predstavljena statistična metoda segmentacije govor/negovor zasnovana na GMM,. Prav tako je predstavljen postopek zaznavne menjave govorca BIC, ki se pogosto uporablja v razmerah, kjer predhodna informacija o govorcu/ih ni na voljo. Uspešnost metod je bila ocenjena v okviru domene BroadCast News, ob uporabi slovenske govorne baze BNSI.
Razvoj zahtevnejših jezikovnotehnoloških aplikacij in uporaba korpusov v pragmatičnih in diskurznih raziskavah spodbujata označevanje različnih diskurznih in pragmatičnih pojavov v jezikovnih virih. V tem prispevku obravnavam označevanje diskurznih označevalcev in predlagam ločevanje štirih vrst: ideacijskih označevalcev, interakcijskih označevalcev, označevalcev procesov tvorjenja in interpretacijskih označevalcev. Predstavljena shema je osnova za nadaljnjo korpusno podprto analizo diskurznih označevalcev in za evalvacijo tako označenih virov v zahtevnejših jezikovnotehnoloških aplikacijah.
Označevanje diskurznih označevalcev v korpusnem gradivu je lahko včasih odvisno od interpretacije označevalca. Da bi ocenili, koliko so rezultati korpusne analize diskurznih označevalcev odvisni od interpretacije označevalca korpusnega gradiva in natančnost uporabljene sheme za označevanje diskurznih označevalcev v slovenščini, smo izvedli validacijo označenosti reprezentativnega vzorca uporabljenega korpusnega gradiva. Rezultati so pokazali, pri katerih diskurznih označevalcih se pojavlja večja variabilnost označevanja in s katerimi diskurznimi označevalci bi bilo mogoče shemo nadgraditi.
Na FFUL in IJS med urejanjem spletnega japonsko-slovenskega slovarja za študente japonščine, ki nastaja ob spremljanju potreb porabnikov in njihovem sodelovanju, skušamo z uporabo jezikovnih tehnologij slovar čimbolj učinkovito dopolnjevati in dograjevati. Iz vzporednega korpusa, ki nastaja v okviru vaj iz prevajanja med slovenščino in japonščino, ter vzporednih besedil, ki smo jih s pomočjo iskalnikov in regularnih izrazov črpali s spleta, smo zbrali stavčne primere k vsem slovarskim geslom, ki jih vzporedni korpus vsebuje. Pri pogostih besedah, ki so se v korpusu največkrat pojavljale, smo število primerov omejili in v korpusu zaradi lažjega branja izbrali najkrajše povedi z izbranimi gesli. Projekt lahko služi kot model za učinkovito ustvarjanje referenčnega učnega gradiva z uporabo prosto dostopnih orodij in besedil.
V prispevku predstavljamo prvi prosto dostopen slovenski semantični leksikon z imenom sloWNet, ki je bil izdelan avtomatsko s pomočjo prosto dostopnih korpusnih in leksikalnih virov. Pri gradnji smo večpomenske besede razdvoumili s pomočjo besedno vzporejenega večjezičnega korpusa in drugih že obstoječih wordnetov, enopomenske besede in besedne zveze pa smo pridobili iz dvojezičnih virov. Predstavljena različica wordneta vsebuje skoraj 20.000 različnih literalov oz. 17.000 sinsetov, ki so večinoma samostalniški. Težišče prispevka je na analizi wordneta glede na skupine konceptov in domene, v katere generirani sinseti spadajo, iz katerega vira so bili sinseti ustvarjeni in kakšne relacije veljajo med njimi. Podrobneje se posvetimo hipernimiji, ki je v wordnetu najpogostejša, in izračunamo dolžino hipernimskih verig. V drugem delu analize besedišče iz wordneta primerjamo s korpusom jos100k. Proučimo pokritje samostalnikov, ki se pojavljajo v korpusu, in na vzorcu večpomenskih samostalnikov s pomočjo konkordanc ročno preverimo zastopanost njihovih pomenov v wordnetu.
Težava pri nestatističnem strojnem prevajanju je, da je veliko dela z ročnim vnosom slovarja. Zato sem poskusil iz vzporednega korpusa samodejno izluščiti slovar, in sicer z uporabo analizatorja za prevedbo v vmesni jezik, pri čemer se uporabi tudi pomensko razdvoumljanje analizatorja. Opisane so nekatere težave, ki so se pri tem pojavile, in načini njihovega reševanja. Predstavljen je tudi primer izluščenega slovarja.
Jezikovne vire JOS trenutno sestavljajo oblikoslovne specifikacije in dva korpusa. Prvi korpus je "jos100k", enojezični vzorčeni in uravnoteženi korpus slovenskega jezika s 100.000 besedami in z ročno označenimi oz. pregledanimi lemami ter oblikoskladenjskimi oznakami. Drugi je "jos1M", enomilijonski delno ročno pregledani korpus. Oba korpusa sta bila vzorčena iz 620-milijonskega korpusa FidaPLUS. Jezikovni viri JOS so označeni v skladu s označevalnimi standardi, oblikoskladenjske specifikacije skladno s sistemom MULTEXT-East, tako specifikacije kot korpusa pa skladno z navodili združenja Text Encoding Initative (Guidelines P5). Vsi viri so na voljo kot zbirka podatkov za raziskovalne namene po licenci Creative Commons in so namenjeni razvoju jezikovnih tehnologij za slovenski jezik.
Prispevek predstavlja revizijo ter nadgradnjo nabora oznak za oblikoskladenjsko označevanje slovenščine, ki sta v letu 2007 potekali v okviru projekta Jezikovno označevanje slovenščine. Končni rezultat nadgradnje – nabor oblikoskladenjskih oznak JOS – je zasnovan s ciljem vzpostavitve enotnega označevalnega standarda za slovenščino in je kot tak ponujen v oceno zainteresirani strokovni javnosti. V članku so navedeni razlogi za revizijo, utemeljena je izbira kodne tabele Multext-East kot izhodiščne za nadgradnjo, opisan je potek dela, skupaj z izpostavitvijo najbolj problematičnih mest oblikoskladenjskega označevanja. Revizija ter nadgradnja sta podrobneje predstavljeni na primeru sprememb nabora oznak za glagolsko besedno vrsto. Članek zaključujejo podatki o dostopnosti nove kodne tabele ter povezane dokumentacije.
Prispevek najprej predstavi jezikovnotehnološki projekt Večjezični korpus turističnih besedil: informacijski vir in analitična baza slovenske naravne in kulturne dediščine. Cilj projekta je zgraditi primerljivi in delno vzporedni korpus besedil s področja turizma v slovenskem, italijanskem in angleškem jeziku, ki bo uporaben kot prevajalski vir, za jezikoslovne raziskave in raziskave turizma. Prispevek nato opiše in utemelji metabesedilno in oblikoslovno označevanje Večjezičnega korpusa turističnih besedil glede na načrtovane namene njegove uporabe.
Slovensko računalniško izrazje se zbira v dvojezičnem spletnem terminološkem slovarju Islovar. Kot podpora slovarju je bil že pred leti zasnovan tudi korpus računalniških besedil, a so bili v njem doslej le zborniki konferenc DSI, poleg tega pa korpus nikdar ni bil uporabljen za sistematično terminografsko analizo ali samodejno luščenje izrazja. Prispevek predstavlja nadgradnjo in označevanje novega iKorpusa, nato pa opisuje rezultate samodejnega luščenja računalniškega izrazja iz njega. Podana je primerjava med dosedanjim besediščem Islovarja in izluščenimi enotami, v zaključku pa nakažemo tudi smernice za nadaljnje delo.
Prispevek predstavi prve poskuse zasnove, strategije snemanja in zbiranja multimodalne emocionalne govorne podatkovne baze. Naš cilj je zagotoviti podatkovno bazo, ki bo omogočaka tako raziskave identifikacije oz. verifikacije govorcev kot tudi razpoznavane emocijonalnega stanja oseb, ki sodelujejo v kominikaciji. Posebej pozorni smo, da zajemamo govor z spontanimi čustvi, da dobimo bolj realistične učne in testne pogoje za eksperimente. Spontana čustva so bila sprožena s posebno načrtovanimi scenariji, ki vsebujejo igranje računalniških iger in adaptivne inteligenčne teste. Do sedaj smo multimodalno posneli govorce in izvedli osnovno ovrednotene podatkov.
V prispevku obravnavamo luščenje okrajšav v srbskem jeziku, z uporabo svetovnega spleta kot korpusa. Rezultate primerjamo s tistimi, ki jih dosežemo z uporabo standardnega korpusa sodobne srbščine. Uporaba svetovnega spleta kot korpusa se je uveljavila šele pred kratkim. Svetovni splet je dragocen vir podatkov za raziskave s področja računalniškega jezikoslovja in luščenje informacij. Vendar pa za iskanje po svetovnem spletu še ne obstajajo ustrezna orodja, ki bi bila namenjena jezikoslovnim potrebam. Mi smo po svetovnem spletu iskali srbske okrajšave z uporabo mrežnega pregledovanja. V prispevku pokažemo, da z uporabo medmrežja kot korpusa pridobimo večje število okrajšav in da so te bolj sodobne kot tiste dobljene iz standardnega korpusa.
Prispevek obravnava zasnovo in razvoj končnih transduktorjev za morfološko segmentacijo, označevanje in lematizacijo, ki omogoča združitev vseh treh funkcionalnosti v en sam, visokosposoben monolitni avtomat. Zasnova omogoča fleksibilnost in razširljivost na katerikoli jezik, ki dopušča morfotaktično modeliranje na leksikalni ravni morfološke strukture. Označevalna shema v prototipnem modelu za hrvaški jezik je neposredna preslikava z ontologije jezikoslovnih pojmov in lastnosti GOLD, kar izboljša njen potencial za interoperabilnost, obenem pa tudi odpre napredne možnosti za postprocesiranje, ki temeljijo na DL.
Wordnet je spletna leksikalna baza za uporabo v računalniških aplikacijah, v kateri so besede razvrščene glede na njihov pomen in ne na obliko ter med seboj povezane s semantičnimi relacijami. V prispevku opišemo več metrik za ocenjevanje produktivnosti določenega koncepta, s katerimi ga želimo uvrstiti v ustrezno hierarhijo konceptov. Ti koncepti se razlikujejo od vrhnjih konceptov v ontologiji, saj so slednji preveč splošni, lahko pa jih razumemo kot ontološke koncepte, povezane s razredi, ki kažejo lastnosti hierarhij, ki iz njih izhajajo. Določanje najbolj produktivnih konceptov je uporabno za klasifikacijo dokumentov, s čimer lahko izboljšamo iskanje in luščenje informacij.
Preverjanje berljivosti ali enostavnosti besedil je pomembno za mnogo institucionalnih ali individualnih uporabnikov. Formule za približno preverjanje berljivosti imajo že dolgo tradicijo. Večinoma uporabljajo površinske indikatorje, kot so dolžina stavkov, frekvenca besed, itd. Vendar pa ta informacija pogosto ne zadostuje za realistično oceno kognitivnih težav, na katere ljudje pri razumevanju besedila lahko naletimo, zaradi česar smo dodatno uporabili globinske sintaktične in semantične indikatorje. Sintaktična informacija je predstavljena z odvisnostnim drevesom, semantična pa s semantično mrežo. Obe predstavitvi generiramo avtomatsko z globinsko sintaktično-semantično analizo. Globalno oceno berljivosti izračunamo z uporabo algoritma najbližjega soseda na 3.000 ocenah pri 300 testnih osebah. Evalvacija je pokazala, da globinski sintaktični in semantični indikatorji dajo primerljive rezultate kot večina površinskih indikatorjev. Razvili smo tudi grafični uporabniški vmesnik, ki glede na posamezne vrednosti indikatorjev izpostavi težko berljive dele besedila in prikaže globalno oceno berljivosti.
Članek predstavlja nov način postavitve prevajalnega sistema za sorodne jezike na osnovi pravil s plitkim transferjem. Opišemo metode, ki omogočajo nenadzorovano samodejno izvajanje delov procesa postavitve takšnih sistemov. Metode so bile preizkušene na študiji primera postavitve delujočega prevajalnega sistema za sorodni jezikovni par slovenščina – srbščina. Slovenščina in srbščina sodita med južnoslovanske jezike, v uporabi sta predvsem na območju nekdanje Jugoslavije. Želje po takšnem prevajalnem sistemu so velike: gospodarstva dežel, kjer se ta dva jezika govorita, so tesno povezana, mlajše generacije, povojne generacije imajo težave v medsebojnem sporazumevanju. Prevajalni sistem temelji na odprtokodni zbirki orodij za postavitev prevajalnega sistema na osnovi pravil s plitkim transferjem Apertium. Predstavljena je ocena kakovosti prevodov, zaključek oriše dobre in slabe strani predstavljenih metod ter predstavi možnosti za nadaljnje delo.
V prispevku so najprej na kratko predstavljeni pretekli dosežki na področju oblikoslovnega označevanja besedil v slovenskem jeziku. Sodelovalo je kar nekaj raziskovalnih ustanov, poleg njih pa tudi vodilno podjetje, ki se pri nas ukvarja z jezikovnimi tehnologijami. V drugem delu prispevka je podan opis oblikoslovno označenega dela besedilnega korpusa Nova beseda na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU, ki obsega 1,3 milijona besed. Besedila so bila najprej strojno označena, z lastnim statističnim označevalnikom, potem pa so bile oznake s strani jezikoslovcev še preverjene. Zbirka služi kot osnova za predstoječo oblikoslovno označitev celotnega korpusa.
Oblikoskladenjsko označevanje je proces dodeljevanja oblikoskladenjskih oznak besedam v stavkih. Oblikoskladenjsko označevanje igra pomembno vlogo v predobdelavi pri večini aplikacij jezikovnih tehnologij. V primeru slovenskega jezika je ta naloga zelo zahtevna zaradi velike množice možnih oblikoskladenjskih oznak; vsebuje namreč več kot tisoč možnih oznak (problem je veliko enostavnejši za angleški jezik, kjer se tipično uporablja približno šestdeset oznak). Trenutno stanje tehnologij za avtomatično označevanje slovenskih besedil do sedaj še ni na želeni ravni. V pričujočem članku je opisan poskus izboljšanja točnosti označevanja slovenskih besedil z združevanjem dveh neodvisnih orodij za označevanje: označevalnika v lasti podjetja Amebis d.o.o., ki temelji na ročno zgrajenih pravilih, in označevalnika TnT, ki temelji na statističnem modelu skritih markovskih verig, naučenem na ročno označenem korpusu slovenskih besedil. Označevalnika dosežeta primerljiv delež pravilno napovedanih oznak, delež primerov, ki jih pravilno označi vsaj en označevalec, pa je še bistveno večji. To dejstvo daje upanje za izboljšavo točnosti napovedi z združevanjem napovedi obeh označevalnikov. V delu smo preizkusili uporabo metod strojnega učenja na množici napovedi označevalnikov, dobljeni na primerih, ki jih je pravilno označil natanko en od označevalnikov. Rezultat našega pristopa je meta-označevalnik, ki na podlagi napovedi obeh označevalnikov pojavnici dodeli končno oznako. Eksperimente smo opravili na množici klasifikacijskih metod in množici različnih izborov atributov in odkrili meta-označevalnik z občutno višjo točnostjo napovedi.
Članek razišče več metod za kombiniranje izhoda oblikoslovnega označevalnika, ki temelji na skritem Markovem modelu drugega reda, z obsežnim pregibnim leksikonom hrvaškega jezika. Naša glavna motivacija je bila izboljšanje natančnosti oblikoslovnega označevanja hrvaških besedil z uporabo našega novo razvitega označevalnika. Poleg tega smo želeli primerjati rezultate označevalnika – z in brez uporabe leksikona – s prejšnjimi, ki smo jih dosegli z uporabo statističnega označevalnika TnT, saj oba implementirata enak algoritem za označevanje. Članek najprej razloži osnovno idejo eksperimenta, motivacijo zanj in pomembnost za obdelavo hrvaškega jezika. Opišemo tudi vsa orodja in jezikovne vire, ki smo jih uporabili v eksperimentu, vključno z načinom delovanja in relevantnimi vhodno-izhodnimi formati. Nato naštejemo vse teoretično možne načine kombiniranja teh virov in orodij, nakar jih z uporabo mere F preizkusimo v praksi. Sledi diskusija rezultatov, zaključki in načrti za nadaljnje delo.
Stran obnovljena 2008-10-12, et