Racunalnisko
razumevanje (slovenskega)
jezika
Aplikativen projekt
MZT,
1993-96:
Sofinanciranje
COPERNICUS projekt Multext-East (Multilingual
Text & Corpora for Eastern
and Central European Languages (1995-97), v katerem sodelujeta
dva zahodno-evropska in sest vzhodno-evropskih partnerjev. S pridobitvijo
sofinanciranja se je projekt delno preusmeril v aplikativne raziskave
osnovnih racunalniskih
virov
slovenskega jezika in podaljsal za eno leto.
Projektna skupina (1995-96)
Clani skupine
za jezikovne in govorne tehnologije
odseka
za inteligentne sisteme IJS:
- dr. Damjan Bojadziev, odgovorni
nosilec
- dr. Peter Tancig (DDR)
- dr. Tomaz Erjavec, M.Sc.
- dr. France Dacar
- mag. Ales Dobnikar (MR)
- dipl. ing. Tomaz Sef (MR)
Prvotno projektno skupino so zapustili
stirje mladi raziskovalci,
vecinoma po zakljucku magisterija (trije l. 1994 in eden l.
95) ter dva druga raziskovalca, delno
povezana s projektom.
Mednarodno sodelovanje
Poleg projekta MULTEXT-EAST (sofinanciranje), v katerem je dr. Erjavec vodil
delovni paket (workpackage)
WP2 "Tool application to corpora" in organiziral delovno
srecanje projekta l. 1996 v Ljubljani, se dva evropska projekta:
- Copernicus concerted action TELRI
(Trans-European Language Resources Infrastructure), kjer je dr. Erjavec
koordiniral
Working Group 5 (Lingware
Availability/Performance assessment), in
- COST 233 "Prosodics of Synthetic
Speech"; projektna skupina je organizirala delovno srecanje
tega projekta l. 1993 na Bledu
Pomembno je
predvsem sodelovanje v projektu Multext-East, ki prenasa
jezikovne tehnologije in vire
(resources), razvite za
zahodno-evropske jezike, na 6 vzhodno-evropskih jezikov.
Rezultati tega sodelovanja so nastajajoce,
delno tudi paralelne, zbirke jezikovnih podatkov za
te jezike s pripadajocimi leksikoni in orodji
za obdelavo zbirk.
Sodelovanje v drugih dveh
mednarodnih projektih poteka bolj na nivoju izmenjave
znanj in izkusenj in dosti manj na nivoju
izdelovanja skupnih produktov.
Delo in rezultati
Najvec dela je bilo opravljenega na formalnem
modeliranju morfo-sintakticnega nivoja slovenskega
jezika z uporabo formalizma HPSG (Head-driven
Phrase
Structure Grammar),
in sicer na modeliranju
- strukture
stavka in
- morfologije glagolov.
Ti modeli
so bili tudi
implementirani v Prologu in vkljuceni
kot del ali razsiritev sistemov za obravnavanje
jezika, razvitih v tujini.
Namesto bolj celovite integracije
teh modelov, tudi z nastajajocim sistemom za difonsko sintezo slovenskega
govora, je bil v drugi polovici projektnega obdobja poudarek na
razvoju racunalniske zbirke jezikovnih podatkov
za slovenski jezik v okviru projekta Multext-East.
Poleg tega osnovnega dela na racunalniskem razumevanju slovenskega jezika
je bilo opravljenega se nekaj
dela na formalnih
sistemih, ki niso povezani le z jezikom (relacijski
sistemi oz. omrezja pogojev, nekateri aspekti
samo-nanasanja v formalnih in delno naravnih
jezikih) ali le s slovenskim jezikom (tudi strukture
japonskega, delno se angleskega jezika) ter
nekaj raziskav racunalniske glasbe
(formalizacija in avtomatsko dolocevanje
kontrapunkta in harmonije).
Prenos v prakso
Sodelovanje z AMEBIS
d.o.o pri izdelavi racunalniskih
virov
slovenskega jezika v okviru Multext-East -
transfer jezikovnih tehnologij:
Multext -->
Multext-East --> Amebis
Povzetki vmesnih porocil