|
Verkefnisstjóri
Sigrún Helgadóttir
Verkefnisstjórn
Ásta Svavarsdóttir
Eiríkur Rögnvaldsson
Kristín Bjarnadóttir
Samstarfsaðilar
Verkefnisstjórn um tungutćkni/
Menntamálaráđuneytiđ
Erlendar
málheildir
BNC
(Bretland)
Korpus 2000
(Danmörk)
ANC (Bandaríkin)
Sýnishorn

Textahaus:
Upplýsingar um textann

Textasýnishorn
með greiningastrengjum
|
Hvað
er mörkuð málheild?
Með markaðri málheild
(e. tagged corpus) er átt við safn fjölbreyttra textabúta
sem hafa verið greindir á málfræðilegan hátt.
Málheildin er í rafrænu formi og venjulega geymd í
stöðluðu sniði. Hverjum textabút fylgja upplýsingar
um textann sem búturinn er úr og hverri orðmynd fylgir
grunnmynd orðsins og greiningarstrengur sem sýnir orðflokk
og beygingarmynd orðsins.
Notendur
Notendur málheildarinnar eru einstaklingar, fyrirtæki
og stofnanir sem vinna að margvíslegum tungutækniverkefnum,
rannsóknum á íslensku nútímamáli
og orðabókargerð. Úr málheildinni má
lesa ýmiss konar gagnlegan fróðleik. Þar má
nefna upplýsingar um tíðni orðflokka,
orða og beygingarmynda, orðasambönd,
setningargerð, merkingu o.fl.
Slík gögn nýtast við orðabókargerð,
gerð leiðréttingarforrita, þýðingarforrita,
talgreiningu o.fl.
Verkefnið
Orðabók Háskólans hefur samið
við menntamálaráðuneytið um að búa
til Markaða íslenska málheild.
Verkefnið er kostað af Tungutæknisjóði, og meginmarkmið
þess er að bæta forsendur fyrir þróun íslenskrar
tungutækni. Það verður unnið á árunum
2004-2007. Stefnt er að því að í málheildinni
verði í fyrstu um 25.000.000 orð úr um það
bil 900 textabútum af ýmsu tagi.
Meira
um verkefnið
Ítarefni
Kynningartexti
um verkefnið (pdf, 26k)
Sýnishorn
af notkunarleyfi (pdf, 26k)
Dæmi
um samþykkisyfirlýsingu (pdf, 12k)
|