Mörkuð íslensk málheild


 

 

Verkefnisstjóri
Sigrún Helgadóttir

Verkefnisstjórn
Ásta Svavarsdóttir
Eiríkur Rögnvaldsson
Kristín Bjarnadóttir

Samstarfsaðilar
Verkefnisstjórn um tungutćkni/
Menntamálaráđuneytiđ

 

Erlendar málheildir
BNC (Bretland)
Korpus 2000 (Danmörk)
ANC (Bandaríkin)

Sýnishorn

Textahaus: Upplýsingar um textann

Textasýnishorn með greiningastrengjum

 

Hvað er mörkuð málheild?
Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra textabúta sem hafa verið greindir á málfræðilegan hátt. Málheildin er í rafrænu formi og venjulega geymd í stöðluðu sniði. Hverjum textabút fylgja upplýsingar um textann sem búturinn er úr og hverri orðmynd fylgir grunnmynd orðsins og greiningarstrengur sem sýnir orðflokk og beygingarmynd orðsins.

Notendur
Notendur málheildarinnar eru einstaklingar, fyrirtæki og stofnanir sem vinna að margvíslegum tungutækniverkefnum, rannsóknum á íslensku nútímamáli og orðabókargerð. Úr málheildinni má lesa ýmiss konar gagnlegan fróðleik. Þar má nefna upplýsingar um tíðni orðflokka, orða og beygingarmynda, orðasambönd, setningargerð, merkingu o.fl. Slík gögn nýtast við orðabókargerð, gerð leiðréttingarforrita, þýðingarforrita, talgreiningu o.fl.

Verkefnið
Orðabók Háskólans hefur samið við menntamálaráðuneytið um að búa til Markaða íslenska málheild. Verkefnið er kostað af Tungutæknisjóði, og meginmarkmið þess er að bæta forsendur fyrir þróun íslenskrar tungutækni. Það verður unnið á árunum 2004-2007. Stefnt er að því að í málheildinni verði í fyrstu um 25.000.000 orð úr um það bil 900 textabútum af ýmsu tagi.

Meira um verkefnið

Ítarefni
Kynningartexti um verkefnið (pdf, 26k)
Sýnishorn af notkunarleyfi (pdf, 26k)
Dæmi um samþykkisyfirlýsingu (pdf, 12k)