Mörkuð íslensk málheild


 

Tungutækni er ekki ný fræðigrein en tók vaxtarkipp í upphafi 9. áratugar 20. aldar og fleygir fram eftir því sem tölvur verða öflugri og notendavænni. Þeir sem vinna við tungutækni hafa komið sér upp margvíslegum tólum og gagnasöfnum. Má þar m.a. nefna markaðar málheildir. Málheildir eru til á nokkrum tungumálum. Þar má nefna British National Corpus (BNC) í Bretlandi, Korpus 2000 í Danmörku og American National Corpus (ANC) í Bandaríkjunum. Það fer eftir aðstæðum í hverju landi hvernig notkun og aðgangi er háttað.

Um nokkurt skeið hefur verið áhugi á því að koma upp markaðri íslenskri málheild. Málheildin yrði til afnota fyrir einstaklinga, fyrirtæki og stofnanir sem vinna að margvíslegum tungutækniverkefnum, en auk þess mun hún nýtast þeim sem vinna að rannsóknum á íslensku nútímamáli og orðabókarhöfundum.

Málfræðilegur markari

Til þess að unnt sé að koma upp markaðri íslenskri málheild er nauðsynlegt að hafa yfir að ráða aðferðum til þess að marka texta, þ.e. greina hann eftir orðflokkum og beygingu, á vélrænan hátt. Handvirk greining texta eftir orðflokkum og beygingu er mjög seinvirk og frekar leiðinleg iðja. Þess vegna hefur lengi verið fengist við að beita vélrænum aðferðum við þetta starf. Það viðfangsefni hefur því fengið mikla umfjöllun hjá þeim sem vinna við máltækni.

Ákveðið var að vinna undirbúningsverkefni sem beindist að þessu verkefni. Í apríl 2002 veitti menntamálaráðuneytið styrk til þess að gera málfræðilegan markara fyrir íslensku. Málgreiningarhópurinn og Orðabók Háskólans tóku verkið að sér og var gerður samningur milli ráðuneytisins og verktakanna haustið 2002.

Verkefnið fólst aðallega í því að prófa ýmsar vélrænar aðferðir við mörkun íslensks texta. Við prófunina var notað textasafn með um 500.000 orðum sem hafði verið greint fyrir gerð Íslenskrar orðtíðnibókar sem Orðabók Háskólans gaf út 1991. Vélrænar aðferðir við mörkun eru venjulega flokkaðar í tvo flokka, reglubyggðar aðferðir og aðferðir sem byggjast á fyrir fram greindu textasafni. Þrjár aðferðir af seinni gerðinni voru prófaðar á efnivið Orðtíðnibókarinnar. Sérstakt forrit er þá látið læra af gögnum sem þegar hafa verið greind og búa til líkan út frá þeim.

Markmið verkefnisins var að finna aðferð eða aðferðir sem nota mætti við mörkun íslensks texta og ná a.m.k. 92% nákvæmni. Með því að beita fleiri en einni aðferð og gera ýmsar aðrar ráðstafanir tókst að ná 93,65% nákvæmni við mörkun á texta Orðtíðnibókarinnar. Verkinu lauk með lokaskýrslu í febrúar 2004.

Mörkuð íslensk málheild

Í framhaldi af vinnu við að finna vélrænar aðferðir við mörkun orða í íslenskum texta gerði Orðabók Háskólans samning við menntamálaráðuneytið 14. júní 2004 um að búa til Markaða íslenska málheild. Verkefnið er kostað af Tungutæknisjóði, og meginmarkmið þess er að bæta forsendur fyrir þróun íslenskrar tungutækni. Ráðgert er að það verk taki þrjú ár.


Stefnt er að því að í málheildinni verði í fyrstu um 25.000.000 orð. Þessi orð eiga að koma úr um 900 textabútum sem skiptast á tiltekinn hátt eftir uppruna og efni. Hámarksstærð hvers textabúts verður 40.000 orð. Aldrei er tekinn heill texti. Ef texti er styttri en 40.000 orð er 10% af textanum sleppt. Gert er ráð fyrir að textarnir verði úr ritum sem gefin hafa verið út frá árinu 2000. Stefnt er að því að orð verði greind á vélrænan hátt með um 90% nákvæmni. Hverju orði í málheildinni fylgi grunnmynd orðsins og málfræðilegar upplýsingar svo sem orðflokkur og beygingarfræðilegar upplýsingar. Stefnt er að því að mörkun um einnar milljónar lesmálsorða í málheildinni verði leiðrétt handvirkt.

Hver textabútur verður merktur með titli rits, nafni höfundar, útgáfuári, textategund, aldri og kyni höfundar, markhópi o.fl. Textarnir verða geymdir í rafrænu formi með sérstöku sniði sem TEI-samtökin (TEI: Text Encoding Initiative) hafa skilgreint fyrir málheildir. Notuð verður XML-útgáfa af þessu sniði. Sýnt er dæmi um skráningu textabrots með fimm setningum úr skáldsögunni Min káta angist eftir Guðmund Andra Thorsson. Fremst er haus þar sem eru upplýsingar um textann, síðan koma orðin í textanum ásamt grunnmynd þeirra og greiningarstreng. Ekki er víst að þetta dæmi sýni endanlega mynd þess sniðs sem notað verður fyrir málheildina.


Tungutækni
Orðið tungutækni vísar til samvinnu tungumáls og tölvutækni í hagnýtum tilgangi, samvinnu sem beinist að því að hanna eða útbúa einhvern hugbúnað eða tæki sem nýtist mönnum í starfi eða leik. Þessi samvinna getur bæði falist í notkun tölvutækninnar í þágu tungumálsins og í notkun tungumálsins innan tölvutækninnar. Undir merkjum tungutækni eru stundaðar margvíslegar rannsóknir í málfræði, tölvufræðilegum málvísindum og tölvunarfræði, með það að markmiði að gagnast í ákveðnum iðnaði. En tungutækni er líka oft hrein iðnaðarstarfsemi, sem nýtir sér fyrirliggjandi gagnasöfn og rannsóknaniðurstöður tölvufræðilegra málvísinda og gagnamálfræði við smíði hvers kyns forrita og tóla. Sem dæmi um afurðir tungutækni má nefna talgervla sem líkja eftir mannsrödd og lesa upp ritaðan texta, ýmiss konar leiðréttingarforrit sem lagfæra stafsetningu, beygingar, orðanotkun.