|
Mörkuð íslensk málheild |
|
Tungutækni
er ekki ný fræðigrein en tók vaxtarkipp í
upphafi 9. áratugar 20. aldar og fleygir fram eftir því
sem tölvur verða öflugri og notendavænni. Þeir
sem vinna við tungutækni hafa komið sér upp margvíslegum
tólum og gagnasöfnum. Má þar m.a. nefna markaðar
málheildir. Málheildir eru til á nokkrum tungumálum.
Þar má nefna British
National Corpus (BNC) í Bretlandi, Korpus
2000 í Danmörku og American
National Corpus (ANC) í Bandaríkjunum. Það
fer eftir aðstæðum í hverju landi hvernig notkun
og aðgangi er háttað. Um nokkurt
skeið hefur verið áhugi á því að
koma upp markaðri íslenskri málheild. Málheildin
yrði til afnota fyrir einstaklinga, fyrirtæki og stofnanir sem
vinna að margvíslegum tungutækniverkefnum, en auk þess
mun hún nýtast þeim sem vinna að rannsóknum
á íslensku nútímamáli og orðabókarhöfundum. Málfræðilegur markari Til þess
að unnt sé að koma upp markaðri íslenskri málheild
er nauðsynlegt að hafa yfir að ráða aðferðum
til þess að marka texta, þ.e. greina hann eftir orðflokkum
og beygingu, á vélrænan hátt. Handvirk greining
texta eftir orðflokkum og beygingu er mjög seinvirk og frekar
leiðinleg iðja. Þess vegna hefur lengi verið fengist
við að beita vélrænum aðferðum við þetta
starf. Það viðfangsefni hefur því fengið
mikla umfjöllun hjá þeim sem vinna við máltækni. Ákveðið
var að vinna undirbúningsverkefni sem beindist að þessu
verkefni. Í apríl 2002 veitti menntamálaráðuneytið
styrk til þess að gera málfræðilegan
markara fyrir íslensku. Málgreiningarhópurinn
og Orðabók Háskólans tóku verkið að
sér og var gerður samningur milli ráðuneytisins
og verktakanna haustið 2002. Verkefnið
fólst aðallega í því að prófa
ýmsar vélrænar aðferðir við mörkun
íslensks texta. Við prófunina var notað textasafn
með um 500.000 orðum sem hafði verið greint fyrir gerð
Íslenskrar orðtíðnibókar sem Orðabók
Háskólans gaf út 1991. Vélrænar aðferðir
við mörkun eru venjulega flokkaðar í tvo flokka, reglubyggðar
aðferðir og aðferðir sem byggjast á fyrir fram
greindu textasafni. Þrjár aðferðir af seinni gerðinni
voru prófaðar á efnivið Orðtíðnibókarinnar.
Sérstakt forrit er þá látið læra
af gögnum sem þegar hafa verið greind og búa til
líkan út frá þeim. Markmið
verkefnisins var að finna aðferð eða aðferðir
sem nota mætti við mörkun íslensks texta og ná
a.m.k. 92% nákvæmni. Með því að beita
fleiri en einni aðferð og gera ýmsar aðrar ráðstafanir
tókst að ná 93,65% nákvæmni við mörkun
á texta Orðtíðnibókarinnar. Verkinu lauk
með lokaskýrslu í febrúar 2004. Mörkuð íslensk málheild Í framhaldi af vinnu við að finna vélrænar aðferðir við mörkun orða í íslenskum texta gerði Orðabók Háskólans samning við menntamálaráðuneytið 14. júní 2004 um að búa til Markaða íslenska málheild. Verkefnið er kostað af Tungutæknisjóði, og meginmarkmið þess er að bæta forsendur fyrir þróun íslenskrar tungutækni. Ráðgert er að það verk taki þrjú ár.
Hver textabútur verður merktur með titli rits, nafni höfundar, útgáfuári, textategund, aldri og kyni höfundar, markhópi o.fl. Textarnir verða geymdir í rafrænu formi með sérstöku sniði sem TEI-samtökin (TEI: Text Encoding Initiative) hafa skilgreint fyrir málheildir. Notuð verður XML-útgáfa af þessu sniði. Sýnt er dæmi um skráningu textabrots með fimm setningum úr skáldsögunni Min káta angist eftir Guðmund Andra Thorsson. Fremst er haus þar sem eru upplýsingar um textann, síðan koma orðin í textanum ásamt grunnmynd þeirra og greiningarstreng. Ekki er víst að þetta dæmi sýni endanlega mynd þess sniðs sem notað verður fyrir málheildina.
|