Beygingarlýsing íslensks nútímamáls

Í beygingarlýsingu íslensks nútímamáls birtast beygingardæmi rúmlega 176 þúsund orða. Í beygingardæmunum eru allar beygingarmyndir hvers orðs. Í safninu eru beygingar ósamsettra og samsettra orða úr nútímamáli, auk mannanafna.

Hægt er að leita að uppflettimynd orðs, eins og hún birtist í orðabókum, eða að einstökum beygingarmyndum orðsins.


 

Verkefnisstjóri
Kristín Bjarnadóttir

Aðrir starfsmenn
Auður Þórunn Rögnvaldsdóttir
Þórdís Úlfarsdóttir

Markmið
Markmiðið með verkefninu er að koma upp beygingarlýsingu á tölvutæku formi til birtingar á vefsíðu Orðabókar Háskólans og til nota í ýmiss konar tungutækniverkefnum.

Notkun
Beygingarlýsingin er öllum opin á vefsíðu Orðabókarinnar og þar geta málnotendur, utan lands og innan, flett upp beygingum orða í almennum orðaforða í íslensku nútímamáli, auk mannanafna.

Beygingarlýsingin er einnig ætluð til nota í tungutækniverkefni af ýmsu tagi, en ítarleg beygingarlýsing er grundvöllur að vélrænni greiningu á íslenskum textum, nauðsynlegur undanfari orðflokkagreiningar og setningagreiningar. Beygingarlýsingin nýtist t.d. við mörkun texta, við gerð leitarvéla, leiðréttingarforrita og þýðingarforrita, auk þess að vera forsenda skilvirkrar orðabókargerðar og heimildasöfnunar um tungumálið.

Beygingarlýsingin er þegar notuð í ýmsum verkefnum Orðabókarinnar, s.s. ISLEX, Markaðri íslenskri málheild og við leit í Textasafninu. Þá er hún notuð í verkefninu Icelandic Online og í Emblu, leitarvél Morgunblađsins.

Um verkið
Útgáfa 1.0
Beygingarlýsingin á vefsíðu Orðabókarinnar á rætur að rekja til verkefnis sem unnið var fyrir styrk sem Orðabók Háskólans og Edda hf. sóttu um til verkefnisstjórnar menntamálaráðuneytisins í tungutækni árið 2002. Gengið var frá samningi um verkið 23. ágúst 2002. Orðabók Háskólans sá að öllu leyti um vinnuna og lagði til húsnæði, alla aðstöðu og aðgang að gögnum. Edda hf. lagði til beygingarlýsingu þá sem unnin var fyrir tölvuútgáfu Íslenskrar orðabókar (2000). Þessum áfanga lauk í febrúar 2004 þegar menntamálaráðuneytinu var afhentur geisladiskur með útgáfu 1.0 af beygingarlýsingunni, alls 173.389 beygingardæmi á formi xml-skráa.

Útgáfa 2.0
Beygingarlýsingin á vefsíðu Orðabókarinnar er unnin upp úr útgáfu 1.0, með talsverðum endurbótum, leiðréttingum og nokkrum viðbótum.

Heildarorðaforðinn skiptist svo 24. september 2004:
  Orðafjöldi Beygingarmyndir Meðalfjöldi
beygingarmynda
Nafnorð 137.300 1.960.700 14,3
Lýsingarorð 26.300 2.334.900 88,8
Sagnorð 7.600 538.200 70,8
Mannanöfn 4.760 19.445 4,1
Annað 70 849 12,1

  176.030 4.854.094 27,6

Í liðnum "annað" eru fornöfn, töluorð, laus greinir og stigbeygð atviksorð.

Beygingardæmin
Beygingarmyndir nafnorðs eru 16, þ.e. fjögur föll í eintölu og fleirtölu, án greinis og með greini, og eru afbrigði þá ekki talin með.

Dæmi: hestur

Beygingarmyndir sagnar í persónuhætti eru 48, auk boðháttar og lýsingarhátta en alls geta beygingarmyndir hverrar sagnar orðið allt að 106, án afbrigða.

Dæmi: hlaupa

Beygingarmyndir lýsingarorðs sem tekur stigbreytingu eru allt að 120, án afbrigða.

Dæmi: góður

Afbrigði
Beygingarmyndum getur fjölgað talsvert þegar afbrigði eru sýnd:

Dæmi: hnífur, strönd, þögull, flá

Eyður í beygingardæmunum
Víða eru eyður í beygingardæmunum, t.d. þar sem sögn fyrirfinnst ekki í miðmynd, nafnorð ekki í fleirtölu o.s.frv.:

Nafnorð sem ekki er til í fleirtölu: fólk
Nafnorð sem aðeins er til í fleirtölu: buxur
Sögn sem ekki finnst í miðmynd: auðvelda
Sögn sem aðeins er til í miðmynd: íklæðast
Lýsingarorð sem stigbreytist ekki: dagsgamall

Orðaforði og heimildir
Orðaforðinn í beygingarlýsingunni er fenginn úr 3. útgáfu Íslenskrar orðabókar (Edda hf. 2000) og úr söfnum Orðabókarinnar, sérstaklega úr íslenskum stofni íslensk-skandinavískrar orðabókar sem unnið var að á árunum 1994-1999. Helstu heimildir við rannsóknir á einstökum orðum og beygingarflokkum eru Ritmálsskrá og Textasafn Orðabókarinnar, auk handbóka, greina og ritgerða um íslenska málfræði.

Leiðréttingar og viðbætur
Í útgáfu 3.0 verða viðbætur við orðaforðann úr gagnasöfnum Orðabókarinnar og úr einum árgangi af Morgunblaðinu sem skoðaður var í tengslum við vinnuna við Emblu, leitarvél Morgunblaðsins sem gerð er hjá Spurl ehf. Þá er bætt inn orðum eftir ábendingum frá notendum. Áætlað er að beygingardæmin í útgáfu 3.0 verði um 250 þúsund.

Villur í beygingarlýsingunni eru leiðréttar eins fljótt og kostur er eftir því sem ábendingar um þær berast. Allar athugasemdir eru vel þegnar!