|
Markmið
Markmiðið
með verkefninu er að koma upp beygingarlýsingu á tölvutæku
formi til birtingar á vefsíðu Orðabókar Háskólans
og til nota í ýmiss konar tungutækniverkefnum.
Notkun
Beygingarlýsingin
er öllum opin á vefsíðu Orðabókarinnar
og þar geta málnotendur, utan lands og innan, flett upp beygingum
orða í almennum orðaforða í íslensku
nútímamáli, auk mannanafna.
Beygingarlýsingin
er einnig ætluð til nota í tungutækniverkefni af
ýmsu tagi, en ítarleg beygingarlýsing er grundvöllur
að vélrænni greiningu á íslenskum textum,
nauðsynlegur undanfari orðflokkagreiningar og setningagreiningar.
Beygingarlýsingin nýtist t.d. við mörkun texta,
við gerð leitarvéla, leiðréttingarforrita og
þýðingarforrita, auk þess að vera forsenda
skilvirkrar orðabókargerðar og heimildasöfnunar um
tungumálið.
Beygingarlýsingin
er þegar notuð í ýmsum verkefnum Orðabókarinnar,
s.s. ISLEX, Markaðri
íslenskri málheild og við leit í Textasafninu.
Þá er hún notuð í verkefninu Icelandic
Online og í Emblu, leitarvél Morgunblađsins.
Um
verkið
Útgáfa
1.0
Beygingarlýsingin
á vefsíðu Orðabókarinnar á rætur
að rekja til verkefnis sem unnið var fyrir styrk sem Orðabók
Háskólans og Edda hf. sóttu um til verkefnisstjórnar
menntamálaráðuneytisins í tungutækni árið
2002. Gengið var frá samningi um verkið 23. ágúst
2002. Orðabók Háskólans sá að öllu
leyti um vinnuna og lagði til húsnæði, alla aðstöðu
og aðgang að gögnum. Edda hf. lagði til beygingarlýsingu
þá sem unnin var fyrir tölvuútgáfu Íslenskrar
orðabókar (2000). Þessum áfanga lauk í
febrúar 2004 þegar menntamálaráðuneytinu
var afhentur geisladiskur með útgáfu 1.0 af beygingarlýsingunni,
alls 173.389 beygingardæmi á formi xml-skráa.
Útgáfa 2.0
Beygingarlýsingin
á vefsíðu Orðabókarinnar er unnin upp úr
útgáfu 1.0, með talsverðum endurbótum, leiðréttingum
og nokkrum viðbótum.
Heildarorðaforðinn
skiptist svo 24. september 2004:
| |
Orðafjöldi |
Beygingarmyndir |
Meðalfjöldi
beygingarmynda |
| Nafnorð |
137.300 |
1.960.700 |
14,3 |
| Lýsingarorð |
26.300 |
2.334.900 |
88,8 |
| Sagnorð |
7.600 |
538.200 |
70,8 |
| Mannanöfn |
4.760 |
19.445 |
4,1 |
| Annað |
70
|
849 |
12,1 |
|
| |
176.030 |
4.854.094 |
27,6 |
|
Í
liðnum "annað" eru fornöfn, töluorð, laus
greinir og stigbeygð atviksorð.
Beygingardæmin
Beygingarmyndir
nafnorðs eru 16, þ.e. fjögur föll í eintölu
og fleirtölu, án greinis og með greini, og eru afbrigði
þá ekki talin með.
Dæmi:
hestur
Beygingarmyndir
sagnar í persónuhætti eru 48, auk boðháttar
og lýsingarhátta en alls geta beygingarmyndir hverrar sagnar
orðið allt að 106, án afbrigða.
Dæmi:
hlaupa
Beygingarmyndir
lýsingarorðs sem tekur stigbreytingu eru allt að 120, án
afbrigða.
Dæmi:
góður
Afbrigði
Beygingarmyndum
getur fjölgað talsvert þegar afbrigði eru sýnd:
Dæmi:
hnífur, strönd,
þögull, flá
Eyður
í beygingardæmunum
Víða
eru eyður í beygingardæmunum, t.d. þar sem sögn
fyrirfinnst ekki í miðmynd, nafnorð ekki í fleirtölu
o.s.frv.:
Nafnorð
sem ekki er til í fleirtölu: fólk
Nafnorð sem aðeins er til í fleirtölu: buxur
Sögn sem ekki finnst í miðmynd: auðvelda
Sögn sem aðeins er til í miðmynd: íklæðast
Lýsingarorð sem stigbreytist ekki: dagsgamall
Orðaforði
og heimildir
Orðaforðinn
í beygingarlýsingunni er fenginn úr 3. útgáfu
Íslenskrar orðabókar (Edda
hf. 2000) og úr söfnum Orðabókarinnar, sérstaklega
úr íslenskum stofni íslensk-skandinavískrar
orðabókar sem unnið var að á árunum 1994-1999.
Helstu heimildir við rannsóknir á einstökum orðum
og beygingarflokkum eru Ritmálsskrá og Textasafn Orðabókarinnar,
auk handbóka, greina og ritgerða um íslenska málfræði.
Leiðréttingar
og viðbætur
Í útgáfu
3.0 verða viðbætur við orðaforðann úr gagnasöfnum
Orðabókarinnar og úr einum árgangi af Morgunblaðinu sem
skoðaður var í tengslum við vinnuna við
Emblu, leitarvél
Morgunblaðsins sem gerð er hjá Spurl ehf. Þá er bætt inn
orðum eftir ábendingum frá notendum. Áætlað er að
beygingardæmin í útgáfu 3.0 verði um 250 þúsund.
Villur í
beygingarlýsingunni eru leiðréttar eins fljótt og kostur er eftir
því sem ábendingar um þær berast. Allar athugasemdir eru vel
þegnar!
|