Talgreining á Ísmús og uppbygging textasafns fyrir eldra talmál

Nota gagnagrunninn

Opnað hefur verið fyrir aðgengi að gagnagrunninum og er hægt að nálgast hann hér.

Einnig er hægt að hlaða niður eigin upptökum inn í talgreiningu Tíró.

Um verkefnið

Þjóðfræðisafn Stofnunar Árna Magnússonar í íslenskum fræðum geymir 2000 klukkustundir af efni sem hljóðritað var á síðustu öld. Elstu upptökurnar eru frá 1903 en langflestar voru hljóðritaðar á sjöunda áratugnum og fram á þann níunda víðs vegar um landið. Efnið inniheldur meðal annars sagnir, ævintýri, kvæði, endurminningar og þjóðháttalýsingar. Stór hluti heimildarfólksins er fæddur á tímabilinu 1880–1910 og það kemur víðs vegar að af landinu.

Einnig var talsverðu efni safnað í á slóðum Vestur-Íslendinga í Norður-Ameríku. Upptökurnar eru aðgengilegar á vefnum ismus.is sem er samstarfsvefur Stofnunar Árna Magnússonar í íslenskum fræðum (SÁM) og Tónlistarsafns Íslands sem heyrir undir Landsbókasafn Íslands – Háskólabókasafn.

Markmiðið verkefnisins er að:

  • búa til textasafn sem verður afrakstur talgreiningar á hljóðupptökum úr þjóðfræðisafni Stofnunar Árna Magnússonar í íslenskum fræðum
  • þjálfa talgreiningarhugbúnað til að nota við talgreiningar á upptökum með svipaða eiginleika.

Slíkt textasafn er í raun og veru forsenda þess að hægt sé að rannsaka þjóðfræðaefnið og viðtölin í þjóðfræðisafninu bæði með aðferðum munnlegrar sögu og þjóðsagnafræði. Textasafnið er einnig nauðsynlegt til þess að málfræðirannsóknir á stíl, orðaforða, talanda og framburði heimildarfólksins, ásamt þróun á þessum atriðum, geti átt sér stað.

Stór hluti af uppbyggingu innviðanna felst í að þjálfa talgreiningarhugbúnað á dæmum af hljóðupptökum þar til greining á heildarsafninu skilar viðunandi árangri. Í lok verkefnisins verða leitarmöguleikar stórlega bættir þar sem hægt verður að leita mun nánar eftir efni, en einnig í málheildarviðmóti sem sniðið er að þörfum málfræðinga sem áhuga hafa á að rannsaka efnið.

Öll textagögnin verða gefin út með opnu leyfi og einnig hljóðupptökurnar nema í þeim fáu undantekingartilvikum þar sem viðmælendur settu fyrirvara um notkun efnis. Opinn aðgangur er nauðsynlegur til þess að efnið gagnist við margs konar rannsóknir í máltækni, sérstaklega talgreiningu.

Á ismus.is má leita að hljóðupptökum eftir heimildarfólki, stöðluðum efnisorðum sem að hluta lýsa innihaldi upptakanna en þar er einnig að finna útdrætti úr því efni sem farið er með og lýsa innihaldinu í stuttu máli. Þá eru þær einnig flokkaðar eftir formi og flutningsmáta. Með talgreiningu á upptökunum verður hægt að tengja uppskrift af viðtölunum við hljóðskrárnar og þannig bjóða upp á mun betri möguleika til leitar en nú eru í boði.

Á vefnum er einnig hægt að leita í Sagnagrunni, gagnagrunni yfir prentaðar sagnir í íslenskum þjóðsagnasöfnum sem geymir upplýsingar um yfir 10.000 þjóðsagnir og Ævintýragrunni, sem er sambærilegum gagnagrunni yfir íslensk ævintýri. Með uppskriftum þjóðfræðiefnis sem varðveitt er í hljóðritasafninu og talgreinirinn mun skapa aukast mjög möguleikar á samanburðarrannsóknum á sögnum, ævintýrum og því hvernig þjóðfræðiefni breytist í flutningi á ólíkum tímum.

Textasafnið verður gert aðgengilegt í sérstakri málheild sem aðgengileg verður ásamt öðrum málheildum á vefnum Risamálheildin þar sem hægt verður að leita í safninu út frá málfræðilegum þörfum. Með því að talgreina hljóðritasafnið, greina efnið málfræðilega og merkja það með lýsigögnum á borð við aldur upptöku, aldur þeirra sem tala, kyni og hvaðan þau eru skapast fjölmargir möguleikar til rannsókna, í þjóðfræði, sagnfræði, málfræði og máltækni. Þeir geta einnig vakið upp nýjar og ferskar rannsóknarspurningar á ýmsum sviðum menningarfræða.

Með því að vinna með efni hljóðskránna sem texta fæst mikilvæg tenging við þjóðfræðiefni á textaformi sem finna má í gagnagrunninum Sagnagrunnur sem geymir prentaðar íslenskar þjóðsögur og ævintýri. Þannig gefst tækifæri til að bera saman og rannsaka mismunandi gerðir þjóðsagna og annars munnlegs efnis, svo sem:

  • þegar „sama saga“ er sögð á mismunandi hátt af mismunandi fólki.
  • þegar farið er með bundið mál sem aðallega gengur í munnlegri hefð, svo sem kvæði, vísur og þulur, á mismunandi hátt.
  • þegar sami sagnaþulur segir sömu sögu eða fer með sömu vísu oftar en einu sinni.
  • hvernig sögur varðveitast og flytjast milli kynslóða og innan svæðis.
  • frásagnir einstakra hópa.
  • frásagnir Íslendinga í Vesturheimi.
  • frásagnir af sögulegum viðburðum og lýsingar á samfélagi sem nýst geta sagnfræðingum sem rannsaka munnlega sögu.

Talgögnin í þessu gagnasafni eru ólík öðrum íslenskum talmálheildum. Fyrst og fremst að því leyti að þau innihalda eldri upptökur en aðgengilegar eru fyrir, upptökur af eldra fólki, upptökur af flutningi á kveðskap og stundum óvenjulegt orðafar, auk þess sem gæði á upptökunum eru misjöfn. Þessir þættir, ef þeir eru vel skráðir og lýsigögn góð, geta orðið til þess að gögnin verði afar gagnleg við þjálfun á talgreinum sem miða að því að vinna með gögn sem hafa þessi séreinkenni, en ekki síður í rannsóknum, t.a.m. á því hvernig hægt er að greina óþekkt orð í tali, og mæli þeirra sem bera sum orð fram með öðrum hætti en venja er nú.

Textinn sem verður til eftir að allt efnið hefur verið talgreint verður settur upp sem sérstök málheild með sambærilegum hætti og aðrar íslenskar málheildir sem aðgengilegar eru á vefnum malheildir.arnastofnun.is.

Flestar íslenskar málheildir innihalda hefðbundið ritmál eða ritmál á einhverjum tilteknum sérsviðum. Málið í þessum upptökum er annars eðlis, talmál fólks sem fætt er á yfir 100 ára tímabili. Þetta efni eykur því á fjölbreytni þeirra rannsókna sem hægt er að vinna með íslensku málheildirnar, en þær hafa t.d. verið notaðar í málfræðirannsóknum, við orðabókagerð, við að búa til mállíkön í máltækni fyrir allt frá talgreinum og talgervlum til þýðingarvéla og nafnaþekkjara.