Transkribus – tölvulestur handskrifaðra skjala

Nota innviðinn

Hér má nálgast íslensku módelin fyrir Transkribus. Hægt er að nota veflægt viðmót eða hlaða niður forritinu.

Við skráningu fylgir notkun upp á 500 einingar en einnig er hægt að kaupa viðbótareiningar, auk þess sem rannsakendur geta sótt um að fá einingar í gegnum MSHL.

Um verkefnið

Markmið verkefnisins er að bylta aðgengi að handskrifuðum heimildum á Íslandi, hvort sem þær eru frá 17. eða 20. öld.

Á undanförnum árum hefur verið þróaður hugbúnaður sem byggir á gervigreindartækni sem felur í sér að tölvur geta lesið mismunandi handskrift og þar með gert textann lesanlegan og leitarbæran með svipuðum hætti og prentað mál. Fremst í þeim flokki er forritið Transkribus.

Stærstur hluti alls ritmáls fyrir 20. öld er handskrifaður. Á Þjóðskjalasafni Íslands eru, svo dæmi sé tekið, að minnsta kosti 10-15 hillukílómetrar af handskrifuðu efni. Í handrita- og skjalasöfnum víða um land er gríðarlegt magn handritaðs texta, sem er að miklu leyti ekki sérlega aðgengilegur.

Í dag eru afar fáir sem geta lesið eldri handskrifaðan texta án yfirlegu og talsverðrar þjálfunar. Það er mikil vinna og krefst mikillar elju. Það er því brýnt að tækni á borð við þá sem Transkribus býður upp á sé innleidd hér á landi.

Með því að kaupa aðgengi að Transkribus og þróa hugbúnaðinn í þeim tilgangi að búa til íslenskan grunn fyrir handskrifaðan texta frá 17. öld til 20. aldar, og úrval af prentuðum texta með gotnesku letri, mun aðgengi að og möguleikar á nýtingu á handskrifuðum heimildum aukast margfalt.

Vefurinn timarit.is er vel þekktur og gott dæmi um hvernig tækni hefur gert öllum almenningi og fræðimönnum kleift að nýta sér leitarvélar til að leita í bæði prentuðu og vélrituðu efni. Þetta hefur haft í för með sér gríðarlegum vinnusparnaði og hagræði og nýir rannsóknamöguleikar hafa orðið til. Það verkefni byggði á tölvulestri með OCR tækni. Sú tækni ræður þó ekki við handskrifaðan texta eða texta prentaða með fátíðum leturgerðum eins og gotnesku letri.

Innleiðing og þróun Transkribus mun styðja verulega við uppbyggingu stafrænna gagnabanka yfir íslenskar heimildir, bæta við þá sem fyrir eru og auka gagnsemi gagnabanka yfir skjöl sem til eru í dag en ekki sem leitarbær texti. Má þar nefna sem dæmi:

  • Gagnagrunn um dómabækur sýslumanna,
  • gagnagrunn um sáttanefndabækur,
  • gagnagrunn um manntöl,
  • vef fyrir sóknarmanntöl,
  • gagnagrunn um dánarbú

og fleiri sem sjá má á vefnum heimildir.is. Einnig má nefna gagnagrunninn handrit.is þar sem eru lýsingar u.þ.b. þrettán þúsundum handritum, þar af hafa um þrjú þúsund handrit verið mynduð og fjöldi mynda er um 710 þúsund. Þessir gagnagrunnar hafa þegar haft umtalsverð áhrif á rannsóknir í sagnfræði hér á landi.

Íslensk skjala- og handritasöfn stefna að því að auka mjög stafræna miðlun skjala með þeim hætti að ljósrita eða skanna þau og setja inn á vefinn. Gallinn er þó að til þess að geta nýtt sér þá til fulls, þarf viðkomandi oftar en ekki að búa yfir skjalalestursþekkingu. Transkribus gæti því orðið til þess að nytsemi þessara fyrrnefndu innviða yrði hámörkuð

Tæknin sem liggur að baki Transkribus hefur ekki verið notuð hér á landi. Á sama tíma er skjalalestursþekking almennt á undanhaldi og sömuleiðis ákveðin tungumálaþekking sem er oft á tíðum nauðsynleg. Til að tryggja áframhaldandi rannsóknir á fyrri öldum er fjárfesting í innviðum á við Transkribus nauðsynleg.

Transkribus mun auðvelda aðgengi að heimildum, auðvelda rannsóknir á rituðum heimildum og gera textaleit mögulega. Það mun opna á aukið aðgengi að skjölum og handritum fyrri alda og notkun heimilda sem hafa lítið verið notaðar í rannsóknum. Þessi innviður er til þess fallinn að vera mjög eflandi fyrir aðgengi allra að heimildum.

Íslenska hefur ákveðin sérkenni sem mörg önnur tungumál hafa ekki. Broddstafir svo sem í, á, é og ó og sérstafi eins og þ og ð. Þetta gerir það að verkum að ekki er fyllilega hægt að byggja á lestri annarra tungumála. Því er nauðsynlegt að byggja upp íslenskan lesgrunn sem verður í framhaldinu aðgengilegur fyrir þá sem vilja nýta sér hann við lestur texta.

Áætlað er að nauðsynlegt sé að keyra inn u.þ.b. 15 rithendur á hverri öld til að byggja upp lesgrunninn. Það eru því um 60 ólíkar rithendur sem þarf að lesa og keyra inn í grunn fyrir tímabilið frá upphafi 17. aldar fram á 20. öld. Í upphafi er val á rithöndum mikilvægt og nauðsynlegt að horfa til mismunandi stafgerðar og ritháttar Leitað verður að rithöndum í skjala- og handritasöfnum og þau valin af kostgæfni

Sérfræðingar á íslenskum söfnum munu leggja sérþekkingu sína inn í þetta verkefni, sem mun nýtast þeim mörgu sem hafa ekki treyst sér til að lesturs. Allir sem þurfa að nýta sér slíka  heimildir við rannsóknir munu spara tíma og í raun fá aðgang að gríðarstórum gagnabanka efnis, sem hefur að miklu leyti verið óaðgengilegum nema með gríðarlegri yfirlegu í söfnum.