keresés

2018. november 15., csütörtök

Kéziratok átírása digitális bölcsészeti eszközzel

Kéziratok átírása digitális bölcsészeti eszközzel a régi könyves szakirányon : Beszámoló egy megvalósult projektről

A harmadéves régi könyves szakirányt választó hallgatók Muzeális gyűjtemények számítógépesítése c. órájának projektmunkájáról szeretnék beszámolni, és egyúttal egy hasznos alkalmazást bemutatni a régi könyvtári dokumentumok kereshetővé tételére.

A digitális bölcsészeti eszközök új lehetőségeket kínálnak a könyvtárak gyűjteményeiben található kéziratos vagy korai nyomtatott anyagok feldolgozására és közzétételére. A READ projekt keretében létrehozott Transkribus alkalmazással például át tudunk írni kéziratos állományokat valamint korai nyomtatványokat is, és a transzkripció végeztével akár kétrétegű PDF-ben is szolgáltathatjuk az OCR-programokkal még nem felismertethető művet. A program úttörő jellegét az adja, hogy bizonyos számú szavak begépelése után egy azonos kézírásból vagy szövegből el lehet kezdeni a számítógépes szövegfelismerő technológiát használni, a Handwritten Text Recognitioneszközt. A kéziratos szövegekből 15 000 szót ajánlanak transzkribálni, a régi folyóiratok vagy nyomtatványok esetén 5000 szót szükséges átírni ahhoz, hogy futtatni tudjuk a gépi felismerést. Az említett projektnél nem volt cél ekkora mennyiségű szöveget begépelni, egyelőre a kézi transzkripciót próbáltuk ki a rendszeren.

Előkészítés

A félév előkészítésekor egy olyan dokumentumot kerestem oktatóként az ELTE Egyetemi Könyvtár és Levéltár állományából, amely már digitalizáltan elérhető, magyarul írtak és egy szemeszter alatt befejezhető a hallgatókkal. A választás a könyvtári kollégákkal konzultálva, Dr. Knapp Évától és Dr. Várkonyi Gábortól tanácsot kérve a Báthory Erzsébet peranyaghoz tartozó, Kaprinai gyűjteményben fellelhető két kéziratra esett. Jelzetük: CollKaprB023_028_01 és CollKaprB005_031_01. Mindkettő dokumentum 14-14 oldalas.

Szegmentálás


A munkafolyamat

A félév kezdete előtt elvégeztem az előkészítő munkálatokat: 
  • szegmentáltam a Transkribus segítségével mindkét szöveget, ami azt jelenti, hogy az alkalmazásban elindítottam az automatikus felismerést a szövegtartományokra és a sorokra vonatkozóan, 
  • majd javítottam azon a néhány helyen, ahol rosszul jelölt az algoritmus. 
A tapasztalatok szerint körülbelül 90%-os volt a jelölés pontossága, tehát viszonylag kevés korrigálni való maradt. 
  • A félév során projektmunkában végeztük el a hallgatókkal a szöveg átírását, a tananyag mellett minden órán szántunk a transzkripcióra körülbelül fél órát, esetenként tömbösítve. 

Átírás

Tanulságok

A diákok hamar elsajátították a program alapfunkcióinak ismeretét
  • az elején a Java alapú platformot használtuk, 
  • majd az online felületet is, amelyhez a Transkribus fejlesztői biztosítottak kérésre hozzáférést. 
Az online felületen úgy éreztem, hogy könnyebb a munka, mert kevesebb lehetőség volt a szöveg formázási, szegmentálási beállításokra, lehetett koncentrálni csak az átírásra. 
  • Ha szükség volt még javításra a sorok bejelölésében, a Java-s alkalmazásban elvégeztem külön. 
  • A legnagyobb nehézséget a régi magyar szöveg nyelvezete jelentette, sok szót nem ismertek a hallgatók, bizonytalanok voltunk az átírásban is, ilyenkor törekedtünk a minél szó szerintibb transzkribálásra.
Exportálás


A projekt eredményéről

Az elkészült dokumentum mindenképpen egy nyersanyag, amelyet a téma kutatói reményeink szerint tudnak hasznosítani, és szabadon javíthatják, egységesíthetik a szöveget a tudományos normáknak megfelelően. 
  • Az átírt kézirat azért is érdekes a kutatói munka szempontjából, mivel Szádecky-Kardoss Irma könyvének (Báthory Erzsébet igazsága : a koncepció jelei Báthory Erzsébet ügyében / Szádeczky-Kardoss Irma.. - [Budapest] : Nesztor, cop. 1993) tanúsága szerint ez egy olyan peranyag (a "bűntársak" vallomásai, a kötetben a 68-88. oldalon), amely sokféle átiratban maradt ránk, és esetenként jelentős eltérések vannak a változatok között. 
  • Tudomásunk szerint a Kaprinai gyűjteményben fellelhető két verziót még nem vizsgálták ilyen szempontból.

Létrehozott fájlok, dokumentáló képernyőképek

Az alábbi linken megtekinthetők a végeredményben létrejött szövegek, amelyeket átolvastam és javítottam, ha félreolvasás történt. A Transkribus programból több formátumban is ki lehetett exportálni a dokuemtumokat: docx-ben, kétrétegű PDF-ben, txt-ben és TEI-XML-ben is. A következő mappában pedig látható néhány képernyőkép a Transkribus programból a különböző munkafázisokról.

További információk

A Transkribus-szal történő szöveg-átírásról: a 2018-ban az EKE szakmai napon elhangzott előadás: Mátyás Melinda-Virág Gabriella (ELTE Egyetemi Könyvtár és Levéltár): Muzeális gyűjtemények az ELTE intézményi repozitóriumában, az EDIT-ben, amely részben az alkalmazás bemutatásáról szólt elérhető itt (a vonatkozó idák a 22. oldaltól).

Mátyás Melinda

Nincsenek megjegyzések:

Megjegyzés küldése