A harmadéves régi könyves szakirányt választó hallgatók Muzeális gyűjtemények számítógépesítése c. órájának projektmunkájáról szeretnék beszámolni, és egyúttal egy hasznos alkalmazást bemutatni a régi könyvtári dokumentumok kereshetővé tételére.
A digitális bölcsészeti eszközök új lehetőségeket kínálnak a könyvtárak gyűjteményeiben található kéziratos vagy korai nyomtatott anyagok feldolgozására és közzétételére. A READ projekt keretében létrehozott Transkribus alkalmazással például át tudunk írni kéziratos állományokat valamint korai nyomtatványokat is, és a transzkripció végeztével akár kétrétegű PDF-ben is szolgáltathatjuk az OCR-programokkal még nem felismertethető művet. A program úttörő jellegét az adja, hogy bizonyos számú szavak begépelése után egy azonos kézírásból vagy szövegből el lehet kezdeni a számítógépes szövegfelismerő technológiát használni, a Handwritten Text Recognitioneszközt. A kéziratos szövegekből 15 000 szót ajánlanak transzkribálni, a régi folyóiratok vagy nyomtatványok esetén 5000 szót szükséges átírni ahhoz, hogy futtatni tudjuk a gépi felismerést. Az említett projektnél nem volt cél ekkora mennyiségű szöveget begépelni, egyelőre a kézi transzkripciót próbáltuk ki a rendszeren.
Előkészítés
Létrehozott fájlok, dokumentáló képernyőképek
A félév előkészítésekor egy olyan dokumentumot kerestem oktatóként az ELTE Egyetemi Könyvtár és Levéltár állományából, amely már digitalizáltan elérhető, magyarul írtak és egy szemeszter alatt befejezhető a hallgatókkal. A választás a könyvtári kollégákkal konzultálva, Dr. Knapp Évától és Dr. Várkonyi Gábortól tanácsot kérve a Báthory Erzsébet peranyaghoz tartozó, Kaprinai gyűjteményben fellelhető két kéziratra esett. Jelzetük: CollKaprB023_028_01 és CollKaprB005_031_01. Mindkettő dokumentum 14-14 oldalas.
Szegmentálás
A munkafolyamat
A félév kezdete előtt elvégeztem az előkészítő munkálatokat:
- szegmentáltam a Transkribus segítségével mindkét szöveget, ami azt jelenti, hogy az alkalmazásban elindítottam az automatikus felismerést a szövegtartományokra és a sorokra vonatkozóan,
- majd javítottam azon a néhány helyen, ahol rosszul jelölt az algoritmus.
A tapasztalatok szerint körülbelül 90%-os volt a jelölés pontossága, tehát viszonylag kevés korrigálni való maradt.
- A félév során projektmunkában végeztük el a hallgatókkal a szöveg átírását, a tananyag mellett minden órán szántunk a transzkripcióra körülbelül fél órát, esetenként tömbösítve.
Átírás
Tanulságok
A diákok hamar elsajátították a program alapfunkcióinak ismeretét
- az elején a Java alapú platformot használtuk,
- majd az online felületet is, amelyhez a Transkribus fejlesztői biztosítottak kérésre hozzáférést.
Az online felületen úgy éreztem, hogy könnyebb a munka, mert kevesebb lehetőség volt a szöveg formázási, szegmentálási beállításokra, lehetett koncentrálni csak az átírásra.
- Ha szükség volt még javításra a sorok bejelölésében, a Java-s alkalmazásban elvégeztem külön.
- A legnagyobb nehézséget a régi magyar szöveg nyelvezete jelentette, sok szót nem ismertek a hallgatók, bizonytalanok voltunk az átírásban is, ilyenkor törekedtünk a minél szó szerintibb transzkribálásra.
Exportálás
A projekt eredményéről
Az elkészült dokumentum mindenképpen egy nyersanyag, amelyet a téma kutatói reményeink szerint tudnak hasznosítani, és szabadon javíthatják, egységesíthetik a szöveget a tudományos normáknak megfelelően.
- Az átírt kézirat azért is érdekes a kutatói munka szempontjából, mivel Szádecky-Kardoss Irma könyvének (Báthory Erzsébet igazsága : a koncepció jelei Báthory Erzsébet ügyében / Szádeczky-Kardoss Irma.. - [Budapest] : Nesztor, cop. 1993) tanúsága szerint ez egy olyan peranyag (a "bűntársak" vallomásai, a kötetben a 68-88. oldalon), amely sokféle átiratban maradt ránk, és esetenként jelentős eltérések vannak a változatok között.
- Tudomásunk szerint a Kaprinai gyűjteményben fellelhető két verziót még nem vizsgálták ilyen szempontból.
Létrehozott fájlok, dokumentáló képernyőképek
Az alábbi linken megtekinthetők a végeredményben létrejött szövegek, amelyeket átolvastam és javítottam, ha félreolvasás történt. A Transkribus programból több formátumban is ki lehetett exportálni a dokuemtumokat: docx-ben, kétrétegű PDF-ben, txt-ben és TEI-XML-ben is. A következő mappában pedig látható néhány képernyőkép a Transkribus programból a különböző munkafázisokról.
További információk
A Transkribus-szal történő szöveg-átírásról: a 2018-ban az EKE szakmai napon elhangzott előadás: Mátyás Melinda-Virág Gabriella (ELTE Egyetemi Könyvtár és Levéltár): Muzeális gyűjtemények az ELTE intézményi repozitóriumában, az EDIT-ben, amely részben az alkalmazás bemutatásáról szólt elérhető itt (a vonatkozó idák a 22. oldaltól).
Mátyás Melinda
Nincsenek megjegyzések:
Megjegyzés küldése