keresés

2023. december 7., csütörtök

Egy audiovizuális aggregátor fejlesztése: a görögországi Open Audio-Visual Archives (OAVA) projekt.

 
 
A kép az eredeti cikkben található illusztráció
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Szerzők:
 
Afrodite Malliari
International Hellenic University, Department of Library, Archival & Information Studies
 
Ilias Nitsos
International Hellenic University, Department of Library, Archival & Information Studies
 
Sofia Zapounidou
Aristotle University of Thessaloniki, Library & Information Centre

Stavros Doropoulos
DataScouting
 
Eredeti cím:  
 
Development of an audio-visual aggregator: the Open Audio-Visual Archives (OAVA) project in Greece.

Forrás:

Malliari, Afrodite et al: Development of an audio-visual aggregator: the Open Audio-Visual Archives (OAVA) project in Greece. Trends and Issues in Library Technology. IFLA, June, 2022. p. 26-31. 

Összefoglaló:

Az online térben számos audiovizuális anyag létezik, melyeknek megtalálhatósága azonban sokszor problémába ütközik. Az anyagok sokfélék lehetnek, akárcsak az őket kezelő magán- vagy közintézmények, nincsenek egységesített metaadatrendszerek, a keresőmotorok pedig alacsony hatásfokkal indexelik ezeket a forrásokat. Ezt az intézményi és adatolási szétszórtságot legtöbb esetben hatékonyan tudja kezelni egy aggregációs szolgáltatás.

Görögországban az audiovizuális tartalmaknak nincs közös platformja, vagy nyilvántartása, ezért indult el az OAVA (Open Audio-Visual Archive) projekt, melynek célja a görög nyelvű vagy görög érdekeltségű audiovizuális tartalmak összegyűjtése, és online hozzáférhetővé tétele egy aggregátor-szolgáltatáson keresztül.
 
A projektben 500 görög nyelvű szolgáltatót vizsgáltak meg különböző kritériumok alapján, melyekből 233-at találtak alkalmasnak a projektben való részvételre. A metaadatokat EBUCore metaadat-sémával rögzítették, a keresési platform alapja pedig a VuFind szoftver konfigurált verziója lett.
 
A cikk egy görögországi audiovizuális aggregátor szükségességét vizsgálja, röviden bemutatja a projektben résztvevő adatszolgáltatók kiválasztásának kritériumait, a megfelelt adatszolgáltatók jellemzőit, az audiovizuális anyagok típusait, felhasználási engedélyeiket, majd bemutatja az OAVA-sémát, és a keresési mechanizmus lépéseit.

Bevezetés:

A bevezetésben a cikk kifejti, hogy miért jó választás egy aggregátor-szolgáltatás kiépítése az online térben különösen nehezen kereshető audiovizuális tartalmak hozzáférhetőségének javítására. Jó példaként már létező szolgáltatásokat sorol fel, mint például az Europeana, az ausztrál Trove, a svájci Memobase von Memoriav vagy az új-zélandi DigitalNZ. 

Kutatás:

A projekt első lépése a megfelelő audiovizuális adatszolgáltatók kiválasztása volt. A tartalom tekintetében az informatív tartalmakra koncentráltak, a projekt nem foglalkozott irodalmi vagy művészeti alkotásokkal. Fontos szempont volt ezen kívül a jogtiszta forrás, mivel az OAVA projekt célja nem csak a metaadatok közzététele volt, hanem a teljes szövegű hozzáférés is. Az audio tartalom felismerését és kereshető szöveggé alakítását NLP technológiával, mélytanuló nyelvi modell segítségével valósították meg. 
Az audiovizuális anyagok felkutatását referencia-könyvtárakban, internetes keresőkérdésekkel, illetve a potenciálisan forrásnak vélt weboldalak böngészésével oldották meg. A kiválasztott 500 weboldalt aztán CRAAP tesztel ellenőrizték, majd az itt megfelelt oldalakat további - a szakmai ajánlásoknak megfelelő - kritériumok alapján értékelték. Végül 233 weboldalt találtak alkalmasnak a további munkához. Megoszlás tekintetében a szolgáltatók nagy része egyetemi illetőségű volt, illetve a közszférából származott, emellett könyvtárak, levéltárak, múzeumok és magánszervezetek is kiválasztásra kerültek. 
A cikk itt említést tesz a felajánlott források típusairól, illetve a szolgáltató szervezetek engedélyezési és terjesztési gyakorlatáról.

Az OAVA-séma:

Mivel a kiválaszott tartalomszolgáltatók nem egységes séma szerint metaadatolták a tartalmaikat, az aggregáthoz szükség volt egy közös metadat-sémára. Ez lett az OAVA-séma ami részben az EBUCore-sémán alapul. A cikk rövid leírást ad az EBUCore -sémáról, megemlítve az OAVA -sémával való közös pontokat illetve eltéréseket, majd hosszabban beszél az OAVA-séma felépítéséről, a kialakított főosztályokról és osztályokról, illetve, hogy ezekben milyen típusú metaadatok kerülnek rögzítésre. Bemutatja továbbá a metaadatok aggregálásnak folyamatát, ehhez egy VuFind-szoftvert használnak, melynek sémáit úgy konfigurálták, hogy megfeleljen az OAVA-séma elemeinek. A folyamat során a VuFind a begyűjtött metaadatokat feldúsítja és leképezi az OAVA-sémára, melyekből így már a szemantikus szabványoknak megfelelő tripletek alakíthatóak ki.

Az OAVA felület:

Ebben a részben bemutatásra kerül a a platform működése, főbb összetevői, és ezek feladata a weboldalak aratásában, az új tartalmak feltérképezésében és továbbításában a felhasználói felületre. A platform nem csak folyamatosan monitorozza a csatlakozott weboldalakat, hanem a metaadatolást is elvégzi, illetve megadja a megfelelő elérési útvonalat is a multimédiás forráshoz.

Automata beszédfelismerés:

Az OAVA platform egyik fő feladata az automata beszédfelismerés, melyet NLP technológiával, deep-learning modellek segítségével végeznek, melyeket egyaránt kifejlesztették az angol és a görög nyelv felismerésére is. A cikk ismerteti, milyen modelleket alkalmaztak az angol nyelv esetében, illetve, hogyan, milyen adathalmazokon tanították fel a görög nyelvű verziót: a már meglévő görög szövegkorpuszokon kívül az OAVA-projekt keretében több mint 100 órányi anyagot írtak át a modell képzéséhez. Ezekhez főleg parlamenti közvetítések, hírcsatornák, egyetemi előadások és különféle rendezvények hanganyagait használták fel. Az így képzett görög nyelvi modell nagyon alacsony szóhiba-aránnyal (WER) működik. A beszédfelismerőbe beérkező hangot, a használt nyelvnek megfelelő nyelvi modul írott szöveggé alakítja, majd a megfelelő információ továbbítódik a VuFind felületre. A felhasznált multimédiás fájl ezután törlődik a rendszerből. Ezáltal lehetővé válik a multimédiás anyagok szövegeiben való keresés is.

Összességében ez a cikk egy tömör, de informatív összefoglalója egy olyan nagyszabású vállalkozásnak ami egységesen metaadatolt, teljes szöveggel elérhető - ezáltal a megfelelő szerzői jogi licencekkel rendelkező - audiovizuális tartalmak szolgáltatását tűzte ki célul. A téma, illetve az OAVA-projekt iránt érdeklődők figyelmébe ajánlom még a szerzőktől az alábbi cikket, mely részletesebben fejti ki a bevont szolgáltatók kiválasztásának kritériumait, a kiválasztás és szűrés munkamódszerét, az audiovizuális források kezelésének megfelelő és nem megfelelő intézményi gyakorlatait. Ezek mellett lehetséges stratégiákat javasol a kisebb szolgáltatóknak gyűjteménykezelési módszereik javítására.

Malliari, Afrodite et al: Mapping audiovisual content providers and resources in Greece. International Journal of Digital Libraries (2022) 23. p. 217-227. https://doi.org/10.1007/s00799-022-00321-6 (utolsó letöltés: 2023.12.07.)

Nincsenek megjegyzések:

Megjegyzés küldése