kutatásiNapló: A webmegőrzés egy szisztematikus megközelítése

2019. december 5., csütörtök

A webmegőrzés egy szisztematikus megközelítése

A világháló már jó ideje az információ fizikai helytől független, gyors megosztásának eszközévé vált.
Amit azonban fontos belátni, hogy a világháló gyorsan növekvő információforrás ugyan, de rendkívül törékeny természetű. Az utóbbi években felismerték, hogy a digitális objektumok élettartama nagyon rövid, és a gyors technológiai változások megnehezítik az ezekhez való hozzáférést. Ennek következtében értékes információk tűnnek el, és válnak elérhetetlenné a következő generációk számára.

<a href="https://www.vecteezy.com/"> Vectors by Vecteezy</a>

Bevezetés

Muzammil Khan és Arif Ur Rahman tanulmánya számos kérdést igyekszik megválaszolni annak érdekében, hogy utat mutasson az archiválók számára. Ennek érdekében egy rendkívül részletes, jól felépített modellt mutatnak be - Open Archival Information System referenciamodell -, amely nagy segítség lehet a világhálón elérhető információk megőrzése során fellépő kihívások kezelésében. Egy lépésről-lépésre történő szisztematikus megközelítést vázolnak fel, mely egy jól szervezett, könnyen kezelhető webarchívumhoz vezet. Mivel a webmegőrzés a világháló komplex felépítése miatt nehézségekbe ütközik, ezért rendkívül hasznos lehet egy ilyen típusú, alapos kutatómunkát tükröző modell. A szerzők által ismertetett megközelítés a megőrzési folyamatot kis, megmagyarázható szakaszokra bontja. A megközelítések lehetséges technikáit minden lépésnél részletesen tárgyalják.

A webmegőrzés folyamatának lépései

Első lépésként az archiválandó web hatókörének meghatározását jelölték ki. Az archívum lehet:

Webhelyközpontú, mely egy adott webhelyre összpontosít.
Témaközpontú, mely az adott témában az interneten közzétett információkat a későbbi felhasználás, hivatkozás céljából menti le.
Domainközpontú, mely a domain névvel közzétett webhelyeket foglalja magában.

Második lépésként meg kell érteni a webszerkezetet. A háló két dimenzió által érthető meg. Az első az internetet olyan médiumnak tekinti, amely különböző tartalmakat kommunikál, a második a webet tartalomkonténernek tekinti, amely a tartalmat tovább ismerteti a használók számára.

Harmadik lépésként a webes erőforrások azonosítását jelölték ki. Egy weboldal két dolog kombinációja, a webtartalomé, mely szöveges, vizuális és multimédiás kategóriákba sorolható; továbbá a webszerkezeté, mely a megjelenés és a működési mód kategóriáit foglalja magába.

Negyedik lépésben az archiválóknak meg kell határozniuk a tervezett webarchívum kijelölt közösségét, azok funkcionális igényeit és a várható lekérdezéseiket.

Ötödik lépésként az archiválóknak fontossági sorrendbe kell állítaniuk a webes erőforrásokat. Az erőforrások rangsorolására a MoSCoW-módszer alkalmazását javasolják.

Hatodik lépésként el kell menteni az erőforrásokat. Ez egyrészt függ a rögzítendő erőforrásoktól, másrészt a rögzítés gyakoriságától. Három módszer létezik a webes erőforrások mentésére: a böngésző, a keresőrobot és szerzői rendszer. A tanulmány megismerteti az egyes eljárásokhoz tartozó különböző archiválási eszközöket is, valamint részletesen körbejárja az összes rögzítési módszer előnyeit és hátrányait.

Hetedik lépésben a webtartalom-kiválasztási irányelvet határozták meg, mely segít tisztázni, hogy mely webtartalmak legyenek rögzítendők a prioritások, a cél és a webes tartalom hatóköre alapján. A kiválasztási folyamat részfeladatokra osztható, azaz az előkészítésre, a felderítésre és a szűrésre. Az előkészítési szakasz fő célja meghatározni a megcélzott információs teret, a rögzítési technikát, a rögzítő eszközöket, a kiterjesztés kategorizálását, a részletesség szintjét és az archiválási tevékenység gyakoriságát. Az előkészítési szakaszban meghatározott eszközök lehetnek csomópontok (hubok), keresőmotorok, keresőrobotok és külső források. A felderítési szakasz fő célja az archívumban tárolni kívánt információ forrásának meghatározása. A szűrési fázis fő célja a felderített webtartalom optimalizálása és tömörítése.

A tanulmányban fellelhető négy különböző kiválasztási módszer a webtartalom gyűjtésére:

Nem szelektív megközelítés
Szelektív megközelítés
Letétgyűjtési megközelítés
Kombinált megközelítés

Nyolcadik lépésként azonosítani kell a metaadatokat. A metaadatok leíró, szerkezeti és adminisztratív metaadatok kategóriába sorolhatók. A digitális repozitóriumok gyorsan növekedtek az elmúlt két évtizedben, ami a könyvtári közösséget is arra készteti, hogy metaadat-stratégiákat dolgozzanak ki. A tanulmány röviden, a teljesség igénye nélkül tekint át az eddig kidolgozott metaadat-szabványok közül néhányat, mint például a Dublin Core Metadata Initiative vagy a PREMIS.

Kilencedik lépésként ki kell választani a megfelelő archiválási formátumot. A tanulmányból megtudhatjuk, hogy a webarchívum kezdeményezéseinek körülbelül 54%-a ARC és WARC formátumot alkalmazott az archiváláshoz.

Tizedik lépésben információ terjesztési mechanizmusokra van szükség a megőrzött digitális elemek elérése érdekében. A szerzők itt olyan hozzáférési eszközökről és technikákról tesznek említést, mint Lucene, a NutchWAX vagy a PageRank.

A tanulmány lezárásaként egy szakaszt a különböző forrásokból online közzétett hírek archiválásának szentel, és röviden ismerteti a javasolt megközelítés megvalósítását a digitális sajtóhírek megőrzési keretrendszerén belül.

Forrás:
KHAN, Muzammil - RAHMAN, Arif Ur: A Systematic Approach Towards Web Preservation. = Information Technology and Libraries, 38. köt. 1. sz. 2019. p. 71-90.
DOI: https://doi.org/10.6017/ital.v38i1.10181
URL: https://ejournals.bc.edu/index.php/ital/article/view/10181/pdf
Ref: Dobókői Krisztina, 2019

kutatásiNapló

keresés

2019. december 5., csütörtök

A webmegőrzés egy szisztematikus megközelítése

Nincsenek megjegyzések:

Megjegyzés küldése