keresés

2016. április 16., szombat

Esettanulmány a vállalati webarchiválásról

Az esettanulmányban nyílt forráskódú linkbejáró és webarchiváló programokat (pl.: Heritrix és Wayback Machine) teszteltek vállalati intraneten (MITRE Intranet). A tanulmányban felvázolták azokat a helyzeteket, amelyekkel szembe kellett nézniük, továbbá összegyűjtötték azokat a praktikákat, amelyekkel elkerülhetők a kezdeti buktatók. Összesen 143 268 URI oldalt (125GB adat 25 óra alatt) archiváltak. Ekkor viszont szembekerültek azzal a problémával, hogy az intraneten számtalan bizalmas információt tárolnak. Ennek a megoldására is adnak tanácsokat a cikkben. A cikk szerzői képekkel és kódrészletekkel is illusztrálták a tanulmányt a könnyebb érthetőségért.

Bevezetés
Az internet egyik nagy előnye, hogy mindig naprakész. Ugyanekkor ez a hátránya is, ugyanis a korábbi verziók felülíródnak, mert mindig csak a legutóbbi módosított változat érhető el. Továbbá vannak anyagok, amelyek idővel eltűnnek az internetről, mert a weboldal üzemeltetője már nem foglakozik vele és nem fizeti be a következő évi díjat.
Az interneten vannak olyan weboldalak amelyek webarchiválással foglalkoznak, pl.: Wayback Machine, de mi a helyzet a vállalati intranettel? Az archiválásról ott a vállalatnak kell gondoskodnia, amelyhez ingyenes segítséget biztosít a Heritrix és a Wayback Machine is. A MITRE egy non-profit vállalat, amit az amerikai szövetségi kormány finanszíroz. Az archiválás során a Memento Framework terminology-t használtak (Megjegyzés: a korábbi változatokat úgy lehet visszanézni, mint a Wikipédián pl.: PHP laptörténete). 

Korábbi tanulmány
A cikk szerzői a korábbi kutatásukban a SiteStory programot használtak webarchiválásra, de annak ellenére, hogy csak minimálisan terhelte a szervereiket, nem volt megoldható az érzékeny adatok és a személyre szabott tartalom (pl.: JavaScript által) mentésének a megfelelően részletes beállítása.

A rendszer működése és beállítása
A Wayback Machine nagyon leegyszerűsítve úgy működik, hogy a kapott webcímről letölti az adatokat, majd ha később újra felkeresi, akkor csak a módosításokat menti el a Web ARChive (WARC) fájlban. Ezek indexelve vannak, és a felhasználok számára is hozzáférhetőek.
A cikk íróinak is egy ilyen rendszert szerettek volna, így egy virtuális gépen elérhetővé tették az intranetet, majd ezen futtatták a programokat. 2015 szeptemberében fél éves projekttel számoltak. A feldolgozás megkönnyítése érdekében a *.mitre.org címről 4000 olyan URI címet adtak hozzá, amelyet gyakran kerestek fel a MITRE dolgozói, hogy azok gyorsan hozzáférhetőek legyenek.

Az eredmények
Összesen négyszer futtatták le a programokat szeptemberben. A virtuális gépük egy magos, 1GB memóriával és 125GB tárhellyel rendelkezett. A kezdettben megadott 4000 címmel 25 óra alatt végzett. A Heritrix végül 143 268 egyedi címet gyűjtött össze 34GB-ban. Azonban a címeknek csak a 60%-a adott vissza http 200-as kódot (Megjegyzés: tehát élő, letölthető oldal volt.). Ennek az egyike oka az volt, hogy voltak olyan tartalmak, amelyek csak felhasználói hitelesítés után váltak hozzáférhetőkké, továbbá voltak oldalak, amelyek csak JavaScript-es interakció útján érhetőek el. Ezen kívül a MITRE saját fejlesztésű a Wikipedia, YouTube, és GitHub oldalai se tudtak archiválásra kerülni.

Az érzékeny adatok
Ha vannak olyan információk a weboldalakon, amelyekhez nem szükséges a hitelesítés, de érzékeny adatok, akkor ezek védelmére nyújt lehetőséget a robots.txt fájl, amelyben a felhasználó megtilthatja, hogy  az archivált oldal nyilvánosan is elérhető legyen. Az archiválás során ezt a program figyelembe fogja venni.

Hitelesítéshez kötött oldalak
A weboldal számos tartalma csak egyedi felhasználónév és jelszó páros birtokában férhető hozzá. Amikor a Heritrix ilyen beléptető rendszerrel találta magát szembe, akkor ezeknek az oldalaknak egy része a bejelentkezési oldalra irányította át. Bár a Heritrix képes belépni a megfelelő adatok birtokában az ilyen típusú oldalakra is, a cikk írói az érzékeny és bizalmas adatok védelme érdekében ezt az opciót nem engedélyezték.

Saját fejlesztésű szolgáltatások és JavaScript
Mivel a Heritrix nem hajtja végre a kliensoldalú JavaScriptet, így azon saját fejlesztésű szolgáltatások, amelyek így működnek nem kerültek archiválásra. Kivételt csak a MITRE MIITubeja képez, amelynek a működése nagyon hasonló a Youtubehoz, ugyanis a videó előnézeti képét JavaScripten keresztül tölti be, de HTTP GET-en keresztül adja vissza a képet, így lehet archiválni.

Érzékeny adatok felderítése
Az archiválás során véletlenül bekerült érzékeny adatok komoly károkat okozhatnak. Ennek elkerülése érdekében kisebb tárolóeszközöket érdemes használni, továbbá ki kell fejleszteni egy olyan módszert, ami segítségével felderíthetők, hogy mely oldalak tartalmazhatnak magas illetve alacsony kockázatú érzékeny adatokat. Ezen kívül használjuk a robots.txt-t, illetve az weboldalak fejlécében a X-Robots-Tag: noarchive és a X-No-Archive: Yes utasításokat. A hitelesítő adatokkal való archiválást pedig nem javasolják.

Saját fejlesztésű szolgáltatások és JavaScript
A JavaScriptet és a saját fejlesztésű szolgáltatások archiválásához a PhantomJS-t ajánlják vagy más olyan programot ami képes a kliensoldalú JavaScript futtatására. Ezáltal komplexebb oldalakat is lehet archiválni, ugyanakkor ez sokkal több időt vesz igénybe. A cikk végén a szövegesen leírt tartalmat egy táblázatban is összefoglalták.

Összefoglalás
Az esettanulmány a végén úgy foglalja össze a tapasztalatokat, hogy a nyílt forráskódú Wayback Machine és Heritrix kiválóan alkalmas a vállalati webarchiválásra, ha megfelelően beállítjuk.

Eredeti cím: Justin F. Brunelle [et. al.] - Leveraging Heritrix and the Wayback Machine on a Corporate Intranet: A Case Study on Improving Corporate Archives / D-Lib Magazine Volume 22, Number 1/2 (January/February 2016)/ (Forrás: http://www.dlib.org/dlib/january16/brunelle/01brunelle.html)

Nincsenek megjegyzések:

Megjegyzés küldése