Az esettanulmányban nyílt forráskódú linkbejáró és webarchiváló programokat (pl.: Heritrix és Wayback Machine) teszteltek vállalati intraneten (MITRE
Intranet). A tanulmányban felvázolták azokat a helyzeteket, amelyekkel
szembe kellett nézniük, továbbá összegyűjtötték azokat a praktikákat,
amelyekkel elkerülhetők a kezdeti buktatók. Összesen 143 268 URI oldalt
(125GB adat 25 óra alatt) archiváltak. Ekkor viszont szembekerültek
azzal a problémával, hogy az intraneten számtalan bizalmas információt
tárolnak. Ennek a megoldására is adnak tanácsokat a cikkben. A cikk szerzői képekkel és kódrészletekkel is illusztrálták a tanulmányt a könnyebb érthetőségért.
Bevezetés
Az
internet egyik nagy előnye, hogy mindig naprakész. Ugyanekkor ez a
hátránya is, ugyanis a korábbi verziók felülíródnak, mert mindig csak a
legutóbbi módosított változat érhető el. Továbbá vannak anyagok, amelyek
idővel eltűnnek az internetről, mert a weboldal üzemeltetője már nem
foglakozik vele és nem fizeti be a következő évi díjat.
Az
interneten vannak olyan weboldalak amelyek webarchiválással
foglalkoznak, pl.: Wayback Machine, de mi a helyzet a vállalati
intranettel? Az archiválásról ott a vállalatnak kell gondoskodnia,
amelyhez ingyenes segítséget biztosít a Heritrix és a Wayback Machine
is. A MITRE egy non-profit vállalat, amit az amerikai szövetségi kormány
finanszíroz. Az archiválás során a Memento Framework terminology-t használtak (Megjegyzés: a korábbi változatokat úgy lehet visszanézni, mint a Wikipédián pl.: PHP laptörténete).
Korábbi tanulmány
A cikk szerzői a korábbi kutatásukban a SiteStory
programot használtak webarchiválásra, de annak ellenére, hogy csak
minimálisan terhelte a szervereiket, nem volt megoldható az érzékeny
adatok és a személyre szabott tartalom (pl.: JavaScript által) mentésének a megfelelően részletes beállítása.
A rendszer működése és beállítása
A
Wayback Machine nagyon leegyszerűsítve úgy működik, hogy a kapott
webcímről letölti az adatokat, majd ha később újra felkeresi, akkor csak
a módosításokat menti el a Web ARChive (WARC) fájlban. Ezek indexelve
vannak, és a felhasználok számára is hozzáférhetőek.
A cikk íróinak is egy ilyen rendszert szerettek volna, így egy virtuális gépen
elérhetővé tették az intranetet, majd ezen futtatták a programokat.
2015 szeptemberében fél éves projekttel számoltak. A feldolgozás
megkönnyítése érdekében a *.mitre.org címről 4000 olyan URI címet adtak
hozzá, amelyet gyakran kerestek fel a MITRE dolgozói, hogy azok gyorsan
hozzáférhetőek legyenek.
Az eredmények
Összesen négyszer futtatták le a programokat szeptemberben. A virtuális gépük
egy magos, 1GB memóriával és 125GB tárhellyel rendelkezett. A
kezdettben megadott 4000 címmel 25 óra alatt végzett. A Heritrix végül
143 268 egyedi címet gyűjtött össze 34GB-ban. Azonban a címeknek csak a
60%-a adott vissza http 200-as kódot (Megjegyzés: tehát élő, letölthető
oldal volt.). Ennek az egyike oka az volt, hogy voltak olyan tartalmak,
amelyek csak felhasználói hitelesítés után váltak hozzáférhetőkké,
továbbá voltak oldalak, amelyek csak JavaScript-es interakció útján
érhetőek el. Ezen kívül a MITRE saját fejlesztésű a Wikipedia, YouTube,
és GitHub oldalai se tudtak archiválásra kerülni.
Az érzékeny adatok
Ha
vannak olyan információk a weboldalakon, amelyekhez nem szükséges a
hitelesítés, de érzékeny adatok, akkor ezek védelmére nyújt lehetőséget a
robots.txt
fájl, amelyben a felhasználó megtilthatja, hogy az archivált oldal
nyilvánosan is elérhető legyen. Az archiválás során ezt a program
figyelembe fogja venni.
Hitelesítéshez kötött oldalak
A
weboldal számos tartalma csak egyedi felhasználónév és jelszó páros
birtokában férhető hozzá. Amikor a Heritrix ilyen beléptető rendszerrel
találta magát szembe, akkor ezeknek az oldalaknak egy része a
bejelentkezési oldalra irányította át. Bár a Heritrix képes belépni a
megfelelő adatok birtokában az ilyen típusú oldalakra is, a cikk írói az
érzékeny és bizalmas adatok védelme érdekében ezt az opciót nem
engedélyezték.
Saját fejlesztésű szolgáltatások és JavaScript
Mivel
a Heritrix nem hajtja végre a kliensoldalú JavaScriptet, így azon saját
fejlesztésű szolgáltatások, amelyek így működnek nem kerültek
archiválásra. Kivételt csak a MITRE MIITubeja képez, amelynek a működése
nagyon hasonló a Youtubehoz, ugyanis a videó előnézeti képét
JavaScripten keresztül tölti be, de HTTP GET-en keresztül adja vissza a képet, így lehet archiválni.
Érzékeny adatok felderítése
Az
archiválás során véletlenül bekerült érzékeny adatok komoly károkat
okozhatnak. Ennek elkerülése érdekében kisebb tárolóeszközöket érdemes
használni, továbbá ki kell fejleszteni egy olyan módszert, ami
segítségével felderíthetők, hogy mely oldalak tartalmazhatnak magas
illetve alacsony kockázatú érzékeny adatokat. Ezen kívül használjuk a
robots.txt-t, illetve az weboldalak fejlécében a X-Robots-Tag: noarchive
és a X-No-Archive: Yes utasításokat. A hitelesítő adatokkal való
archiválást pedig nem javasolják.
Saját fejlesztésű szolgáltatások és JavaScript
A JavaScriptet és a saját fejlesztésű szolgáltatások archiválásához a PhantomJS-t
ajánlják vagy más olyan programot ami képes a kliensoldalú JavaScript
futtatására. Ezáltal komplexebb oldalakat is lehet archiválni,
ugyanakkor ez sokkal több időt vesz igénybe. A cikk végén a szövegesen
leírt tartalmat egy táblázatban is összefoglalták.
Összefoglalás
Az
esettanulmány a végén úgy foglalja össze a tapasztalatokat, hogy a
nyílt forráskódú Wayback Machine és Heritrix kiválóan alkalmas a
vállalati webarchiválásra, ha megfelelően beállítjuk.
Eredeti
cím: Justin F. Brunelle [et. al.] - Leveraging Heritrix and the Wayback Machine on a
Corporate Intranet: A Case Study on Improving Corporate Archives / D-Lib Magazine Volume 22, Number 1/2 (January/February 2016)/
(Forrás: http://www.dlib.org/dlib/january16/brunelle/01brunelle.html)
Nincsenek megjegyzések:
Megjegyzés küldése