Jak duża część internetu jest zarchiwizowana?

W dyskusjach o archiwizowaniu internetu mówi się często o archiwalnej czarnej dziurze, perspektywie utraty współczesnych zasobów cyfrowych, które – jeśli nie zostaną podjęte odpowiednie działania – staną się niedostępne dla przyszłych pokoleń. Z drugiej strony w próbach pokazania znaczenia tego problemu brakuje często odwołań do konkretów – ile danych należy zarchiwizować, za pomocą jakiej metodologii, wreszcie – jaki procent zasobów już teraz jest zarchiwizowany? Na to ostatnie pytanie w swojej analizie odpowiadają naukowcy z amerykańskiego Old Dominion University.

Celem badań prowadzonych w okresie od listopada 2010 do stycznia 2011 roku było oszacowanie odsetka publicznie dostępnych adresów URI, które mają zabezpieczoną kopię dostępną w archiwach publicznych. Analizę rozpoczęto od wyselekcjonowania odpowiednich próbek (po 1000 adresów) z czterech źródeł: Open Directory Project (DMOZ) – budowanego przez ludzi katalogu stron internetowych, Delicious – serwisu zakładek społecznościowych, Bitly (popularnego serwisu umożliwiającego skracanie adresów internetowych, popularnego wśród użytkowników Twittera) oraz z indeksów wyszukiwarek internetowych (Google, Bing, Yahoo!). Próbki z Delicious generowane były losowo z listy ostatnio dodanych linków. Adresy z Bitly zostały wybrane na podstawie losowo generowanych znaków (w ten sposób kodowane są tam dodawane przez użytkowników adresy), które następnie zostały przekształcone na standard URI.

Po zdefiniowaniu próbek porównano je z zasobami Internet Archive (katalog Wayback Machine), zasobami przechowywanymi w pamięci podręcznej (cache) wyszukiwarek (Google, Bing, Yahoo!) i narzędzi takich jak Diigo, Archive-It, UK National Archives, WebCite. Zachowane archiwalne zasoby przeglądano za pomocą narzędzia Memento, również opracowanego na Old Dominion University. Analiza wykazała, że od 35 do 90 proc. stron WWW posiada przynajmniej jedną kopię archiwalną i że prawdopodobieństwo archiwizacji zależy od źródła, z jakiego pochodziły adresy URI.

Memento

Framework Memento (z którego korzystać można za po instalacji odpowiedniej wtyczki do przeglądarki) dodaje do protokołu przesyłania dokumentów hipertekstowych HTTP wymiar czasu, dzięki czemu użytkownik może wybrać czy chce oglądać współczesną, czy archiwalną wersję danego zasobu internetowego. Ułatwia to dostęp do przeszłych wersji zasobów sieciowych, które dzięki Memento stają się dostępne w łatwy sposób dla każdego użytkownika normalnej przeglądarki.

Technicznie projekt Memento podzielony jest na dwie płaszczyzny. Pierwsza z nich definiuje trzy typy źródeł. Są to:

1. Original Resource (OR)- zasoby sieci, które istnieją bądź istniały i udało się znaleźć ich archiwalną wersję.

2. Memento (M)- zasób sieciowy, którego uprzednia wersja Orginal Resource (OR) zawiera również informacje jaki był dany oryginalny zasób (OR) w określonym czasie.

3. Time Gate (TG)- zasób sieciowy, który decyduje w oparciu o wybraną przez użytkownika datę jakie Memento (M) najlepiej dopasowuje stan zasobu oryginalnego (OR) do tej daty.

Druga płaszczyzna pomaga w odkrywaniu całych partii zarchiwizowanych wersji danego zasobu sieciowego. W jej skład wchodzą dwa komponenty:

1. TimeMap (TM): Jest to mapa czasu oryginalnych zasobów (OR) zawierająca listę wszystkich dostępnych adresów URI Mementos (M) danego dostępnego zasobu oryginalnego (OR).

2. TimeBundle (TB) – jest zasobem, który pasuje do sieci semantycznej i podlinkowanych danych. Gromadzi on zasoby które powiązane są temporalnie z oryginalnym zasobem (OR)

Projekt Memento funkcjonuje również jako otwarty zestaw narzędzi, za pomocą których można tworzyć nowe rozwiązania wspierające archiwizację zasobów WWW.

Wyniki analizy

Badania wykazały, że ogromna większość zarchiwizowanych próbek URI pochodzących sprzed 2008 roku była zarchiwizowana głównie przez portal The Internet Archive. Porównanie próbek wykazało, że URI najskuteczniej archiwizowane były poprzez stworzenie co najmniej jednego Memento (M) w katalogu DMOZ (z którego bezpośrednio korzystają roboty Internet Archive) i w serwisie Delicious. Gorzej pod tym względem wypadają Bitly i wyszukiwarki. Prawdopodobieństwo zarchiwizowania adresu URI przez wyszukiwarki wynosiło 2/3 podczas gdy dla URI pobranych z Bitly zaledwie 1/3.

Okazało się też, że istnieje także słaba pozytywna korelacja pomiędzy popularnością danego zasobu i liczbą zarchiwizowanych kopii URI. Z kolei analiza liczby zarchiwizowanych URI pod kątem ich wieku pozwoliła ustalić, że 35-90 proc. URI ma przynajmniej jedną zarchiwizowaną kopię, 17-49 proc. ma od dwóch do 5 kopii, 1-8 proc. ma od 6 do 10 kopii archiwalnych i 8-63 proc. ma więcej niż 10 kopii. Liczbę zarchiwizowanych URI w zależności od źródła i archiwum prezentuje niniejsza tabela:

Ustalono również czynniki sprzyjające archiwizowaniu zasobów WWW. Jednym z najistotniejszych czynników jest tu potrzeba rozpowszechniania i upubliczniania adresów do ciekawych stron, na co wskazują wysokie współczynniki archiwizacji występujące w opartych na mechanizmach społecznościowych katalogach DMOZ i Delicious. Drugim czynnikiem sprzyjającym archiwizacji jest inspirowana przez wyszukiwarki ciekawość zachęcająca do odkrywania zasobów (search engine discoverability). Wyniki badań jednoznacznie wskazują, że największy zasięg – jeśli chodzi o archiwizację zasobów internetowych – ma Internet Archive.

Pytanie o to, jak duża część WWW została zarchiwizowana należy uzupełnić o wskazanie, o jaką część chodzi. W przypadku różnych indeksów procent zabezpieczonych zasobów przedstawia się różnie:

Archiwizacja zasobów internetowych staje się coraz bardziej istotną kwestią. Powstaje coraz więcej projektów i technologii, które służą zabezpieczaniu zasobów WWW. Kwestią tą interesują się nie tylko archiwiści, bibliotekarze czy historycy, ale też środowiska medioznawcze, zainteresowane dostępem do archiwalnych wersji analizowanych przez siebie zasobów internetowych. Na tak ujęty problem historii internetu zwraca uwagę w swoim artykule Cultural Software Lev Manovich. Dlaczego nie istnieje kompleksowa historia kulturowego oprogramowania (cultural software)? Wpływa na to – zdaniem Manovicha – m.in. polityka wydawców, którzy ze względów ekonomicznych nie są zainteresowani dostępnością na rynku starych wersji swoich produktów.

Więcej na temat badania:

Opis badania na blogu jego twórców oraz udostępniony raport.

Old Dominion U. Researchers Ask How Much of the Web Is Archived