Trzy argumenty przeciwko archiwizowaniu internetu

Jeżeli słyszymy o dziedzictwie cyfrowym i zabezpieczaniu dla przyszłych pokoleń zasobów WWW, które nie mają i nigdy nie miały swojej analogowej formy (born digital), niemal automatycznie potrafimy od razu podać racjonalne kontrargumenty podważające zasadność i możliwość realizacji takich działań. Na nasze wątpliwości próbuje odpowiedzieć w Web Archiving – wydanej w 2006 roku książce-podręczniku opisującym metodologię archiwizacji internetu – Julien Masanés. Masanés od wielu lat zajmuje się tym tematem, był m.in. szefem programu archiwizacji internetu we francuskiej Bibliotece Narodowej oraz współtworzył Internet Preservation Consortium. Dziś jest dyrektorem zarządu Internet Memory Foundation – odpowiedzialnej za projekt European Archive, gdzie z perspektywy ogólnoeuropejskiej szuka wsparcia dla projektów archiwistyki internetowej i edukuje na temat idei cyfrowego dziedzictwa.

Jakie są więc te trzy najbardziej rozpowszechnione modele krytyki idei archiwizowania zasobów Sieci? To argument odnoszący się do (1) jakości treści dostępnych online, do (2) natury internetu jako przestrzeni, która sama się archiwizuje oraz do poglądów mówiących o tym, że (3) ze względu na skalę i koszty archiwizacji Sieci tego typu projekty nie mają racji bytu.

1. Archiwizacja internetu jest nieracjonalna ze względu na jakość zabezpieczanych zasobów

Ten punkt widzenia – jak pisze Julien Masanés – od dawna podnoszony jest przez przedstawicieli świata druku – wydawców czy bibliotekarzy i łączy się z poczuciem zagrożenia wywołanego ekspansją nowych cyfrowych mediów. Przedstawiciele starego systemu dystrybucji wiedzy nie potrafią przyjąć, że internet rozszerzył granice publikowania i formaty treści. Masanés przypomina, że historycznie rzecz biorąc limit tego, co mogło być publikowane, przez ostatnie ponad pięć wieków wyznaczały koszty fizyczne (skład książki, przechowywanie, transport itp.). Granice w bibliotekach czy archiwach wyznaczała przede wszystkim konieczność zapewnienia fizycznej przestrzeni do gromadzenia książek lub dokumentów. To zakorzenienie w fizyczności przenoszone jest na problem cyfrowego dziedzictwa. Okazuje się, że zupełnie niepotrzebnie, ponieważ właściwości formatu cyfrowego redukują do minimum problemy związane z gromadzeniem i przechowywaniem danych (przynajmniej w wymiarze ilości danych a nie ich wieczystego zabezpieczania). Ostatecznie dzięki temu filtrowanie zasobów wchodzących do archiwum może zostać ograniczone do niezbędnego minimum i zabezpieczyć można bardzo szeroki zakres treści dostępnych online.

Pozostaje jeszcze kwestia jakości filtrów i ich konstrukcji, jednak wyzwania, jakie wobec procesu selekcji danych generuje skala wielkości treści dostępnych w internecie nie powinny być rozpatrywane przeciwko archiwizacji internetu, raczej stać się inspiracją do działań w celu zwiększenia skuteczności już istniejących narzędzi i metod. Masanés proponuje nawet modele takiego filtrowania, oparte m.in. o współpracę między internautami a archiwistami. Pojawia się tu nawet koncepcja powszechnej, oddolnej archiwizacji internetu, w której każdy użytkownik na własną rękę zabezpiecza swoją część zasobów Sieci – już dziś katalogujemy przecież w przeglądarkach strony, które kiedyś odwiedziliśmy i uznaliśmy, że mogą być przydatne w przyszłości.

2. Archiwizacja internetu jest nieracjonalna, ponieważ internet archiwizuje się sam

Zdaniem Juliena Masanésa podstawą takiego poglądu jest błędne przeświadczenie o tym, że technologia, na której oparty jest internet, w naturalny sposób wspiera jego samoarchiwizację. Przy takim punkcie widzenia zasoby zasługujące na zabezpieczenie na przyszłość będą archiwizowane na oryginalnych serwerach (które teraz je udostępniają), reszta po prostu zostanie usunięta. W odpowiedzi autor podkreśla duży problem efemeryczności zasobów internetowych – badania pokazują, że przeciętne życie strony WWW trwa nawet 50 dni (Zob. Cho, J., Garcia-Molina, H., The evolution of the web and implications for an Incremental Crawler. Paper presented at the Proceedings of the 26th International Conference on Very Large Data Bases) – w tym czasie połowa stron WWW przestaje istnieć. Problemem jest nie tylko fizyczne usunięcie treści, ale także zmiana jej URI.

3. Archiwizacja internetu jest nieracjonalna ze względu na koszty takiej inicjatywy i wielkość zasobów

Nawet ci, którzy są przekonani co do idei archiwizowania internetu, nie potrafią uwierzyć w to, że taki projekt ma jakiekolwiek szanse powodzenia. I to z różnych względów – nie tylko ilości danych, ale też ich formy czy statusu prawnego. Tymczasem Masanés podkreśla, że – jeśli chodzi o potencjalną skalę gromadzonych zasobów – warto odnosić ją zawsze do wciąż rosnących pojemności przechowywania i malejących kosztów nośników. Większym problemem jest włączenie w proces archiwalny zasobów z ukrytego internetu, pozostającego poza zasięgiem robotów wyszukiwarek. To, że można z powodzeniem archiwizować powierzchniowy (surface) internet udowadnia od lat Internet Archive.

Jeśli chodzi o kwestie związane z ochroną prywatności, Masanés podkreśla, że archiwizowany jest Web (strony internetowe i zasoby dostępne przez protokół http). Zasoby WWW są z reguły publicznie dostępne (właśnie na dostępności opiera się przecież idea World Wide Web). Komunikacja mailowa nie jest w ogóle objęta procesem archiwizowania, bo korzysta z zupełnie innych protokołów, niedostępnych dla botów budujących archiwum.

W dalszej części rozdziału znaleźć można przynajmniej jeszcze jeden ważny argument za koniecznością podejmowania działań archiwizujących zasoby WWW. Sieć (Web) jest po prostu bogatym artefaktem kultury, hipertekstowym i dostępnym globalnie, zazwyczaj za darmo, z każdego miejsca na świecie podłączonego do internetu. Jest także otwartego i rozproszonego autorstwa.

Przyznam się, że odpowiedzi Masanésa nie usunęły części moich wątpliwości. Najbardziej trafił do mnie argument pokazujący, że to, w jaki sposób definiujemy archiwum i jego filtry zależy w dużym stopniu od dominującej formy gromadzonych zasobów. Instytucje, które powstały wokół kultury druku – zastanawiając się nad problemem dziedzictwa cyfrowego – muszą przestawić się z trybu analogowego na cyfrowy. Z drugiej strony, ponieważ Web Archiving wydano w 2006 roku, Julien Masanés nie mógł odnieść się do moim zdaniem coraz ważniejszej i interesującej perspektywy archiwizacji internetu, czyli sieci społecznościowych online, rozumianych nie tylko przez pryzmat treści, jakie powstają w ich ramach, ale także relacji między użytkownikami. Archiwizacja SNS to jednak już zdecydowanie większe wyzwania związane z ochroną prywatności i dynamiczną formą gromadzonych danych.

• • •


Web Archiving,
Masanès, Julien (Ed.)
Berlin New York: Springer, 2006.

W książce pod redakcją Juliena Masanésa znaleźć można omówienia najważniejszych zagadnień związanych z problemem archiwizacji zasobów internetowych. Oprócz przedstawienia generalnej idei zabezpieczania cyfrowego dziedzictwa, Masanés przedstawia w Web Archiving także zasady selekcji materiałów przy budowaniu archiwów tego typu oraz zwraca uwagę na wyzwania związane z budowaniem zbiorów zasobów ukrytej Sieci (Hidden Web), treści internetowych, które z różnych względów nie są obecne w indeksach popularnych wyszukiwarek.

W innych rozdziałach książki omawiane są zagadnienia teoretyczne i metodologiczne – projektowanie badań w oparciu o zgromadzone zasoby internetowe czy już bardzo techniczne wskazania najlepszych praktyk kopiowania obiektów internetowych i eksploracji tego typu danych. Publikację uzupełnia krótki rys historyczny pokazujący ewolucję projektów archiwizacji zasobów cyfrowych.

Warto zapoznać się również ze studium przypadku akademickiego projektu archiwizacyjnego DASH, prowadzonego przez instytuty sinologiczne na uniwersytetach w Heidelbergu i Lejdzie. Okazuje się, że tego typu działania, planowane na zdecydowanie mniejszą skalę niż to ma miejsce choćby w przypadku Internet Archive, mają ogromny potencjał związany z możliwością docierania do nowych, unikalnych zasobów, pomijanych często przez automatycznie działające boty.

Na fotografii: Julien Masanés, fot. CC-BY-NC Harald Walker