Archiwum Twittera w Bibliotece Kongresu

Ponad rok temu (w kwietniu) Biblioteka Kongresu ogłosiła rozpoczęcie prac nad systemem archiwizacji tweetów – krótkich 140-znakowych wiadomości wysyłanych przez użytkowników Twittera. Plany archiwizacji dotyczyły wszystkich publicznych wpisów publikowanych od 2006 roku.

Zdecydowano się na ten krok uznając, że archiwum Twittera – jako zapis komunikacji, wymiany opinii, komentarzy do bieżących wydarzeń politycznych i przejawów nowych społecznych trendów – stał się częścią dziedzictwa kulturowego, które należy chronić dla przyszłych pokoleń. Już w roku podjęcia decyzji o archiwizowaniu twittów w serwisie publikowanych było dziennie około 50 milionów wiadomości tego typu, wysyłanych bezpośrednio ze strony i z rozmaitych aplikacji mobilnych. Dziś szacuje się, że dzienne archiwum Twittera liczy około 140 milionów wiadomości, składających się nie tylko z treści komunikatu wysyłanego przez użytkownika, ale rozmaitych metadanych.

Jakie wyzwania stoją przed Biblioteką Kongresu? Obok kwestii długoterminowego przechowywania tych zasobów (istniejących jedynie w formie cyfrowej) pojawia się problem skutecznego opracowania tak ogromnej bazy danych i udostępniania jej naukowcom (socjologom, historykom) w użytecznej formie. Dużym problemem mogą być odnośniki do stron zewnętrznych, publikowane w ramach standardowych twitterowych wiadomości. Mają one z reguły (dla zaoszczędzenia miejsca w 140-znakowym komunikacie) formę zakodowaną, która funkcjonuje o tyle, o ile dostępny jest zewnętrzny system pozwalający na jej odkodowanie. Chociaż Biblioteka Kongresu zarchiwizuje wiadomości z takimi odnośnikami to pozostaną one nieczytelne, jeśli znikną serwisy umożliwiające prawidłowe odczytanie skróconych linków. Być może ten problem uda się rozwiązać dzięki projektowi 301works realizowanemu przez Internet Archive. Więcej na ten temat przeczytać można w artykule na O’Reilly Radar.

Czy archiwum Twittera może być wartościowym źródłem historycznym? Bardzo ciekawą opinię na ten temat znalazłem w NYT w artykule komentującym nawiązanie współpracy między Twitterem a Biblioteką Kongresu. Cytowana tam Amy Murrell Taylor (historyk ze State University of New York) przyznaje, że pojedyncze wiadomości nie mają żadnej wartości, jednak już analiza milionów wpisów może mieć jakiś potencjał badawczy: When you look at it Tweet by Tweet, it looks like junk. But it could be really valuable if looked through collectively. Taylor zwraca też uwagę na charakter twitterowej komunikacji, która ma być mniej zapośredniczona (zmedializowana) niż tradycyjny obieg informacji oparty o korespondentów i redakcje: Most of our sources are written after the fact, mediated by memory — sometimes false memory. And newspapers are mediated by editors. Tweets take you right into the moment in a way that no other sources do. That’s what is so exciting.


Spam to nawet ponad 10 proc. wiadomości publikowanych codziennie na Twitterze. Tego typu wpisy również podlegają archiwizacji

Z drugiej strony system Twittera umożliwia niezwykle łatwe replikowanie raz już opublikowanych wpisów, wciąż też (choć coraz lepiej) zmaga się ze spamem. Niechciane treści reklamowe, niezliczone wersje tych samych informacji i zwiększająca się wciąż objętość archiwum czyni z Twittera system, który może być bardzo trudno wykorzystać w badaniach kwantytatywnych i który może łatwo fałszować ich wyniki.