Tim Hitchcock: wyszukiwanie pełnotekstowe i przezroczystość archiwum

Jak dostępność w internecie baz danych z pełnymi treściami dokumentów archiwalnych wpływa na pracę historyka? Profesor Tim Hitchcock w artykule Digital Searching and the Re-formulation of historical knowledge opisuje zmianę modelu nauki historycznej, w której archiwum przestaje odgrywać tak doniosłą jak kiedyś rolę. Tłem tez autora jest m.in. projekt The Old Bailey Proceedings, w ramach którego opublikowano w internecie pełne treści ponad 197 tys. dokumentów londyńskiego Central Criminal Court z lat 1674-1913.

The Virtual Representation of the Past to zbiór artykułów inicjujący serię wydawniczą Digital Research in the Arts and Humanities, prowadzoną przez wydawnictwo Ashgate. W pierwszym tomie serii opublikowano m.in. artykuł Digital Searching and the Re-formulation of historical knowledge, którego autorem jest Tim Hitchcock, profesor historii XIX-wieku na University of Hertfordshire, jeden z twórców projektu The Old Bailey Proceedings. I właściwie od omówienia tego projektu należałoby zacząć skrótowe przedstawienie tez artykułu i cały komentarz.

The Old Bailey Proceedings

wysz1

Serwis The Old Bailey Proceedings udostępnia pełnotekstową bazę treści dokumentów z prac brytyjskiego Centralnego Trybunału Karnego w latach 1674-1913. Znajdziemy tam dokumentację ponad 197 tys. spraw karnych, które w większości dotyczyły ludzi z niższych sfer, przez co jest to doskonałe źródło wiedzy o dawnej obyczajowości i mentalności. Autorzy serwisu przygotowali także obszerne opracowania dotyczące historii Old Bailey i brytyjskiego systemu karnego.

Jednak ja chciałbym zwrócić uwagę bardziej na metodologiczną stronę tej inicjatywy niż na jej historyczną treść. Zbudowanie bazy danych, w której użytkownik przeszukiwać może treść a nie tylko opis historycznego dokumentu wymagało wielu starań. W pierwszym etapie realizacji projektu treść dokumentów Old Bailey była ręcznie przepisywana do komputera – zastosowano metodę double rekeying, w której każdy materiał był przepisywany dwa razy przez dwie różne osoby. W ten sposób udało się uniknąć wielu błędów. W drugim etapie projektu (obejmującym materiały z lat 1834-1913) każdy dokument był raz przepisywany i raz skanowany i poddawany obróbce OCR. Następnie porównywano obie wersje. Wszystkie dokumenty są oczywiście dostępne także w formie graficznej (przygotowano wersje TIFF w rozdzielczości 400dpi, które zostały zarchiwizowane oraz wersje JPG i GFI udostępniane online).

Efektem pracy jest baza danych, w której przeszukiwać możemy treść dokumentów historycznych (120 milionów słów dla całego zasobu) posługując się słowami kluczowymi. Właśnie tę jakościową zmianę w stosunku do przeszukiwania samych opisów opisuje Tim Hitchcock w swoim artykule, budując w oparciu o nią swoją teorię zmian w metodologii i filozofii nauki historycznej.

Stary model: triumfujące archiwum

Od oświecenia w świecie Zachodu historia jako praktyka naukowa – jak podkreśla Hitchcock – opiera się na autorytecie. W artykułach historycznych dostępne są przypisy odnoszące do fizycznie istniejących publikacji, które uwiarygodniają budowaną narrację. System naukowy ma charakter hierarchiczny, jego podstawą są instytucje (akademia, archiwum, biblioteka), posiada też specjalistyczny język. Podstawą systemu badania przeszłości jest szczegółowa analiza źródeł. Obieg naukowy funkcjonuje dzięki rozmaitym instytucjom i czasopismom. Nawet jeśli – zauważa Hitchcock – źródła, artykuły naukowe czy czasopisma coraz częściej czytamy w formie cyfrowej, wersja elektroniczna jest jedynie dodatkową formą istnienia tych treści, bazującą wciąż na fizycznych nośnikach: zadrukowanych stronach czasopism naukowych dostępnych w bibliotekach, źródeł fizycznie dostępnych w archiwum itp. Z fizyczną obecnością treści historycznych związane jest istnienie instytucji, której funkcjonowanie gwarantować ma rzetelność udostępnianej wiedzy i być źródłem zaufania społeczeństwa do korporacji historyków.

Ten XIX model zachwiany został przez idee postmodernizmu, które stały się inspiracją do krytycznego spojrzenia nie tylko na na pozorną obiektywność historyka-autora względem opisywanej przeszłej rzeczywistości, ale także na znaczenie instytucji (muzeum, archiwum, akademii) jako jednego z wielu elementów wpływających na konstrukcję historycznej narracji: postmodernism has forced us to question the validity of history as a ‚truth claim’, and to query the methodologies that underpin it. Ostatecznie przecież program nauczania akademickiego promować może określoną metodologię lub zainteresowania badawcze, układ zbiorów w archiwum może być odwzorowaniem określonego spojrzenia na historię…

Podstawy nauki historycznej nie zmieniły się jednak, rola instytucji nie osłabła, źródła – chociaż zaczęto patrzeć na nie bardziej podejrzliwie – wciąż są podstawą wszelkiej analizy. Hitchcock bardzo ciekawie przypomina jeszcze o jednej sferze, która charakteryzuje stary model nauki historycznej: to emocje związane z kontaktem z dokumentami z przeszłości: the first moment when you are confronted by the paper and parchment remains of long-dead generations is an immensely powerful one that historians frequently romanticize. Bez archiwum – instytucji umożliwiającej bezpośredni fizyczny kontakt z tymi dokumentami – takie wrażenia nie byłyby możliwe.

Tymczasem postęp digitalizacji zasobów archiwalnych i obecność w internecie cyfrowych wersji czasopism naukowych wpływa na model nauki historycznej. Hitchcock nie pisze o rewolucji – nikt nie kwestionuje przecież elementarnych zasad prowadzenia badań naukowych – stary model raczej ewoluuje w nowy. W nowych okolicznościach zmienia się też znaczenie archiwum. Kluczowa jest dostępność wyszukiwania pełnotekstowego w treści zdigitalizowanych i opublikowanych w internetowych bazach danych źródeł – to na nim głównie koncentruje się autor artykułu.

Nowy model: przezroczyste archiwum

Na czym polegać ma zmiana? Tim Hitchcock pisze (także w kontekście projektu The Old Bailey Proceedings): we choose a search term, or a collection of them, and search indiscriminately throught literature, and the records of crime, through electronic catalogues, and newspapers. In the process the requirement (or even the opportunity) to understand the context out which any indyvidual element of information comes frequently disappears. Images suffer this fate even more completely. The heady hierarchy of knowledge created by the heroic cataloguers if the neinteenth century has become an historical artefact in its own right. Dostępność pełnotekstowych baz danych z treścią dokumentów historycznych redukuje rolę archiwum: wyszukując za pomocą słów kluczowych w całej bazie liczącej miliony wyrazów odrzucamy hierarchiczną strukturę zasobów (podział na zespoły i jednostki archiwalne) – ta struktura wciąż fizycznie istnieje, w internecie jest jednak niewidoczna i nie ma większego znaczenia. Znika (przynajmniej na poziomie wyszukiwania) ważność rodzajów (gatunków) źródeł – w pełnotekstowej bazie ich treść dostępna jest na tych samych zasadach. Autor nie używa co prawda terminu przezroczyste archiwum, ale wydaje mi się, że warto takie pojęcie wprowadzić przy analizowaniu opisywanego tu modelu.

Hitchcock wskazuje, że nowa technika przeszukiwania zbiorów radically transforms the nature of what historians do: dzieje się to w dwóch aspektach. Po pierwsze, redukowane jest społeczne znaczenie archiwów względem historyków (if historians speak for the archives, their role is largely finished, as the material they contain is newly liberated and endlessly replicated). Po drugie – skoro badania historyczne (jak przekonuje Hitchcock) uwalniają się od wpływu archiwistów, od przygotowywanych przez nich schematów porządkujących zbiory, historycy mogą w nowy sposób spojrzeć na dostępne zasoby, zmienić sposób narracji: what changes when we examine the world through the collected fragments of knowledge that we can recover about a single person, reorganized as a biographical narrative, rather than as a part of an archival system?

Artykuł z The Virtual Representation of the Past warto uznać za inspirację do szerszej dyskusji nad wpływem masowej digitalizacji zasobów archiwalnych i udostępniania on-line pełnotekstowych baz archiwalnych na pracę historyka i znaczenie instytucji archiwum. Na pewno nie ma sensu mówić o upadku archiwum, które wciąż jest niezwykle istotnym elementem infrastruktury nauki historycznej. Nie podzielam zasygnalizowanych w artykule tez o uwolnieniu się historyka od wpływu pracy archiwisty (tutaj pokazywanej jako czynnik wpływający bezpośrednio na narracje budowane przez historyka). Nawet jeśli korzystamy całkiem swobodnie z pełnotekstowych zasobów źródeł on-line, za ich przygotowanie, wybór, redakcję wciąż odpowiada archiwista.

9780754672883

Artykuł Digital Searching and the Re-frmulation of historical knowledge przeczytać można w całości on-line dzięki usłudze Google Books.
Więcej informacji o książce znajduje się na stronie wydawcy.

Zob. też: Tim Hitchcock i the Infinite Archive