Crowdsourcing w archiwum: 1940 Census Community Indexing Project

2 kwietnia amerykańskie archiwa narodowe – NARA (National Archives and Records Administration) otworzyły publiczny internetowy dostęp do danych z powszechnego spisu ludności Stanów Zjednoczonych z 1940 roku. Tego dnia minął 72 letni okres ochrony tego zasobu.

W bazie znajdują się informacje dotyczące ponad 132 mln mieszkańców USA, dotyczące m.in. wieku, płci, rasy, obywatelstwa, wykształcenia, stanu cywilnego, miejsca urodzenia i zamieszkania (wówczas aktualnego oraz przeszłych), dochodów czy zatrudnienia. Szczegółowe informacje dotyczące zadawanych pytań i struktury badania znajdują się na specjalnej stronie przygotowanej przez NARA. Krótki reportaż pokazujący pracę nad digitalizacją i przenoszeniem do internetu kart ze spisu powszechnego można obejrzeć poniżej:

Dane gromadzone w ramach spisu zapisywane były na niewielkich formularzach, które zostały zdigitalizowane i udostępnione jako pliki graficzne. Do tej pory udało się przygotować jedynie wyszukiwarkę, pozwalającą przeszukiwać skany poszczególnych kart po miejscu zamieszkania respondentów. Osoby, które chciałyby w pełni skorzystać z informacji cenzusowych, nie mają możliwości pełnotekstowego przeszukiwania całego zbioru. Nie istnieje też indeks nazwisk, chociaż ma on przecież podstawowe znaczenie w badaniach genealogicznych, socjologicznych czy historycznych – z naszej perspektywy choćby nad polską emigracją do USA w latach międzywojennych.

Próbą rozwiązania tego problemu jest 1940 Census Community Indexing Project, inicjatywa mająca na celu społecznościowe przygotowanie indeksu nazwisk pojawiających się w treści formularzy cenzusowych. NARA z instytucjami i firmami partnerskimi opracowała odpowiednie oprogramowanie, które każdy wolontariusz może ściągnąć na dysk i zainstalować, aby po pobraniu odpowiedniej paczki skanów rozpocząć transkrypcję.

Nawet pobieżna analiza tego projektu pozwala zauważyć elementy wpływające pozytywnie na jego zasięg i intensywność podejmowanych przez wolontariuszy prac. Wprowadzone zostały np. elementy rywalizacji między uczestnikami, którzy mogą brać udział w rozmaitych konkursach, gdzie warunkiem uczestnictwa staje się uzyskanie odpowiedniego wyniku w pracy nad indeksem. Wolontariusze współpracują w ramach grup, bazujących na lokalnych amerykańskich stowarzyszeniach historycznych czy genealogicznych. Każdy uczestnik inicjatywy, nawet niezwiązany formalnie z konkretną organizacją tego typu, pracuje nad transkrypcją wyłącznie w ramach którejś z nich. System pracy zorganizowano w taki sposób, aby jak najskuteczniej poprawiać pojawiające się błędy w przepisywaniu – transkrypcja przygotowana przez jednego wolontariusza podlega sprawdzeniu przez innych.

1940 Census Community Indexing Project obecny jest także intensywnie w mediach społeczościowych. Na Facebooku projekt ma ponad 19 tys. fanów. Przygotowano obszerną dokumentację dla uczestników projektu – przewodniki, szkoleniowe materiały video oraz szkolenia online (webinaria).

Według danych z 18 maja aktywnie w pracę nad indeksem włącza się 111 612 wolontariuszy (w blogu NARA w kwietniu przy starcie projektu informowano o ponad 250 tys. zgłoszeń chętnych do wzięcia w nim udziału). Przez siedem tygodni od startu akcji dodano do indeksu ponad 55 mln nazwisk (40 proc. przewidywanej liczby). Dziś w pełni gotowe są już indeksy kilku stanów – Delaware, Colorado, Kansas, Oregon, Virginia i New Hampshire.

Czy 1940 Census Community Indexing Project można uznać za dobry model crowdsourcingu w instytucjach archiwalnych? Chociaż kształt tego typu inicjatyw zależy w dużej mierze od materii, nad którą pracować mają wolontariusze, to na pewno rozwiązania tu przyjęte, takie jak przygotowanie dobrych materiałów szkoleniowych, współpraca z istniejącymi już środowiskami historycznymi i silne zaangażowanie w media społeczościowe mogą być uniwersalnym elementem każdego archiwalnego projektu wykorzystującego aktywność wolontariuszy działających online.