Walka ze spamem jako narzędzie digitalizacji książek – reCAPTCHA

Spam to jedno z największych zagrożeń dla internetu. Już teraz niechciane reklamowe wiadomości w skrzynkach mailowych, komentarzach na blogach czy nawet w SMS-ach wysyłanych na telefony komórkowe są źródłem dużych strat (amerykańska gospodarka traci przez to rocznie 71 miliardów dolarów). Dlatego walka ze spamem angażuje coraz to nowe środki i narzędzia. Jaki to ma jednak związek ze sprawą digitalizacji książek?

Otóż istnieje system zabezpieczeń określany jako CAPTCHA. To akronim od „Completely Automated Public Turing test to tell Computers and Humans Apart”. Rozwiązanie to po raz pierwszy zostało wprowadzone przez Yahoo! w 2000 roku, obecnie używany jest około 60 milionów razy dziennie. Działanie CAPTCHA zobaczyć można podczas prób wysyłania formularzy dostępnych na stronach www. Aby komentarz został zaakceptowany, skrypt musi upewnić się, że wysyła go człowiek a nie spamujący robot. Dlatego konieczne jest przepisanie w odpowiednie okno formularza specjalnie wygenerowanego kodu, którego z reguły nie potrafią odczytać automaty rozsyłające niechciane wiadomości. Działanie CAPTCHA zobaczyć można również w formularzu dodawania komentarza na tej stronie (patrz niżej).

captcha_przyklad.jpg
Przykład zabezpieczonego formularza

przyklad_ocr.jpg
Odczyt automatyczny (OCR) i wsparcie użytkowników reCAPTCHA

Z perspektywy kogoś, kto wypełnia formularz na stronie, CAPTCHA to rodzaj zła koniecznego, które jednak staje się powoli niezbędnym zabezpieczeniem. Na szczęście irytujące przepisywanie często trudnych do odczytania znaków można wykorzystać dla konkretnego, społecznego celu – digitalizacji tekstów, które później udostępniane są w Internet Archive. W projekcie reCAPTCHA osoby wypełniające formularze zabezpieczone tym systemem używają zamiast losowo generowanych zestawów znaków słowa pochodzące z digitalizowanych zasobów. Jest to wsparcie dla oprogramowania OCR (http://pl.wikipedia.org/wiki/OCR), które często nie radzi sobie z niektórymi słowami. Jeśli kilku użytkowników w ten sam sposób odczyta problematyczne słowo, trafia ono do słownika oprogramowania OCR i może być wykorzystywane automatycznie. Dzięki temu proces komputerowego odczytywania książek uzupełniany jest działaniem użytkowników internetu.

Na podstawie:reCAPTCHA: Digitizing Books and Saving the World from Form Spam.