polecamy

Walka ze spamem jako narzędzie digitalizacji książek - reCAPTCHA

09.12,2007
Marta Goyszny

Spam to jedno z największych zagrożeń dla internetu. Już teraz niechciane reklamowe wiadomości w skrzynkach mailowych, komentarzach na blogach czy nawet w SMS-ach wysyłanych na telefony komórkowe są źródłem dużych strat (amerykańska gospodarka traci przez to rocznie 71 miliardów dolarów). Dlatego walka ze spamem angażuje coraz to nowe środki i narzędzia. Jaki to ma jednak związek ze sprawą digitalizacji książek?

Otóż istnieje system zabezpieczeń określany jako CAPTCHA. To akronim od “Completely Automated Public Turing test to tell Computers and Humans Apart”. Rozwiązanie to po raz pierwszy zostało wprowadzone przez Yahoo! w 2000 roku, obecnie używany jest około 60 milionów razy dziennie. Działanie CAPTCHA zobaczyć można podczas prób wysyłania formularzy dostępnych na stronach www. Aby komentarz został zaakceptowany, skrypt musi upewnić się, że wysyła go człowiek a nie spamujący robot. Dlatego konieczne jest przepisanie w odpowiednie okno formularza specjalnie wygenerowanego kodu, którego z reguły nie potrafią odczytać automaty rozsyłające niechciane wiadomości. Działanie CAPTCHA zobaczyć można również w formularzu dodawania komentarza na tej stronie (patrz niżej).

captcha_przyklad.jpg
Przykład zabezpieczonego formularza

przyklad_ocr.jpg
Odczyt automatyczny (OCR) i wsparcie użytkowników reCAPTCHA

Z perspektywy kogoś, kto wypełnia formularz na stronie, CAPTCHA to rodzaj zła koniecznego, które jednak staje się powoli niezbędnym zabezpieczeniem. Na szczęście irytujące przepisywanie często trudnych do odczytania znaków można wykorzystać dla konkretnego, społecznego celu - digitalizacji tekstów, które później udostępniane są w Internet Archive. W projekcie reCAPTCHA osoby wypełniające formularze zabezpieczone tym systemem używają zamiast losowo generowanych zestawów znaków słowa pochodzące z digitalizowanych zasobów. Jest to wsparcie dla oprogramowania OCR (http://pl.wikipedia.org/wiki/OCR), które często nie radzi sobie z niektórymi słowami. Jeśli kilku użytkowników w ten sam sposób odczyta problematyczne słowo, trafia ono do słownika oprogramowania OCR i może być wykorzystywane automatycznie. Dzięki temu proces komputerowego odczytywania książek uzupełniany jest działaniem użytkowników internetu.

Na podstawie:reCAPTCHA: Digitizing Books and Saving the World from Form Spam.

Komentarzy: 2 dodaj komentarz →
  1. 13.12, 2007
    janek (www)

    No tak tylko w jaki sposób te obrazki będą weryfikowane ?? Jeżeli przed pokazaniem obrazka nie wiemy co na nim jest ??

  2. 13.12, 2007

    But if a computer can’t read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here’s how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.
    http://recaptcha.net/learnmore.html

Dodaj komentarz

Uwaga: Można używać podstawowych znaczników XHTML w treści komentarza. Podany w formularzu mail nigdy nie będzie publikowany. Redakcja zastrzega sobie prawo edycji lub usunięcia komentarza, jeśli jego treść nie odnosi się do treści artykułu lub narusza zasady netykiety.

Istnieje możliwość subskrybowania informacji o nowych komentarzach do tego artykułu za pomocą kanału RSS

Dodając komentarz pomagasz digitalizować starodruki