Na tej stronie piszemy o nowej humanistyce i relacjach między historią a mediami (zwłaszcza internetem) | Poleć nas na Facebooku
 
 

Walka ze spamem jako narzędzie digitalizacji książek – reCAPTCHA

Spam to jedno z największych zagrożeń dla internetu. Już teraz niechciane reklamowe wiadomości w skrzynkach mailowych, komentarzach na blogach czy nawet w SMS-ach wysyłanych na telefony komórkowe są źródłem dużych strat (amerykańska gospodarka traci przez to rocznie 71 miliardów dolarów). Dlatego walka ze spamem angażuje coraz to nowe środki i narzędzia. Jaki to ma jednak związek ze sprawą digitalizacji książek?

Otóż istnieje system zabezpieczeń określany jako CAPTCHA. To akronim od „Completely Automated Public Turing test to tell Computers and Humans Apart”. Rozwiązanie to po raz pierwszy zostało wprowadzone przez Yahoo! w 2000 roku, obecnie używany jest około 60 milionów razy dziennie. Działanie CAPTCHA zobaczyć można podczas prób wysyłania formularzy dostępnych na stronach www. Aby komentarz został zaakceptowany, skrypt musi upewnić się, że wysyła go człowiek a nie spamujący robot. Dlatego konieczne jest przepisanie w odpowiednie okno formularza specjalnie wygenerowanego kodu, którego z reguły nie potrafią odczytać automaty rozsyłające niechciane wiadomości. Działanie CAPTCHA zobaczyć można również w formularzu dodawania komentarza na tej stronie (patrz niżej).

captcha_przyklad.jpg
Przykład zabezpieczonego formularza

przyklad_ocr.jpg
Odczyt automatyczny (OCR) i wsparcie użytkowników reCAPTCHA

Z perspektywy kogoś, kto wypełnia formularz na stronie, CAPTCHA to rodzaj zła koniecznego, które jednak staje się powoli niezbędnym zabezpieczeniem. Na szczęście irytujące przepisywanie często trudnych do odczytania znaków można wykorzystać dla konkretnego, społecznego celu – digitalizacji tekstów, które później udostępniane są w Internet Archive. W projekcie reCAPTCHA osoby wypełniające formularze zabezpieczone tym systemem używają zamiast losowo generowanych zestawów znaków słowa pochodzące z digitalizowanych zasobów. Jest to wsparcie dla oprogramowania OCR (http://pl.wikipedia.org/wiki/OCR), które często nie radzi sobie z niektórymi słowami. Jeśli kilku użytkowników w ten sam sposób odczyta problematyczne słowo, trafia ono do słownika oprogramowania OCR i może być wykorzystywane automatycznie. Dzięki temu proces komputerowego odczytywania książek uzupełniany jest działaniem użytkowników internetu.

Na podstawie:reCAPTCHA: Digitizing Books and Saving the World from Form Spam.

pixelstats trackingpixel

• • •

Kategorie: Narzędzia

Skrócony link: Kopiuj adres odnośnika

Udostępnij na Facebooku

Kliknij tutaj, aby wygenerować przejrzystą wersję do czytania lub wydruku

Być może zainteresują Cię też te artykuły:

  1. Cyfrowe wczasy w Chrzelicach: obóz digitalizacji lokalnego dziedzictwa

 

Komentarzy: 2

Dodaj komentarz »

 
  • No tak tylko w jaki sposób te obrazki będą weryfikowane ?? Jeżeli przed pokazaniem obrazka nie wiemy co na nim jest ??

     
     
     
  • But if a computer can’t read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here’s how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.
    http://recaptcha.net/learnmore.html

     
     
     
  • Your gravatar
    Imię
     
     

    Można używać podstawowych znaczników XHTML w treści komentarza. Podany w formularzu mail nigdy nie będzie publikowany. Redakcja zastrzega sobie prawo edycji lub usunięcia komentarza, jeśli jego treść nie odnosi się do treści artykułu lub narusza zasady netykiety.

     
     

Kathy Charmaz, Teoria ugruntowana. Praktyczny przewodnik po analizie jakościowej

Książka – jak wskazuje podtytuł – nie oferuje jedynie abstrakcyjnej wiedzy teoretycznej. Autorka prowadzi czytelnika przez cały proces badawczy: od stworzenia koncepcji, poprzez zbieranie danych, aż do ich analizy oraz zaprezentowania w formie tekstu naukowego. Wszytko zaś w duchu konstruktywistycznej odmiany teorii ugruntowanej.

R.S.: Z tymi opisami w polskich bibliotekach cyfrowych też nie zawsze jest najlepiej. W słowach kluczowych jest jeden...

Monika: Chciałabym również zaprosić na swojego bloga poświęconego historii oraz odtwórstwu historycznemu z okresu...

J.: Swietnie to moze polskie zasoby nie sa opisane bo bilioteki cyfrowe to zywe organizmy i chciazby to co dawno bylo...

Agnieszka: Miło mi, że Antiquitates znalazły się na liście, dziękuję :) Pozwolę sobie dorzucić w związku z tym blog,...

Lena: Wzruszyłam się, gdy uświadomiłam sobie, że należę do barbarzyńców epoki przejściowej, którzy wprawdzie z...

mw: Archiwalia przechowywane przez TVP wcale do niej nie należą i nigdy nie należały (nawet te powstałe po 1994 r.)...

gds: Niestety, o tym w szkole dowiedzieć się nie mogłem :/ Trochę z innej beczki – muzykę w tle zapowiedzi sam...

FortArt: Dziękuję, za umieszczenie mojego reklamowego bloga w tym zaszczytnym miejscu. Zgłaszam zatem istnienie...

Michał: Jako autor bloga ‘Kadrinazi’ jest mi niezwykle miło, że moje wypociny znalazły się w tak...

R.S.: Są też blogi Dudka i Żaryna na Salonie24 (http://antoni.dudek.salon24.p l/; http://jan.zaryn.salon24.pl/)

Agnieszka: formularz dotyczy osób zgłaszających wystąpienie; a czy można uczestniczyć biernie czyli wpaść posłuchać?

Radosław: Moja praca to przekrój szeroko na pojętej rekonstrukcji historycznej. Poza tym praca ta ma na celu pewne...

Hanna Staszewska: No dobrze:) Przeczytałam jeszcze raz artykuł MR i po raz kolejny muszę się zgodzić z jego tezami....

Piotr: Nie postulowałem, żebyś robił błędy techniczne ani jakiekolwiek inne. Nie rób jednak przede wszystkim błędów...

Maciej Rynarzewski: Chyba warto w tym momencie zakończyć dyskusję nim powiedziane zostanie zbyt wiele słów. Ja ze...

Zachęcamy do zgłaszania informacji o wydarzeniach, nowych publikacjach, interesujących serwisach internetowych i artykułach dostępnych online. Aby wysłać wiadomość, skorzystaj z poniższego formularza.

Imię i nazwisko (wymagane)

Adres e-mail (wymagane)

Prosimy wybrać temat wiadomości

Treść wiadomości

Prosimy przepisać kod z obrazka:
captcha


Kilka razy w miesiącu wysyłamy tekstowego maila z informacją o nowych materiałach dostępnych na stronie. Nie publikujemy reklam, a czasem nawet rozdajemy książki. Subskrybuj newsletter.

Najnowsze materiały (opublikuj swój)
doswiadczyc

Broszura do pobrania

Publikacja jest wyborem artykułów opublikowanych w ciągu kilku lat istnienia serwisu. Zebrane tu teksty opisują projekty, koncepcje i wyzwania związane z funkcjonowanie instytucji pamięci (archiwów, muzeów) we współczesnym zmediatyzowanym, wielokulturowym społeczeństwie. Jakie strategie działania przyjmują te instytucje wobec gwałtownego rozwoju Internetu?

Pobierz: Historia, nowe media i instytucje pamięci (349)

 

Serwis objęty jest patronatem Polskiego Towarzystwa Historycznego oraz portalu historycznego Histmag.org

Od 9 stycznia 2010 Historia i Media jest projektem Fundacji Nowoczesna Polska.

Dofinansowano ze środków Muzeum Historii Polski w Warszawie w ramach programu „Patriotyzm Jutra"