Historia i Media

Podstawowe informacje o stronie

Relacje między historią a mediami, kultura historyczna, oddolne inicjatywy edukacyjne, nowe kierunki w humanistyce, potencjał digital history i digital humanities - to treść projektu Historia i Media. Więcej »

Newsletter

wysyłany kilka razy w miesiącu

Subskrypcja newslettera to najprostszy sposób na otrzymywanie informacji o nowych publikacjach, konferencjach i zasobach internetowych związanych z tematyką serwisu.

W druku

książki i czasopisma »

Tematem najnowszego numeru czasopisma Res Publica Nowa (3/2009) jest śmierć historii. Ta dość radykalna teza jest punktem wyjścia do rozważań na temat obecności historii we współczesnych społeczeństwach oraz jej relacji z pamięcią, kulturą i systemem państwowej edukacji.

 

Walka ze spamem jako narzędzie digitalizacji książek – reCAPTCHA

Spam to jedno z największych zagrożeń dla internetu. Już teraz niechciane reklamowe wiadomości w skrzynkach mailowych, komentarzach na blogach czy nawet w SMS-ach wysyłanych na telefony komórkowe są źródłem dużych strat (amerykańska gospodarka traci przez to rocznie 71 miliardów dolarów). Dlatego walka ze spamem angażuje coraz to nowe środki i narzędzia. Jaki to ma jednak związek ze sprawą digitalizacji książek?

Otóż istnieje system zabezpieczeń określany jako CAPTCHA. To akronim od “Completely Automated Public Turing test to tell Computers and Humans Apart”. Rozwiązanie to po raz pierwszy zostało wprowadzone przez Yahoo! w 2000 roku, obecnie używany jest około 60 milionów razy dziennie. Działanie CAPTCHA zobaczyć można podczas prób wysyłania formularzy dostępnych na stronach www. Aby komentarz został zaakceptowany, skrypt musi upewnić się, że wysyła go człowiek a nie spamujący robot. Dlatego konieczne jest przepisanie w odpowiednie okno formularza specjalnie wygenerowanego kodu, którego z reguły nie potrafią odczytać automaty rozsyłające niechciane wiadomości. Działanie CAPTCHA zobaczyć można również w formularzu dodawania komentarza na tej stronie (patrz niżej).

captcha_przyklad.jpg
Przykład zabezpieczonego formularza

przyklad_ocr.jpg
Odczyt automatyczny (OCR) i wsparcie użytkowników reCAPTCHA

Z perspektywy kogoś, kto wypełnia formularz na stronie, CAPTCHA to rodzaj zła koniecznego, które jednak staje się powoli niezbędnym zabezpieczeniem. Na szczęście irytujące przepisywanie często trudnych do odczytania znaków można wykorzystać dla konkretnego, społecznego celu – digitalizacji tekstów, które później udostępniane są w Internet Archive. W projekcie reCAPTCHA osoby wypełniające formularze zabezpieczone tym systemem używają zamiast losowo generowanych zestawów znaków słowa pochodzące z digitalizowanych zasobów. Jest to wsparcie dla oprogramowania OCR (http://pl.wikipedia.org/wiki/OCR), które często nie radzi sobie z niektórymi słowami. Jeśli kilku użytkowników w ten sam sposób odczyta problematyczne słowo, trafia ono do słownika oprogramowania OCR i może być wykorzystywane automatycznie. Dzięki temu proces komputerowego odczytywania książek uzupełniany jest działaniem użytkowników internetu.

Na podstawie:reCAPTCHA: Digitizing Books and Saving the World from Form Spam.

pixelstats trackingpixel
 

• • •

Kategorie: Narzędzia

Komentarze: 2

Dodaj komentarz »

 
  • No tak tylko w jaki sposób te obrazki będą weryfikowane ?? Jeżeli przed pokazaniem obrazka nie wiemy co na nim jest ??

     
     
     
  • But if a computer can’t read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here’s how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.
    http://recaptcha.net/learnmore.html

     
     
     
  • Dodaj komentarz
     
    Twój gravatar
    Imię
     
     
     

    Można używać podstawowych znaczników XHTML w treści komentarza. Podany w formularzu mail nigdy nie będzie publikowany. Redakcja zastrzega sobie prawo edycji lub usunięcia komentarza, jeśli jego treść nie odnosi się do treści artykułu lub narusza zasady netykiety.

     
     
 

Patronat

Serwis objęty jest patronatem Polskiego Towarzystwa Historycznego oraz portalu historycznego Histmag.org

 

Od 9 stycznia 2010 Historia i Media jest projektem Fundacji Nowoczesna Polska.