Projekt IMPACT – lepszy dostęp do treści dokumentów historycznych

OCR of historical texts is indeed like climbing the Mt Everest, compared to the ‘easy walk’ of OCRing contemporary texts.
Michael Fuchs na blogu projektu IMPACT

IMPACT (Improving Access to Text) jest projektem badawczym Unii Europejskiej przewidzianym na lata 2008-2011. Ma on za zadanie ułatwienie dostępu do cyfrowych tekstów historycznych, poprzez stworzenie narzędzi oraz wypracowanie tzw. „dobrych praktyk”, z których korzystać będą mogły instytucje i organizacje zainteresowane masową digitalizacją. Celem projektu jest zapewnienie dostępu do treści dokumentów, nie tylko do cyfrowego odwzorowania oryginalnego dokumentu (strony).

Aly Conteh z British Library przedstawia założenia projektu:

W drugiej fazie projektu IMPACT, która rozpoczęła się w tym roku, do 16 pierwotnych członków konsorcjum, dołączyło kolejnych 12 instytucji, w tym także Poznańskie Centrum Superkomputerowo-Sieciowe (producent oprogramowania dLibra i koordynator Federacji Bibliotek Cyfrowych) oraz Katedra Lingwistyki Formalnej Uniwersytetu Warszawskiego. Polscy partnerzy odpowiedzialni będą za prowadzenie prac prezentacyjnych nad polskimi dokumentami historycznymi, budowanie polskich leksykonów dla lepszego OCR oraz promowanie projektu na terenie naszego kraju.

Konsorcjum pracujące nad projektem składa się obecnie z 28 członków: bibliotek, instytutów badawczych oraz komercyjnych przedsiębiorstw. Jego zadaniem jest wymiana wiedzy, doświadczeń praktycznych które mają pozwolić na szybkie wprowadzenie metod masowej digitalizacji w ciągu najbliższej dekady. Wymaga to jednak usunięcia barier, które dziś uniemożliwiają podejmowanie takich projektów na szeroką skalę. Dlatego też IMPACT zakłada prace nad:

* Rozwojem technologii optycznego rozpoznawania tekstu [OCR] oraz zastosowaniem wiedzy o składni języków dla przetwarzania dokumentów historycznych.
* Zmniejszeniem kosztów i czasochłonności digitalizacji.
* Lepszą wymianą wiedzy na temat dwóch powyższych zagadnień technicznych w celu zapewnienia trwałych i powszechnych efektów poprzez stworzenie centrum kompetencji IMPACT.

Czego możemy więc oczekiwać po projekcie IMPACT w kontekście zapowiadanego dostępu do tekstów historycznych? Z pewnością można znacznego ulepszenia oprogramowania do OCR, jakim jest Fine Reade firmy ABBYY (członka konsorcjum) czy open sourcowy OCRopus, wspierany przez Google. W tym przypadku IMPACT kładzie szczególny nacisk na rozpoznawanie rożnych odmian czcionek gotyckich oraz innych form spotykanych w starych dokumentach źródłowych. Pozwoli to na ułatwienie dostępu do treści zawartej np. do wielu XIX wiecznych opracowań oraz edycji źródeł, które dziś wymagają znajomości liternictwa gotyckiego. Z pewnością projekt, usuwając wspominane powyżej bariery, pozwoli utrzymać wysokie tempo rozwoju bibliotek cyfrowych oraz przeprowadzanie digitalizacji na bardziej masową skalę. Pozwoli także na zmniejszenie konieczności udziału człowieka w procesie digitalizacji (i kontroli jej wyników) i zwiększenie jakości automatycznie wykonywanych czynności. Kluczowe jest także uczynienie OCR standardem w bibliotekach cyfrowych, co dziś nie jest jeszcze powszechnie przestrzegane.

Rozwój projektu IMPACT można śledzić poprzez blog projektu oraz konta na portalach YouTube, Vimeo, Slideshare oraz Twitter.