Milion skanów i co dalej? Zbiory British Library na Flickr Commons

Kilka dni temu British Library udostępniła w ramach projektu Flickr Commons ponad milion skanów z 46 tys. XVII, XVIII i XIX-wiecznych książek, z których korzystać można bez ograniczeń wynikających z prawa autorskiego. To imponująca liczba, chociaż warto zwrócić uwagę, że opublikowane na Flickr.com obiekty wybrane są w dość przypadkowy sposób i zdarzają się wśród nich odwzorowania pustych stron oraz błędy. Mimo obszernych opisów metadanych i skali tej inicjatywy trudno porównywać ją z profesjonalnymi repozytoriami. Skany książek z BL zostały wykonane i przekazane przez Microsoft, który kilka lat temu zgromadził je do swojej usługi „Live Book Search” (odpowiednika Google Books), zamkniętej ostatecznie w 2008 roku.

British Library traktuje opublikowanie skanów w ramach Flickr Commons jako podstawę eksperymentu w zakresie opisywania treści dużych kolekcji skanów. Już sam sposób wyboru obiektów do udostępnienia nie jest standardowy: selekcja nie była efektem pracy bibliotekarzy, ale rezultatem działania automatycznego programu komputerowego. Mechanical Curator proponuje losowe skany także na swoim blogu oraz na Twitterze. Naczelną ideą rozwijania tego algorytmu jest zbudowanie nowego rodzaju wyszukiwarki:

The majority of researchers begin their search for content using a general purpose search engine. It is easy to forget just how phenomenally powerful these can be, leading researchers to content that they know they want. This is also its shortcoming. The normal mode of searching makes it very difficult to find things that are not known yet. Keyword searches do not make it easy to collide ideas and concepts together, and to view things from different perspectives and to see what might fit together.

The idea of searching for content fails when the researcher does not even know what they might want to see or how to describe it in words. The Mechanical Curator approaches discovery from the opposite angle, publishing content as it sees fit without an outside agent directing what it should publish. (#)

Biblioteka zapowiada także uruchomienie na początku nowego roku specjalnej aplikacji ułatwiającej opisywanie treści skanów (teraz dostępny jest jedynie opis formalny). Opisy przygotowane przez społeczność Flickra staną się zasobem wiedzy, z którego następnie korzystać będzie program opisujący dalsze skany:

We plan to launch a crowdsourcing application at the beginning of next year, to help describe what the images portray. Our intention is to use this data to train automated classifiers that will run against the whole of the content. The data from this will be as openly licensed as is sensible (given the nature of crowdsourcing) and the code, as always, will be under an open licence. […] This structure is helpful but we can do better! We want to collaborate with researchers and anyone else with a good idea for how to markup, classify and explore this set with an aim to improve the data and to improve and add to the tagging. We are looking to crowdsource information about what is depicted in the images themselves, as well as using analytical methods to interpret them as a whole. (#)

Przy okazji warto dodać informację o nowym polskim zasobie zbiorów z domeny publicznej. Na portalu Wolnelektury.pl pojawiło się pierwsze 50 cyfrowych reprodukcji zbiorów domeny publicznej z Muzeum Narodowego w Warszawie. Treść każdego skanu została odpowiednio otagowana i przypisana do wybranych motywów, zdefiniowanych wcześniej dla biblioteki książek.