Google Books w badaniach naukowych – wcale nie tak różowo

Wydaje się, że projekt Google Books posłuży do stworzenia największej światowej biblioteki cyfrowej i stanowić będzie swego rodzaju monopol. Umowy zawarte przez Google z bibliotekami i wydawcami sprawiają, że konkurencyjne firmy albo też biblioteki mimo sporych funduszy przeznaczanych na digitalizację mogą nie być w stanie zajmować się skanowaniem książek na równie wielką skalę. Dlatego warto postawić pytanie, czy Google rzeczywiście jest w stanie przeprowadzić ten projekt dobrze.

Takie pytanie zadał profesor Geoffrey Nunberg, lingwista pracujący na Uniwersytecie Kalifornijskim w Berkeley, w opublikowanym już jakiś czas temu w magazynie „The Chronicle of Higher Education” artykule zatytułowanym Google’s Book Search: A Disaster for Scholars. Celnie wypunktował kilka poważnych słabości projektu, który często stawiany jest za wzór innym digitalizującym zbiory, abstrahując oczywiście od najgłośniejszych w tym projekcie kwestii praw autorskich twórców, których książki gigant z Mountain View skanuje i umieszcza w Google Books.

Nunberg podkreśla, że choć sama firma nazywa swój projekt mianem biblioteki, rzeczywistość wygląda nieco inaczej: książki umieszczane w Google Books służą jedynie za kolejne źródło informacji, mające ulepszyć wyszukiwanie. Oczywiście jeśli zależy nam wyłącznie na wyszukaniu specyficznych informacji, jak na przykład data bitwy pod Grunwaldem, nie interesują nas metadane opisujące poszczególne publikacje. Wpisujemy słowo kluczowe do wyszukiwarki i gotowe – informacja została nam dostarczona. Co natomiast, jeśli nie szukamy konkretnej informacji, ale konkretnej książki, jej szczególnego wydania? Powiedzmy wszystkich francuskich wydań „Umowy społecznej” Rousseau sprzed 1800 roku? Otóż według Nunberga w takiej sytuacji projekt Google Books zupełnie się nie sprawdza.

Kiedy szukamy konkretnych książek, potrzebujemy wiarygodnych metadanych, tymczasem projekt Google wydaje się w ogóle tym nie zajmować. Przykładowo, pojawiają się błędy dotyczące daty publikacji książek: listy Virginii Wolf według Google Books zostały opublikowane w 1900 roku, kiedy to autorka miała zaledwie osiem lat; książki o ekspercie w dziedzinie marketingu Peterze Druckerze datowane są na 1905 rok – cztery lata przed narodzinami tegoż eksperta. Z drugiej strony, wpisując do wyszukiwarki hasło „Internet”, w książkach opublikowanych przed 1950 otrzymujemy ponad pięćset rezultatów. Przykłady można mnożyć, wystarczy tylko wpisać nazwisko znanego pisarza i ograniczyć wyniki do daty sprzed jego narodzin. Według Nunberga tego typu błędy znajdują się w 46-70 procentach księgozbioru zgromadzonego w Google Books.

Sama firma Google tłumaczy, że otrzymuje błędne informacje od bibliotek i wydawców. Prawdą jest, że firma dostała pewne błędne dane, jednak część z tych błędów sama tworzy, automatycznie próbując zbierać informacje w czasie skanowania książek.

Kolejnym problemem są błędy związane z klasyfikacją przedmiotową książek. Mniej to dotyczy użytkowników z Polski, ponieważ w informacjach bibliograficznych podanych w języku polskim nie ma informacji o klasyfikacji przedmiotowej książek; widać je dopiero po przestawieniu wyszukiwarki na język angielski.

Profesor Nunberg podaje malowniczy, choć niejedyny przykład: w Google Books istnieje wydanie powieści Dickensa „Moby Dick” sklasyfikowane jako „Komputery”. Bardziej interesujący wydaje się fakt, że różne wydania tych samych dzieł są czasami inaczej klasyfikowane, na przykład różne wydania „Jane Eyre” są klasyfikowane jako „Historia”, „Historie Miłosne”, „Architektura” czy „Kolekcje i Antyki”. Przykłady można mnożyć.

Problem wynika z używania przez Google klasyfikacji BISAC, używanej przede wszystkim w księgarniach w celu oznaczenia tematyki książek, które znajdują się w danym dziale sklepu. Klasyfikacja BISAC sprawdza się w niewielkich księgarniach lub bibliotekach, gdzie można samemu poszukać danej książki na półce, niemożliwe jest jednak ich stosowanie, kiedy mamy do dyspozycji kilka milionów książek.

Nawet jeśli Google trafia z zaklasyfikowaniem książki do odpowiedniego działu, to w zasadzie niejasne jest, dlaczego w ogóle w Google Books używana jest ta klasyfikacja. Jak dowiedział się autor artykułu, nie było to uczynione na prośbę księgarzy. Bardziej prawdopodobne jest, że klasyfikacja została wprowadzona po to, aby ułatwić umieszczanie odpowiednio sprofilowanych reklam na stronach Google Books.

Warto podkreślić, że Google zdaje sobie sprawę z opisanych tutaj błędów i – jak Nunberg sam przyznał – wiele z nich zostaje naprawionych. Jednak sam mechanizm automatycznego ekstrahowania metadanych ze skanów i automatycznej klasyfikacji książek niewiele się zmienił, co generuje nowe błędy. Gigant z Mountain View pozyskał wprawdzie dość sporo rekordów opisów bibliograficznych wraz z zeskanowanymi książkami, ale nie zostały one na razie upublicznione, być może ze względu na kwestie licencyjne. Nunberg sugeruje porozumienie z Biblioteką Kongresu Stanów Zjednoczonych oraz OCLC (Online Computer Library Center – organizacja, która stworzyła WorldCat, największy na świecie katalog biblioteczny) i dołączenie ich opisów do wyszukiwarki, co pozwoliłoby uzyskać odpowiednie informacje o danej książce. Ale to również wiąże się z wykorzystaniem licencji na korzystanie z tych danych.

Google jako wyszukiwarka informacji ma służyć lokalizacji użytecznych informacji bez użycia metadanych, jednak zarządzanie tak ogromnymi zasobami książek wymaga innych umiejętności niż te, które pomogły Google zdominować wyszukiwanie w sieci. Miejmy nadzieję, że z czasem, dzięki umiejętnemu naciskowi ze strony bibliotek i uczelni, Google Books zamieni się w bardziej wiarygodne źródło informacji. Google mogłoby sprawdzić, jak się to robi gdzie indziej, np. nad Wisłą. Polskie biblioteki cyfrowe dzięki ścisłej współpracy ze środowiskiem bibliotekarskim mają świetnie opisane, głównie przy użyciu schematu Dublin Core, metadane swoich zbiorów. Śmiało można powiedzieć, że znacznie lepiej niż w Google Books.