Logo portalu Historia i Media

Historia i dziedzictwo w kulturze cyfrowej »

 
Uwaga: ten wpis został opublikowany dość dawno (02.09, 2010) i jego treść może nie być aktualna. Komentarze zostały zablokowane.

Google Books w badaniach naukowych – wcale nie tak różowo

Wydaje się, że projekt Google Books posłuży do stworzenia największej światowej biblioteki cyfrowej i stanowić będzie swego rodzaju monopol. Umowy zawarte przez Google z bibliotekami i wydawcami sprawiają, że konkurencyjne firmy albo też biblioteki mimo sporych funduszy przeznaczanych na digitalizację mogą nie być w stanie zajmować się skanowaniem książek na równie wielką skalę. Dlatego warto postawić pytanie, czy Google rzeczywiście jest w stanie przeprowadzić ten projekt dobrze.

Takie pytanie zadał profesor Geoffrey Nunberg, lingwista pracujący na Uniwersytecie Kalifornijskim w Berkeley, w opublikowanym już jakiś czas temu w magazynie „The Chronicle of Higher Education” artykule zatytułowanym Google’s Book Search: A Disaster for Scholars. Celnie wypunktował kilka poważnych słabości projektu, który często stawiany jest za wzór innym digitalizującym zbiory, abstrahując oczywiście od najgłośniejszych w tym projekcie kwestii praw autorskich twórców, których książki gigant z Mountain View skanuje i umieszcza w Google Books.

Nunberg podkreśla, że choć sama firma nazywa swój projekt mianem biblioteki, rzeczywistość wygląda nieco inaczej: książki umieszczane w Google Books służą jedynie za kolejne źródło informacji, mające ulepszyć wyszukiwanie. Oczywiście jeśli zależy nam wyłącznie na wyszukaniu specyficznych informacji, jak na przykład data bitwy pod Grunwaldem, nie interesują nas metadane opisujące poszczególne publikacje. Wpisujemy słowo kluczowe do wyszukiwarki i gotowe – informacja została nam dostarczona. Co natomiast, jeśli nie szukamy konkretnej informacji, ale konkretnej książki, jej szczególnego wydania? Powiedzmy wszystkich francuskich wydań „Umowy społecznej” Rousseau sprzed 1800 roku? Otóż według Nunberga w takiej sytuacji projekt Google Books zupełnie się nie sprawdza.

Kiedy szukamy konkretnych książek, potrzebujemy wiarygodnych metadanych, tymczasem projekt Google wydaje się w ogóle tym nie zajmować. Przykładowo, pojawiają się błędy dotyczące daty publikacji książek: listy Virginii Wolf według Google Books zostały opublikowane w 1900 roku, kiedy to autorka miała zaledwie osiem lat; książki o ekspercie w dziedzinie marketingu Peterze Druckerze datowane są na 1905 rok – cztery lata przed narodzinami tegoż eksperta. Z drugiej strony, wpisując do wyszukiwarki hasło „Internet”, w książkach opublikowanych przed 1950 otrzymujemy ponad pięćset rezultatów. Przykłady można mnożyć, wystarczy tylko wpisać nazwisko znanego pisarza i ograniczyć wyniki do daty sprzed jego narodzin. Według Nunberga tego typu błędy znajdują się w 46-70 procentach księgozbioru zgromadzonego w Google Books.

Sama firma Google tłumaczy, że otrzymuje błędne informacje od bibliotek i wydawców. Prawdą jest, że firma dostała pewne błędne dane, jednak część z tych błędów sama tworzy, automatycznie próbując zbierać informacje w czasie skanowania książek.

Kolejnym problemem są błędy związane z klasyfikacją przedmiotową książek. Mniej to dotyczy użytkowników z Polski, ponieważ w informacjach bibliograficznych podanych w języku polskim nie ma informacji o klasyfikacji przedmiotowej książek; widać je dopiero po przestawieniu wyszukiwarki na język angielski.

Profesor Nunberg podaje malowniczy, choć niejedyny przykład: w Google Books istnieje wydanie powieści Dickensa „Moby Dick” sklasyfikowane jako „Komputery”. Bardziej interesujący wydaje się fakt, że różne wydania tych samych dzieł są czasami inaczej klasyfikowane, na przykład różne wydania „Jane Eyre” są klasyfikowane jako „Historia”, „Historie Miłosne”, „Architektura” czy „Kolekcje i Antyki”. Przykłady można mnożyć.

Problem wynika z używania przez Google klasyfikacji BISAC, używanej przede wszystkim w księgarniach w celu oznaczenia tematyki książek, które znajdują się w danym dziale sklepu. Klasyfikacja BISAC sprawdza się w niewielkich księgarniach lub bibliotekach, gdzie można samemu poszukać danej książki na półce, niemożliwe jest jednak ich stosowanie, kiedy mamy do dyspozycji kilka milionów książek.

Nawet jeśli Google trafia z zaklasyfikowaniem książki do odpowiedniego działu, to w zasadzie niejasne jest, dlaczego w ogóle w Google Books używana jest ta klasyfikacja. Jak dowiedział się autor artykułu, nie było to uczynione na prośbę księgarzy. Bardziej prawdopodobne jest, że klasyfikacja została wprowadzona po to, aby ułatwić umieszczanie odpowiednio sprofilowanych reklam na stronach Google Books.

Warto podkreślić, że Google zdaje sobie sprawę z opisanych tutaj błędów i – jak Nunberg sam przyznał – wiele z nich zostaje naprawionych. Jednak sam mechanizm automatycznego ekstrahowania metadanych ze skanów i automatycznej klasyfikacji książek niewiele się zmienił, co generuje nowe błędy. Gigant z Mountain View pozyskał wprawdzie dość sporo rekordów opisów bibliograficznych wraz z zeskanowanymi książkami, ale nie zostały one na razie upublicznione, być może ze względu na kwestie licencyjne. Nunberg sugeruje porozumienie z Biblioteką Kongresu Stanów Zjednoczonych oraz OCLC (Online Computer Library Center – organizacja, która stworzyła WorldCat, największy na świecie katalog biblioteczny) i dołączenie ich opisów do wyszukiwarki, co pozwoliłoby uzyskać odpowiednie informacje o danej książce. Ale to również wiąże się z wykorzystaniem licencji na korzystanie z tych danych.

Google jako wyszukiwarka informacji ma służyć lokalizacji użytecznych informacji bez użycia metadanych, jednak zarządzanie tak ogromnymi zasobami książek wymaga innych umiejętności niż te, które pomogły Google zdominować wyszukiwanie w sieci. Miejmy nadzieję, że z czasem, dzięki umiejętnemu naciskowi ze strony bibliotek i uczelni, Google Books zamieni się w bardziej wiarygodne źródło informacji. Google mogłoby sprawdzić, jak się to robi gdzie indziej, np. nad Wisłą. Polskie biblioteki cyfrowe dzięki ścisłej współpracy ze środowiskiem bibliotekarskim mają świetnie opisane, głównie przy użyciu schematu Dublin Core, metadane swoich zbiorów. Śmiało można powiedzieć, że znacznie lepiej niż w Google Books.

 

Kilka razy w miesiącu wysyłany jest newsletter z informacją o nowych materiałach dostępnych na Historiaimedia.org. Nie ma w nim żadnych reklam. W każdej chwili można zrezygnować z subskrypcji. Proszę o podanie adresu email:

 

Bezpieczeństwo adresów w bazie subskrypcji zapewnia system NinjaMail.

• • •

Kategorie: Internet Narzędzia

Skrócony link: Kopiuj adres odnośnika

Licencja Creative CommonsO ile nie zaznaczono inaczej tekstowa treść tego artykułu jest dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 3.0 Unported.

p o l e c a m y
herito

Komentarzy: 4

 
  • Swietnie to moze polskie zasoby nie sa opisane bo bilioteki cyfrowe to zywe organizmy i chciazby to co dawno bylo wprowadzone na pewno juz odstaje od terazniejszych norm, ale sie staramy ;-)A nad Wisla tez juz przerabialismy wariant tworzenia bc bez bibliotekarzy i tez nie wyszlo…. ;-) Hmmm… Chyba sobie zbuduje zaglowke po co bede placila komus kto wie jak to zrobic… albo nie – lepiej samolot… abo to i to – na pewno dam rade…

     
     
     
  • Z tymi opisami w polskich bibliotekach cyfrowych też nie zawsze jest najlepiej. W słowach kluczowych jest jeden wielki bałagan (podobnie jak w wielu, jeśli nie wszystkich, zwykłych bibliotekach), a skanujący i opisujący książki w razie wątpliwości sięgają często (co jest oczywiste) po opisy z katalogów innych bibliotek, przez co powielane są ewentualne błędy.

    Trzeba jednak pamiętać, że wyeliminowanie tych problemów graniczy z niemożliwością.

     
     
     
  • Zgadza się.
    Bałagan w przyporządkowaniu słów kluczowych do poszczególnych książek dotyczy także tradycyjnych bibliotek, także Biblioteki Narodowej. swego czasu analizowałam ten problem (na podstawie katalogu on-line) w odniesieniu do pozycji z dziedziny archiwistyki.
    Totalna zgroza, ilość błędów przekroczyła moje wyobrażenie…

     
     
     
  • Wydaje mi się, że wobec możliwości przeszukiwania pełnotekstowego znaczenie metadanych maleje (chociaż oczywiście zależy to od potrzeb szukającego). Czytając o projekcie Google Books warto poznać też jego alternatywę: The Open Content Aliance opencontentalliance.org

     
     
     
 
 
Historia i Media

Historiaimedia.org to pierwszy polski projekt poświęcony zagadnieniom relacji między historią a mediami. Rola mediów w kulturze historycznej, ich wpływ na kształtowanie świadomości przeszłości, internet i nowe technologie w badaniach i edukacji historycznej, historia w sztuce współczesnej – to tylko niektóre z tematów poruszanych na tej stronie.

Dowiedz się więcej »

Zostań autorem »

Kontakt

Redakcja „Historia i Media”
03-189 Warszawa
Skrytka pocztowa 145
[email protected]
redaguje Marcin Wilkowski

Polecamy
fotorejestr