Kulturomia i Google Ngram Viewer
Google Ngram Viewer to narzędzie pozwalające na wizualizację trendów występowania określonych słów kluczowych w książkach zdigitalizowanych w ramach programu Google Books, a wydanych w ciągu ostatnich 500 lat. Ngram Viewer wizualizuje częstotliwość występowania określonych słów (pojęć) na podstawie analizy treści ponad 5 milionów publikacji (dokładnie 5195769) w języku angielskim, chińskim, niemieckim, francuskim, hebrajskim, rosyjskim i hiszpańskim.
Projekt opakowano od razu w zgrabną ideę kulturomii (culturomics), wskazującą na potencjał badań nad kulturą opartych o metody kwantytatywne (the application of high-throughput data collection and analysis to the study of human culture). W przypadku Google Ngram Viewer źródłem analizowanych danych kulturowych są zdigitalizowane książki.
Google Ngram Viewer
Po wpisaniu odpowiednich fraz system – w oparciu o dostępny zestaw danych – generuje wykres. Oś Y wskazuje na procent występowania wybranych słów lub zbitek słów (n-gram) w oznaczonym okresie i w oparciu o określone źródła danych (profile językowe, zakres czasowy) na tle wszystkich n-gramów zapisanych w korpusie. Poniższy wykres prezentuje popularność pojęcia mikrohistoria (microhistory) w książkach w języku angielskim (American English) wydanych w okresie od 1950(1947) do 2008(2011) roku (ustawiając parametr smoothing zwiększamy elastyczność zakresu przeszukiwanej próby).
Czy to dość ciekawe narzędzie może być naprawdę przydatne w badaniach kultury? Jak przyznają sami autorzy projektu w artykule opublikowanym w Science, korpus źródeł danych (liczba zeskanowanych książek) to szacunkowo jedynie (aż?) 4 proc. wszystkich opublikowanych dotąd książek (about 4% of all books ever published). Warto przy okazji pamiętać, że Google (mimo usilnych starań) wciąż nie digitalizuje wszystkich wydawanych współcześnie książek, a nawet zamyka ważny projekt digitalizacji czasopism. Dużym ograniczeniem jest udostępnienie źródeł danych wyłącznie w kilku najważniejszych językach.
Kolejnym problemem jest ewolucja znaczenia pojęć i zmiany w gramatyce języka. Dobrym przykładem może ty być fraza World War I – pojęcie to nie istniało w latach przed II wojną światową, chociaż wskazuje na dokładnie to samo wydarzenie historyczne co pojęcie Great War:
Wartość automatycznej analizy z wykorzystaniem Google Ngram Viewer obniżają także błędy w procesie zczytywania (OCR) zdigitalizowanych książek. Dzięki tej notce przekonać się można o tym osobiście: podstawą analizy jest tu słowo niespecjalnie często używane w opracowaniach specjalistów informacji.
Historia historiografii na nowo?
Przy wszystkich tych ograniczeniach i wadach Google Ngram Viewer to wciąż interesujący sposób eksploracji danych, nawet jeśli jakość tego badania pozostawia wiele do życzenia. Dan Cohen przekonuje, że ten projekt może mieć duże znaczenie dla promocji idei badań humanistycznych wykorzystujących duże zestawy cyfrowych danych: In the same way that the main Google Books site has introduced many scholars to the potential of digital collections on the web, Google Ngrams will introduce many scholars to the possibilities of digital research.
Czy Ngram Viewer to narzędzie mogące wesprzeć badania nad historią historiografii czy metodologii badań historycznych? System analizuje przecież treści książek i na tej podstawie generuje wizualizację trendu popularności określonego pojęcia. Z drugiej jednak strony poza jego zasięgiem jest ogromny zasób czasopism naukowych, stanowiących przecież integralny element pisarstwa historycznego. Także treści niezdigitalizowane nie są brane pod uwagę podczas takiej automatycznej analizy.
Kilka razy w miesiącu wysyłany jest newsletter z informacją o nowych materiałach dostępnych na Historiaimedia.org. Nie ma w nim żadnych reklam. W każdej chwili można zrezygnować z subskrypcji. Proszę o podanie adresu email:
Bezpieczeństwo adresów w bazie subskrypcji zapewnia system NinjaMail.
• • •
Kategorie: Narzędzia
Skrócony link: Kopiuj adres odnośnika
Zobacz też
O ile nie zaznaczono inaczej tekstowa treść tego artykułu jest dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 3.0 Unported.
Komentarze