Optymalizacja publikacji naukowych do wyszukiwarki Google Scholar

Badacze coraz częściej zdają sobie sprawę, że wymogi dotyczące dorobku naukowego, wymuszają zmianę sposobu myślenia o własnych publikacjach. Nie chodzi już tylko o to, aby tworzyć wysokiej jakości prace badawcze, ale również o to, aby publikować je w odpowiednich czasopismach – najlepiej gdy są to periodyki wysoko punktowane, umieszczone na odpowiednich listach, generujące odpowiedni Impact Factor. Należy sobie również uświadomić, że – wymagane przez różne instytucje naukowe – wysokie ilości cytowań i wskaźniki odpowiednich „indeksów”, wymagają dodatkowej wiedzy. Dotyczy ona sposobu przygotowania publikacji naukowej (nawet tej, którą chwalimy się na naszej stronie domowej). Dla przedstawicieli nauk humanistycznych i społecznych podstawową bazą danych i wyszukiwarką artykułów naukowych, która umożliwia obliczanie cytowań i indeksów, jest Google Scholar (produkt Google’a dostarcza materiałów m.in. do oprogramowania „Publish and Perish”). Dlatego też warto wiedzieć, w jaki sposób działa ta wyszukiwarka i w jaki sposób przygotowywać swoje publikacje tak, aby były uwzględniane w bazach danych. Innymi słowy: w jaki sposób wykorzystać ASEO (Academic Search Engine Optimization – w wolnym tłumaczeniu można powiedzieć, że jest to „pozycjonowanie w wyszukiwarkach akademickich”) na swoją korzyść.

1. Historia pewnego artykułu i problem „złej wiedzy”

W zeszłym roku w czasopiśmie „Journal of Scholarly Publishing” trójka autorów (Jöran Beel, Bela Gipp, Erik Eilde) opublikowała tekst Academic Search Engine Optimization (ASEO): Optimizing Scholarly Literature for Google Scholar & Co. Jest to bardzo ciekawa lektura opatrzona wieloma cennymi wskazówkami. Zanim przejdę do wyłuszczenia kilku podstawowych informacji zawartych w tej publikacji, chciałbym wspomnieć o perypetiach powstawania tego artykułu. Autorzy tego tekstu na temat algorytmu tworzenia rankingu przez Google Scholar wysłali zgłoszenie na konferencję, aby przedstawić wyniki swoich badań. Jeden z recenzentów napisał:

artykuł ten zdaje się zachęcać autorów tekstów naukowych do nauczenia się tego, w jaki sposób działa ranking Google Scholar oraz do pisania tekstów w taki sposób, aby zwiększać ów ranking [na swoją korzyść – przyp. E.K.]; nie jest to akceptowane przez środowisko naukowe.

Dlatego też odwołując się do tego tekstu i zawartych w nim porad, chciałbym podkreślić, że wiedza na temat ASEO nie służy oszukiwaniu wyszukiwarek. Chodzi o to, aby tak przygotować dokument, by służył on dorobkowi autora i był łatwo przyswajalny przez bazy danych. Nie jest to „zła wiedza”, ani oszukiwanie – jedynie zrozumienie mechanizmu działania.

2. Dlaczego badacze powinni zainteresować się ASEO

Przede wszystkim chodzi o to, aby nasze prace naukowe były dostępne dla potencjalnie jak najszerszego grona odbiorców. Równie ważne jest to, aby były łatwo wyszukiwalne oraz aby nasza pracy była łączona z nami (kwestia zliczania cytowań). Dlatego też musimy poznać podstawowe zasady związane z ASEO, które autorzy przywołanego artykułu definiują jako „optymalizację dla wyszukiwarek akademickich, tj. tworzenie, publikowanie i modyfikowanie literatury naukowej w taki sposób, aby uczynić łatwiejszym zbieranie danych i indeksowanie tejże literatury przez wyszukiwarki”. ASEO różni się od zwykłego pozycjonowania stron tym, że artykuły naukowe trzeba pozycjonować dla różnych baz danych w różny sposób (dla uproszczenia można przyjąć, że „zwykłe” SEO uwzględnia tylko wyszukiwarkę Google). Do tego dochodzi również fakt, że większość artykułów naukowych znajduje się jedynie w bazach danych wydawców i tylko nieliczni zawarli umowę z Google Scholar. Dlatego też szczegółowo skupię się na przygotowaniu artykułu dla Google Scholar, ponieważ jest to największe tego typu darmowe narzędzie uwzględniające prace zamieszczone na serwerach poszczególnych jednostek akademickich. Wskażę również informacje, które brane są pod uwagę przez większość „akademickich wyszukiwarek” w budowaniu algorytmu tworzenia wyników oraz rankingu.

3. Co jest brane pod uwagę przy tworzeniu algorytmu?

Autorzy artykułu Academic Search Engine Optimization… przeanalizowali większość wyszukiwarek akademickich i ułożyli listę najważniejszych elementów, na których powinniśmy się skupić optymalizując naszą pracę. Składniki te są istotne w przypadku wyszukiwaniu w danej bazie: dokładność wyniku zależy od tego, jak często wyszukiwane słowo pojawia się w danych elemencie. Owe elementy to (lista malejąca – na pierwszym miejscu najważniejszy element).

• Tytuł
• Nazwiska autorów
• Abstrakt
• Śródtytuł
• Słowa kluczowe (nadane przez autorów)
• Tekst główny
• Tabele i rysunki
• Tytuł publikacji (nazwa czasopisma, tomu pokonferencyjnego, książki itd.).
• Słowa kluczowe (nadane przez użytkownika – tagi)
• Adnotacje
• Opis
• Nazwa pliku
• URId

Te elementy muszą być ze sobą komplementarne (i w ogóle jakieś muszą występować!), gdyż wyszukiwarka znajdując w sieci plik, nie wie, że jest to artykuł akademicki, ani kto go napisał. Te informacje może wydobyć tylko i wyłącznie z metadanych oraz treści plików – o czym autorzy zdają się zapominać. Trzeba pamiętać o tym, że w pliku PDF znajdują się specjalne miejsca na wpisanie tytułu oraz autorów dokumentu. Na poniższym printscreenie widać, że w dokumencie pdf te dwa pola są wypełnione, jednakże nie wypełniono „słów kluczowych” i „opisu”.

4. Algorytm Google Scholar

Google Scholar przy tworzeniu rankingu wyników bierze pod uwagę przede wszystkim: 1) ważność wyrażenia, 2) liczbę cytowań, 3) nazwisko autora oraz nazwę publikacji (nie tylko tytuł artykułu!).
Ważność wyrażenia to częstotliwość występowania danego sformułowania w przeszukiwanym dokumencie. I tutaj bardzo ważna uwaga: należy pamiętać, że słowa, których użytkownicy wyszukują, mogą występować też w tabelach i na schematach (rysunkach). Należy zatem zadbać, aby były „czytalne” – tzn. aby wyszukiwarka mogła je odczytać.

Są dwa rozwiązania. Pierwsze (mniej polecane, ale stosowane przy digitalizacji starszych dokumentów): można w pdfie dołożyć warstwę ukrytą z tekstem, czyli po prostu zrobić rozpoznanie tekstu w dokumencie (OCR). Drugie: pamiętać o wektorowych schematach i rysunkach: to nie tylko umożliwia sczytywanie przez wyszukiwarki, ale również umożliwia skalowanie dokumentu bez utraty jakości. Poniżej dla porównania schemat wykonany za pomocą techniki wektorowej i rastrowej. Schemat po lewej nie tylko jest czytelny przy powiększeniu, ale również ma „zwykły” tekst (a więc dostępny dla wyszukiwarki).

Oczywiście oba rozwiązania wymagają jakiejś wiedzy technicznej. W pierwszym przypadku musimy mieć odpowiednie oprogramowanie (dobre!) do rozpoznawania tekstu. W drugim, musimy potrafić tworzyć podstawowe elementy w grafice wektorowej.

W tworzeniu rankingu główną rolę odgrywa liczba cytowań. Najwyżej pojawiają się te wyniki, które są najczęściej cytowane. A żeby być najczęściej cytowanym, trzeba (jest to oczywiście jeden z wielu wymogów) pojawiać się w wynikach. Warto też podkreślić, że Google jeszcze nie odróżnia (przy tworzeniu rankingu) cytowań od autocytowań.

Trzecim najważniejszym czynnikiem jest poprawnie zdefiniowany autor dokumentu oraz tytuł publikacji (koniecznie trzeba zawrzeć to w metadanych pliku PDF). Informacje te można wprowadzać i edytować, klikając (w systemie Windows) prawym przyciskiem na plik PDF i wybierając polecenie „Właściwości” (zakładka „PDF”).

5. Jak poprawnie przygotować plik dla Google Scholar

Analizując dokumentację dotyczącą Google Scholar oraz zapoznając się z różnym opracowaniami, można podać kilka podstawowych sposobów na zoptymalizowanie naszego pliku dla wyszukiwarki. Takie podstawowe wskazówki to:

1) Przede wszystkim trzeba uzupełnić metadane w pliku PDF (autor i tytuł publikacji).
2) Zamieścić abstrakt (zadbać, aby był również w języku angielskim).
3) Stosować style akapitowe dla śródtytułów – aby były odróżnialne od tekstu głównego.
4) Stosować szczegółowe słowa kluczowe: wskazywanie ogólnych słów kluczowych doprowadzi do „ginięcia” naszego tekstu w wynikach. Jeżeli użyjemy słowa kluczowego „społeczeństwo”, to na pewno nie przyczyni się do optymalizacji naszego tekstu.
5) Najważniejsze słowa kluczowe powinny występować w tytule.
6) Tytuł tekstu powinien być w miarę krótki (chyba, że chcemy w nim umieścić wiele słów kluczowych).
7) W tekście głównym powinny się pojawiać synonimy słów kluczowych – aby czytelnicy, którzy nie znajdą słów kluczowych (ale szukają „coś na ten temat”), mogli trafić na nasz tekst.
8) Należy upewnić się, że poprawnie piszemy wszystkie nazwiska autorów, których cytujemy – tylko tak, będą zliczane cytowania na ich rzecz – a przecież dotyczy to również nas.
9) Artykuły naukowe powinny być tworzone podług klarownego schematu: wstęp, stan badań i wiedzy, wyniki. Zdaniem autorów przywoływanego na wstępie artykułu, taka sztywna struktura jest „przyjazna” dla wyszukiwarek.
10) Upewnić się, że wyszukiwarki będą mogły sczytać tekst ze schematów i tabel.
11) Nazwać plik w odpowiedni sposób: najlepiej nadać mu brzmienie nazwiska autora lub tytułu tekstu.

Są to elementarne wytyczne, których spełnienie oczywiście nie gwarantuje wysokiego wyniku w rankingu czy wynikach wyszukiwania, ale sprawi, że nasz tekst będzie łatwiej znaleźć – a zatem dotrzeć do czytelników. Jak widać, trzeba mieć to na uwadze już na etapie pisania i planowania tekstu.