BAZY BIBLIOTEKI NARODOWEJ

Baza: Bibliografia Analityczna Bibliotekoznawstwa i Informacji Naukowej (1990- )

Indeks: BABIN_Rok/Nr

Szukasz: BABIN 2010 2 104


          
Autor Jacsó, P.
Tytuł Metadata mega mess in Google Scholar.
Tłum. tytułu Ogromny bałagan z metadanymi w Google Scholar
Analiza Uruchomienie w 2004 r. serwisu Google Scholar (GS) {(zob. BABIN 2007 z. 4 poz. 253 i 256)} zapewniło naukowcom darmowy dostęp na niespotykaną jak dotąd skalę do danych bibliograficznych (często z abstraktami) nt. dziesiątków milionów dokumentów, w tym wielu artykułów w wersji pełnotekstowej. Pod koniec 2009 r. z GS współpracowało ok. 2900 wydawców, a liczba pozycji, którym przyznano DOI wynosiła już ponad 38 mln. W tym samym roku zespół GS wypuścił na rynek wersję beta wyszukiwarki, nie wyeliminował jednak podstawowych błędów uniemożliwiających pozyskiwanie wiarygodnych rezultatów. O ile wyszukiwanie przez słowa kluczowe daje w GS dobre wyniki, próby zawężenia wyszukiwań przy pomocy metadanych takich jak autor, tytuł czasopisma czy rok publikacji przynoszą często opłakane rezultaty. Przyczyną tego są przestarzałe i źle zaprojektowane analizatory składni wykorzystywane w GS. Przystosowano je do indeksowania stron poprzez identyfikację adresów URL i tytułów strony w sieci na podstawie komend HTML, w czasach przed wprowadzeniem standardu Dublin Core. Metoda ta, przydatna przy próbach odnalezienia czegokolwiek na zadany temat, nie sprawdza się niestety przy zapytaniach o znaną pozycję z wykorzystaniem kombinacji www. metadanych. GS nie nadaje się więc zupełnie do wyszukiwań bibliometrycznych, ewaluacji aktywności wydawniczej i badań wpływu naukowców i czasopism. Mimo, że wg szacunków autora wydawcy naukowi udostępnili GS ok. 50-60 mln rekordów zawierających poprawne metadane, parsery GS nie potrafią ich poprawnie rozpoznawać. Do najczęstszych błędów, jakie popełniają należą te związane z: a) identyfikacją autorów: zamiast nazwisk prawdziwych twórców GS podaje nazwy tworzone np. z opcji menu czy szablonów wyszukiwania na danych stronach, stąd w wynikach wielość nieistniejących badaczy takich jak: F. Password -- od „Forgot Password" (GS odsyła do ok. 910 tys. publikacji tego „autora"); kreowanie ich ze śródtytułów -- jeden z najbardziej płodnych twórców to wg GS I. Backround (od często występującego w pracach naukowych tytułu 1. rozdziału: {I. Tło)}, bądź z innych elementów danych (deskryptory, wytłuszczone elementy tekstu itp.), b) lat publikacji: b. duża część rekordów GS nie zawiera w ogóle tego elementu, w innych tworzony jest on np. z numerów roczników i najróżniejszych danych numerycznych (prosty eksperyment -- próba wyszukania artykułów z lat po 2010 r. daje pojęcie o skali problemu). Błędy te pozbawiają autorstwa prawdziwych twórców artykułów, umniejszają ich dorobek naukowy i fałszują wyniki cytowań. GS nadal nie ujawnia też danych nt. zasięgu wyszukiwarki i liczby indeksowanych przez nią pozycji -- nie bez powodu, gdyż liczba trafień, jaką podaje dla tego samego zapytania jest zmienna (powtórzenie go po paru dniach może dać znacząco inne wyniki). Firma zdaniem autora nie reaguje należycie na apele środowiska naukowego ws. poprawy błędnych rekordów i winą obarcza zazwyczaj dostawców metadanych (wydawców i biblioteki), mimo że na ich stronach są one poprawne, zarówno pod względem formatu, jak i treści. Wykonuje też pokazowe działania jedynie, gdy informacje o pomyłkach na masową skalę przedostają się do mass mediów; takie kosmetyczne akcje nie rozwiążą jednak wg niego istoty problemu. W art. zilustrowano na przykładach najczęstsze i najbardziej spektakularne pomyłki parserów GS, omówiono też inne krytyczne publikacje na ten temat.
Hasło Informacja naukowa technika
Hasło Internet wyszukiwanie informacji
Hasło Google Scholar (wyszukiwarka)
Klucz Google Scholar (wyszukiwarka)
Klucz Wyszukiwarki internetowe
Klucz Metadane
Klucz Informacja naukowa
Klucz Bibliometria
Klucz Naukometria
Klucz Autorzy publikacji naukowych
Dział 010 Informacja naukowa i dokumentacja (technika i metodyka)
Cytata // Online Inf. Rev..- Vol. 34 (2010), nr 1, s. 175-191, il., bibliogr. 7 poz.


Program MAKWWW, wersja 1.47 z dnia 03.09.2012 (LINUX)
Program opracowany przez:Właściciel programu:
Biblioteka Narodowa Biblioteka Narodowa
Zakład Technologii Informatycznych
al. Niepodległości 213
02-086 Warszawa