Strona główna » Głęboka sieć

Tag: Głęboka sieć

Google nie zawsze wyszukuje w całej treści strony

Algorytmy Google są nieodgadnione i zmienne, należy sobie z tego dobrze zadawać sprawę. Pewne mechanizmy nimi zarządzające są jednak dosyć proste i warto obserwować jak ta wyszukiwarka działa, aby lepiej z niej korzystać. Do tego tekstu zainspirowała mnie taka ciekawostka: za pomocą wyszukiwarki znalazłem pewien artykuł. Pod koniec jego treści znajdowało się pewne szczególnie zdanie, wobec którego chciałem sprawdzić, czy było gdzieś cytowane. Gdy wpisałem je w wyszukiwarkę… otrzymałem zero wyników. Zero – czyli Google nie wskazało mi nawet oryginalnej strony, którą przecież wcześniej samo pomogło mi znaleźć!

Chwila eksperymentowania potwierdziła moje podejrzenia – Google pozwala wyszukać tekst, ale tylko z pierwszych akapitów tekstu. Dlaczego tak się dzieje? Moje hipotezy są takie:

  • W sposób sobie znany Google może dokonywać pewnych “oszczędności” w bazach danych;
  • Pewne strony WWW mogły zostać zindeksowane tylko raz i podczas indeksacji coś poszło nie tak albo może wtedy ich treść rzeczywiście była inna, niekompletna, a Google nie zdecydowało się nigdy indeksacji ponowić;

Problem takiego wyszukiwania nie dotyczy jednak tylko Google. Potrzebowałem przeszukać stare wpisy na forum serwisu O2 i chciałem do tego użyć tamtejszej wyszukiwarki. Okazało się, że niemożliwe było odnalezienie wpisów, które cały czas istniały, bo chwilę później odnalazłem je swoim sposobem.

Pewne treści wymykają się więc wyszukiwarką i powoli wpadają w ocean głębokiej sieci.

Czasopisma policyjne w głębokiej sieci

Głęboka sieć to część Internetu, która nie jest indeksowana przez wyszukiwarki internetowe i tym samym pozostaje poza zasięgiem typowego Internauty. Niektóre czasopisma policyjne są elementem głębokiej sieci z przyczyn technologicznych – z jednej strony są one publicznie dostępne dla każdego poprzez oficjalną stronę Policji http://www.gazeta.policja.pl/ , ale z drugiej strony zakodowano je w formacie PDF z istotnymi utrudnieniami dla wyszukiwarek:

  • Te PDFy, które zawierają w sobie przeszukiwalny tekst, stosują bardzo dziwne kodowania znaków i rozbicia lub połączenia wyrazów, które są niewidoczne dla człowieka, ale skutecznie utrudniają pracę robotom wyszukiwarek;
  • Wiele PDFów zawiera po prostu skany starych czasopism a wyszukiwarki obecnie nie radzą sobie dobrze z taki treściami graficznymi (chociaż kiedyś sobie poradzą);

W związku z tym, chcąc przeszukiwać treść takich czasopism Internauta ma poważny problem – musi przeglądać wszystkie ręcznie. Do przeglądu ma 800+ numerów od 12 do 50 stron każde wydanie. Chodzi tutaj o czasopisma:

  • Policja 997,
  • Policja 997 wydanie specjalne,
  • Gazeta Policyjna,
  • Magazyn Kryminalny,
  • Patrol,
  • Wiadomości Sekcji Polskiej IPA,
  • Policja Łódzkie,
  • Przegląd Prewencyjny,
  • Stołeczny Magazyn Policyjny,
  • Kwartalnik Prawno-Kryminalistyczny,
  • Kwartalnik policyjny.

Częściowo można sobie z tym problemem poradzić i zbudować lokalną wyszukiwarkę lub wykorzystać jakiś dostępny mechanizm wyszukujący. Najpierw jednak trzeba wszystkie PDFy pobrać a następnie przetworzyć ich zawartość programem do optycznego rozpoznawania znaków (OCR) na poprawną tekstowo postać. Aby wspomóc pobieranie PDF-ów przygotowałem odpowiedni skrypt i zamieściłem w serwisie GitHub:

https://github.com/gakowalski/czasopisma-policyjne

Do pobrania skryptem jest 9+ GB danych.

Do OCR polecam NAPS2, które to oprogramowanie jest darmowe, obsługuje język polski i z tego, co sobie testowo uruchamiałem, to względnie radzi sobie z tymi PDFami. Do przetworzenia jest sporo, więc radzę uzbroić się w cierpliwość.

Wynik przetworzenia polecam zawrzeć również w pliki PDF, aby móc skorzystać z “Wyszukiwania zaawansowanego” w darmowym oprogramowaniu Adobe Reader.