Strona główna » Policja

Tag: Policja

Czasopisma policyjne w głębokiej sieci

Głęboka sieć to część Internetu, która nie jest indeksowana przez wyszukiwarki internetowe i tym samym pozostaje poza zasięgiem typowego Internauty. Niektóre czasopisma policyjne są elementem głębokiej sieci z przyczyn technologicznych – z jednej strony są one publicznie dostępne dla każdego poprzez oficjalną stronę Policji http://www.gazeta.policja.pl/ , ale z drugiej strony zakodowano je w formacie PDF z istotnymi utrudnieniami dla wyszukiwarek:

  • Te PDFy, które zawierają w sobie przeszukiwalny tekst, stosują bardzo dziwne kodowania znaków i rozbicia lub połączenia wyrazów, które są niewidoczne dla człowieka, ale skutecznie utrudniają pracę robotom wyszukiwarek;
  • Wiele PDFów zawiera po prostu skany starych czasopism a wyszukiwarki obecnie nie radzą sobie dobrze z taki treściami graficznymi (chociaż kiedyś sobie poradzą);

W związku z tym, chcąc przeszukiwać treść takich czasopism Internauta ma poważny problem – musi przeglądać wszystkie ręcznie. Do przeglądu ma 800+ numerów od 12 do 50 stron każde wydanie. Chodzi tutaj o czasopisma:

  • Policja 997,
  • Policja 997 wydanie specjalne,
  • Gazeta Policyjna,
  • Magazyn Kryminalny,
  • Patrol,
  • Wiadomości Sekcji Polskiej IPA,
  • Policja Łódzkie,
  • Przegląd Prewencyjny,
  • Stołeczny Magazyn Policyjny,
  • Kwartalnik Prawno-Kryminalistyczny,
  • Kwartalnik policyjny.

Częściowo można sobie z tym problemem poradzić i zbudować lokalną wyszukiwarkę lub wykorzystać jakiś dostępny mechanizm wyszukujący. Najpierw jednak trzeba wszystkie PDFy pobrać a następnie przetworzyć ich zawartość programem do optycznego rozpoznawania znaków (OCR) na poprawną tekstowo postać. Aby wspomóc pobieranie PDF-ów przygotowałem odpowiedni skrypt i zamieściłem w serwisie GitHub:

https://github.com/gakowalski/czasopisma-policyjne

Do pobrania skryptem jest 9+ GB danych.

Do OCR polecam NAPS2, które to oprogramowanie jest darmowe, obsługuje język polski i z tego, co sobie testowo uruchamiałem, to względnie radzi sobie z tymi PDFami. Do przetworzenia jest sporo, więc radzę uzbroić się w cierpliwość.

Wynik przetworzenia polecam zawrzeć również w pliki PDF, aby móc skorzystać z “Wyszukiwania zaawansowanego” w darmowym oprogramowaniu Adobe Reader.