Strona główna » bazy danych

Tag: bazy danych

Kto wie o Tobie naprawdę dużo?

Proste pytanie, ale być może nie każdy sobie zdaje sprawę z tego, że czasami całkiem istotna wiedza o nim w dużej ilości znajduje się w rękach pojedynczych podmiotów niekoniecznie będących pod bardzo ścisłą kontrolą.

Pierwsza odpowiedź na powyższe pytanie jaka przychodzi do głowy to: szeroko rozumiane państwo. Tak, ono wie dużo w swojej sieci rejestrów, które z każdym rokiem centralizują i porządkują się coraz bardziej. Rejestry częściowo są jawne (CEiGD, KRS), ale w większości pozostają niejawne i są do użytku różnych służb.

Poza państwem interesujące zbiory danych leżą w portalach społecznościowych. Nawet tak stary i niemodny portal jak Nasza Klasa zawiera niebywałe ilości bardzo wartościowych informacji o ludziach. Nie dziwne, że jego właścicielem stał się koncern medialny Ringier Axel Springer Polska – to jest doskonała baza danych dla takiego wydawcy.

Inny wydawca medialny, Agora S.A., zainwestował również w portal społecznościowy, ale o wydźwięku branżowym, zawodowym: Golden Line. Dodatkowo, Agora jest właścicielem przepastnego forum internetowego przy serwisie Gazety Wyborczej. Tam jest morze informacji.

Warto przypomnieć, że wielkie serwisy społecznościowe takie jak Facebook czy Twitter od dawna są wiązane ze służbami specjalnymi USA. Wręcz mówi się o tym, że stworzono je celowo przez specjalne agencje a później tylko upozorowano ich “naturalne pochodzenie” – przykładowo Facebook miałby być przebrandowanym projektem LifeLog. Informacja jest cenna a gdzie jest jej więcej niż w tych serwisach? Kto je posiada, jest bogaczem, ma władzę. Co więcej, serwisy te chcą wyrugować tradycyjne SMS-y i rozmowy telefoniczne, aby nawet ten ruch szedł ustalonym kanałem – co zapewne odbierze wiele możliwości naszym lokalnym służbom specjalnym przymuszając zapewne to podpisywania tajnych umów z USA podobnych do FIVE EYES. Co razem tworzy ogólnoświatową sieć podsłuchu. Można by to włożyć między bajki, gdyby nie informacje ujawniane przez sygnalistów takich jak Edward Snowden.

Całkiem sporo informacji wymyka się też zapisom RODO i istnieje zawartych w różnego rodzaju portalach genealogicznych, wspominkowych. RODO nie chroni bowiem osób zmarłych. Przodujący w tym serwis MyHeritage ma obecnie 1 miliard (!) użytkowników. Liczba zaś danych genealogicznych – sam nie wiem jaka, pewnie gigantyczna.

Innego rodzaju bazy danych tworzą serwisy z darmowymi kontami pocztowymi. Zagraniczny GMail to oczywistość, ale ile danych zgromadziła przez lata Wirtualna Polska, Interia czy Onet? Miliony maili. Tajna korespondencja każdego rodzaju. Hakerzy, którzy stale włamują się na konta, odnajdują tam wszystko.

Właśnie, hakerzy. Czym oni dysponują? Otóż oni mają problem, bo zyskują dostęp do ogromnych ilości danych, ale nie mają infrastruktury (serwerów, komputerów, dysków twardych), aby wszystko to do siebie zabrać. Zazwyczaj więc zadowalają się zbieraniem danych dostępowych do istniejących serwisów. Wraz z rozwojem pojemności dysków będą w stanie gromadzić bardzo dużo. Warto zwrócić uwagę na woluminy wykradanych danych. Aby wykraść 100 mln podstawowych danych kont użytkowników trzeba mieć technologiczną sposobność: bardzo szybkie łącza, pojemne dyski.

Plotka internetowa mówi, że gdy Seth Rich miał dokonać wycieku danych z DNC na rzecz Wikileaks, problemem na drodze była technologia – danych było tak ogromnie dużo, że nie można było tego po prostu nagrać na płytę DVD i wynieść. Podobno specjalnie w tym celu Kim Dotcom powołał swoją usługę internetową MegaUpload, za co później w bezprecedensowy i prawdopodobnie bezprawny sposób został w swojej posiadłości w Australii najechany przez siły specjalne USA, które skonfiskowały cały sprzęt i wywiozły do USA (!). Zanim to się stało, Rich zdążył wysłać dane przez MegaUpload i trafiły one do Wikileaks. Niedługo później Rich został zamordowany (a jego śmierć otacza mnogość kontrowersji) a Julian Assange z Wikileaks rozpoczął swoje dobrowolne uwięzienie w ambasadzie Ekwadoru.

(Jakkolwiek wszystko to jest zaliczane/spychane obecnie do teorii konspiracyjnych, Kim Dotcom wypowiadał się publicznie, że pośredniczył między Richem a Wikileaks a Wikileaks pośrednio – być może niechcący – sugerowało, że Rich jest źródłem danych.)

Generalnie więc tacy luźni, niezorganizowani hakerzy, nie mają zgromadzonej wiedzy – natomiast gromadzą dostępy do takiej.

Dana i datum w informatyce

Ostatnie dwa wpisy poświęciłem tematyce pojedynczej “danej” głównie w kontekście danych osobowych. Natomiast chyba warto też wskazać gdzie słowo “dana” oraz “datum” występują w informatyce.

Bazy danych

Na początek warto zaznaczyć, że informatyka jest bardzo obszerną dziedziną. Dwóch informatyków może mieć niewielkie pojęcie o swoich własnych niszach nawet jeżeli obaj tworzą elementy tego samego systemu. Przykładowo, programista może mieć szczątkową wiedzę na temat teorii baz danych. Z drugiej strony, administrator baz danych może mieć szczątkową wiedzę o programistycznej podbudowie silnika bazodanowego, na którym działa baza, którą administruje.

No ale do rzeczy.

Mówi się raczej powszechnie o “danej liczbowej”, “danej całkowitej”, “danej tekstowej” czy “danej typu tekstowego”. Rzadziej się słyszy o “danej elementarnej”. W bazach danych występuje abstrakcyjna dana – np. w bazach Oracle jest oracle.sql.Datum z którego dziedziczą wszystkie typy danych:

The root of Oracle native datatype hierarchy.

W PostgreSQL wewnętrzny typ danej abstrakcyjnej (widoczny z poziomu języka C) to “Datum” (zdefiniowana w postgres.h, funkcje do jej obsługi są w datum.h) .

 /* A Datum contains either a value of a pass-by-value type or a pointer to a value of a pass-by-reference type. Therefore, we require:
sizeof(Datum) == sizeof(void *) == 4 or 8
The macros below and the analogous macros for other types should be used to convert between a Datum and the appropriate C type. */

typedef uintptr_t Datum;

W GDBM również podstawowa struktura bazodanowa to “datum”.

The basic unit of data in gdbm is the structure:

typedef struct { char *dptr; int dsize; } datum;

Zresztą, drugi postulat Codd’a, twórcy modelu baz relacyjnych, posługuje się “datum”:

“Each and every datum (atomic value) in a relational data base is guaranteed to be logically accessible by resorting to a combination of table name, primary key value and column name.”

Teoria informacji

Pojęcie “danej” znalazłem ostatnio przypadkiem będąc w bibliotece w książce “Informacja” autorstwa prof. dr hab. Bogdana Stefanowicza, wydanie I, 2004 rok. Poniżej fragmenty:

Pojawia się ono także kilkukrotnie w innych publikacjach tego autora, np. w dostępnej online “Informacja. Wiedza. Mądrość” z 2013 roku.

Słownik angielsko-polski

Przeglądając książki na półce znalazłem stary słownik polsko-angielski przeznaczony dla informatyków z 1990 roku. A w nim “datum” jako “dana”. Poniżej zdjęcia.

“Datum” (liczba mnoga od “data”) znaczy “dana”