Obraz świata w Big Data

Czy dziś doskwiera nam już nasz "cyfrowy odcisk"? Czy, i jak bardzo będzie doskwierał w przyszłości? A tak w ogóle: czy choćby w przybliżeniu wiemy, jak wygląda?

FOTO
GRATISOGRAPHY
Chyba pierwszym wielkim krokiem w skuteczną penetrację różnorodnych źródeł danych na całym świecie była dobra wyszukiwarka. Wpisujesz wszystko co zechcesz, nawet z błędami i dostajesz dobry wynik. Pamiętając coś, niezbyt dokładnie, wpisałem „płomień pochłonie malowane dzieje”, po 0,28 sekundy 8040 odpowiedzi. Już pierwsza w 100% trafna, właśnie o ten wiersz mi chodziło. Nawet bardziej niż trafna, bo wyszukiwarka dobrze znalazła mimo błędu w pytaniu. Uprzejmie skorygowała, bowiem ten fragment wiersza brzmi: „płomień rozgryzie malowane dzieje”. Bardzo istotną cechą tego rodzaju wyszukiwania jest, że od razu widzimy, czy znalazła dobrze – czy dostaliśmy to czego potrzebujemy.

W wielkim, ciemnym pokoju

Inną drogą doskonaliła się dziedzina Business Intelligence, poczynając od prostych raportów z baz danych. Dzięki tej ścieżce rozwoju możemy dostawać bardzo skomplikowane raporty. Kiedyś z rozbudowanych, precyzyjnie zdefiniowanych hurtowni danych. Dzisiaj nawet nie musimy przeładowywać danych z zasobów systemów transakcyjnych do hurtowni – możemy trzymać i przetwarzać całe dane w pamięci operacyjnej. Pozwala to szybko przeprowadzać bardzo rozbudowane i złożone analizy, ale dla prostoty weźmy trywialny przykład. Ze wszystkich transakcji, przeprowadzonych w ciągu kilku lat przez nasz system logistyczny, liczymy średni koszt jednej dostawy dla każdego naszego kontrahenta. Tutaj już nie mamy realnej szansy na osobiste sprawdzenie czy każda pozycja jest dobrze wyliczona. Ale użyliśmy precyzyjnego, jednoznacznego i deterministycznego algorytmu. Dane uważamy za w pełni poprawne, bo są wynikiem księgowań, czyli rygorystycznego i weryfikowanego procesu. Więc jeśli programista się nie pomylił – a to sprawdziliśmy wszechstronnie testując program - znowu zakładamy, że z tej masy, może milionów transakcji, wymłóciliśmy wynik w praktyce sto procent precyzyjny.

Zobacz również:

Upewniają nas powyższe sukcesy w przekonaniu, że komputer zawsze wszystko nam akuratnie wyliczy, wyszuka, przeanalizuje. Różne formaty, różne źródła, poradzi sobie – już nie raz sobie przecież poradził. A jeszcze do tego zajmą się tym teraz naukowcy – „data scientists”, czyli dodatkowo naukowa precyzja zagwarantowana.

Znacznie śmielej zaczynamy więc szukać, nawet gdy nie wiemy jeszcze czego szukamy – jedno ze spektakularnych zadań Big Data to znaleźć niewidoczne, nieznane wcześniej, niemożliwe do zobaczenia inaczej, wzorce w wielkich zasobach danych rozproszonych po różnych źródłach.

Skąd będziemy wiedzieli, kiedy przestać? Skąd będziemy wiedzieli że znaleźliśmy coś naprawdę cennego, albo przeciwnie, czy nie jesteśmy na zupełnie fałszywym, choć obiecująco wyglądającym tropie? Czy nie szukamy w wielkim, ciemnym, zagraconym pokoju czarnego kota, którego tam nie ma?

Szyfr Trurla

Stanisław Lem opisał jak wielki konstruktor Trurl napisał do Doradcy króla Mandryliona list, który wzbudził podejrzliwość w otoczeniu władcy. Poddano list różnorodnym analizom w poszukiwaniu tajnego przesłania, i okazało się, że można go odczytać na 318 sposobów, m.in.: „Ciotkę parowozu przetaczać na sznyclach”, „Ten, kto kogo ma lub nie ma, sam zawiśnie pod obiema”, a także: „Z agrestu, poddanego torturom, niejedno można wyciągnąć”. Ten ostatni uznano za klucz do szyfru i po trzystu tysiącach dalszych prób okazało się, że gdy dodać wszystkie litery listu, odjąć od nich paralaksę słońca i roczną produkcję parasoli, to wychodzi jedno słowo: „Krucafiks”. Znaleziono obywatela nazwiskiem Krucafuks. Uznano, że literówkę Trurl wprowadził dla zatarcia śladów, i Krucafuksa aresztowano. Po intensywnych przesłuchaniach, zeznał, iż jest w zmowie z Trurlem dla zabicia monarchy.

Wszystkich, którzy mają zamiar z Big Data skorzystać do znalezienia w świecie jakichś ukrytych zależności gorąco zachęcam do przeczytania tego opowiadania Stanisława Lema w całości (1). Żeby zachęty nie osłabiać, nie napiszę jaki był finalny rezultat dla króla, którego tajne służby list rozszyfrowywały.

Znalezienie nietrywialnych wyników jest na pewno trudne. Wymaga wysiłku, wiedzy, kreatywności, ale też i motywacji. Na pewno warto zastanowić się jak motywować „data scientists”. Czy standardowo - premia za znalezienie „czegoś”?

Pamiętając o mocy ale i o ograniczeniach Big Data, z zainteresowaniem i czasem z niepokojem, patrzę na różne ścieżki rozwoju tych technik, zdolne produkować coś co nazwał bym „cyfrowym odciskiem” życia każdego z nas. Śladem, a raczej wielowymiarowym obrazem, jaki zostawiamy w cyfrowym świecie. Robimy to ciągle, choćby płacąc kartą za bilet lotniczy –wybrałem ten przykład, bo tu nie mogę łatwo oszukać podając dane osobowe. Jak podam nazwisko sąsiada, albo lipny numer paszportu, to mnie potem nie wpuszczą do samolotu. Płacąc potem tą samą kartą na stacji benzynowej może jeszcze dołożyłem coś o swoim samochodzie. I tak dalej, dzień po dniu, rok po roku.

Przeczytałem niedawno mocne oświadczenie, że właściciel witryny internetowej jest w stanie przewidzieć moje kolejne ruchy na stronie, nawet nie tylko co obejrzę, ale co kupię. Prawdopodobnie na podstawie analizy historii moich ruchów w zestawieniu z analizą historii ruchów innych gości witryny. To zapewne nie wymaga technik Big Data, ale również, zapewne stwarza pole do ciekawych synergii.

Na marginesie, w takich „witrynowych” zastosowaniach jesteśmy bliżsi możliwości weryfikacji. Życie szybko odpowie czy kliknąłem to co miałem przeznaczone kliknąć. Weryfikacja pozwoli poprawiać skuteczność. Więc jeśli nawet oświadczenie było trochę na wyrost, to będzie coraz realniejsze. Jak synergicznie połączymy takie systemy z moim „cyfrowym odciskiem” to widzę dla siebie smutne następstwa – dla tego pana , przy stanie jego karty kredytowej i jego zwyczaju wyjeżdżania w określonym miesiącu, wszystkie bilety lotnicze będą np. 20% droższe. (Wydaje mi się, że skoro sprzedawcy tak się cieszą z tych systemów, to chyba kupujący maja prawo nie być pewni, czy w pełni tę radość z postępu podzielają)

Ale to tylko przykładowy, mały kawałek „cyfrowego odcisku” mojego życia. Suma informacji na mój temat (i Wasz też) jest ogromna.

Czy możemy tego „cyfrowego odcisku” nie mieć?

Kiedyś mogliśmy (swoją drogą, jakże niedwuznacznie tak właśnie spolszczona nazwa zjawiska brzmi... cyfrowy nagniotek? clavus digitalis (łac.) - red.). Uważam, że właśnie technologia Big Data zmienia to radykalnie. Zawsze jakiś okruch danych zostawiam. Jeśli obietnice Big Data się spełnią, to szybko te okruchy poskłada się w całość, poprzypisuje, i już wiadomo, że ten facet co zamieszkał w hotelu we Wrocławiu w 2015, to ten sam co leciał samolotem do Szczecina, kupił piwo na dworcu w Gdańsku, uśmiechnął się do barmanki blondynki, nie uśmiechnął się do brunetki (nie jesteśmy daleko od upowszechnienia szybkiej, taniej analizy także danych graficznych. A w każdym barze oczywiście monitoring wizyjny).

Może ktoś powie: nie ma szans, to się wywali, prędzej czy później na pewno się pomylą te Big Daty. Ale to co? Lepiej będzie? Ten "cyfrowy odcisk" będzie podstawą coraz większej liczby decyzji podejmowanych o mnie i za mnie. Jeśli będzie odległy od prawdy to lepiej? Żeby na przykład zaciekłemu abstynentowi ćwierć ekranu systematycznie reklamami whisky zasłaniać? Jeszcze się może rozpić z rozpaczy.

Epizodycznie to może być zabawne. Na przykład jak byłem w Austrii na nartach, tamtejsza „Big Data” wyświetliła mi reklamy dziewczyn z Pruszkowa. Faktycznie mieszkam niedaleko od Pruszkowa, ale jak właśnie jestem w Wagrain to akurat jestem od Pruszkowa daleko. To chyba nawet Small Data mogła by wiedzieć. Co więcej, zawsze na narty jeżdżę z Żoną, a w Polsce żadnej wielkości Data nigdy mi nie proponuje reklam agencji. Więc budzi to wesołość, ale jakby tak miało być przez całe życie, to jednak bez sensu.

Czy będę wielbłądem?

I jeszcze jeden aspekt obietnic nowych technik. Dane, które budzą wielkie nadzieje, że chociaż bez formatu, albo w formacie egzotycznym, i poza systemami transakcyjnymi, ale teraz wreszcie damy radę je spenetrować i wyciągać wnioski na ich podstawie. Kopalnia wiedzy. Ale te dane, to mogą być marnej jakości. Bo skoro je zapisywano jakoś przy okazji, i bez jasnych praktycznych zastosowań, to nikomu na ich jakości zbyt mocno nie zależało.

Znowu prosty przykład. W pola formularzy, które nie były obowiązkowe wpisywano często cokolwiek. Też tak ja robiłem i robię. Więc jeśli ktoś mój „cyfrowy odcisk” zechce budować od początku (cyfrowego) świata, to może się okazać, że w pewnych aspektach bytu cyfrowego jestem syberyjskim tygrysem i do tego kolekcjonuję kapelusze z piórkiem. Jak to by wpłynęło na moje życie? Nie mam pojęcia. Ale może kiedyś jakaś Meta Big Data będzie w stanie prognozować nie tyko moje zachowania, ale też akcje „drugiej strony”. I wtedy mnie poinformuje z wyprzedzeniem (za niewielką opłatą?), co mi inne Big Daty zaoferują, a jako bonus doda być może informację, co ja z tych propozycji ostatecznie wybiorę.

Dziś jeszcze, gdy wchodzę do zwykłego biurowca, to nikt nie ucieka z krzykiem, jakby zobaczył tygrysa. Zapisują moje nazwisko w książce, której jedyny egzemplarz (bez kopii zapasowych), zamkną w szafie a za kilka lat zniszczą, a przy tym obiecują, że mam prawo wglądu do tej „bazy” gdzie są moje dane i ewentualnej ich korekty. Czy na przyszłość mam chociaż cień szansy obejrzeć jak wygląda mój cyfrowy odcisk i zażądać jego zmiany lub usunięcia? Dociec gdzie i ile mam różnych takich odcisków?

Dla mnie odpowiedź wydaje się być oczywista.

(1) Stanisław Lem, Cyberiada, Bajka o trzech maszynach opowiadających króla Genialona.

Andrzej PilaszekKliknij, aby powiększyćAndrzej Pilaszek

O Autorze
Andrzej Pilaszek ukończył na Uniwersytecie Warszawskim studia informatyczne oraz organizację i zarządzanie a podyplomowo program MBA z University of Illinois.

Doświadczony manager w obszarze IT, przede wszystkim w zakresie zastosowań biznesowych. Skutecznie łączy wiedzę i duże doświadczenie informatyczne, z doświadczeniem w zakresie zarządzania biznesowego, rozwiązując problemy na styku informatyki i biznesu.

Na początku lat 90. z firmą analityczną IDC, przygotowywał pierwsze raporty o polskim rynku IT. Współpracował z polskim „Computerworld” od wydania nr 1.

Przez wiele lat zaangażowany w rozwój zastosowań IT w elektroenergetyce i gazownictwie, pracując jako manager w dużych firmach informatycznych, a potem jako niezależny konsultant i project manager.

Od roku 2012 dyrektor informatyki w PGE Energia Odnawialna SA, a następnie (do lutego 2016) dyrektor Departamentu Strategii IT w PGE SA.

30-31 marca 2017 r. Zarejestruj się Już po raz dziesiąty stowarzyszenia ISSA Polska, ISACA Warsaw Chapter oraz magazyn Computerworld zapraszają na konferencję SEMAFOR - Forum Bezpieczeństwa i Audytu IT, która odbędzie się 30-31 marca 2017 r. w Warszawie. SEMAFOR to jedno z najważniejszych wydarzeń związanych z IT security w Polsce.

5-6 June 2017 Zarejestruj się Scrum Days will not be just another agile conference you’ve seen before. Our mission is to create an environment where people can meet, build social networks, do business and have fun. We were tired of hours of talking, missed subjects, not enough room to meet and strict schedule. So we present to you a whole new conference experience.