Pokaż/Ukryj opcje strony

Wielkie Dane czy Wielki Brat

data publikacji: 23 Października 2014

autor: Piotr Aleksandrowicz

BIG DATA Co to jest? Z Wikipedii: „termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych, których przetwarzanie i analiza jest trudna, ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowej wiedzy". Czyli nadal niewiele wiemy co to jest, ale chyba nic porywającego.

Analitycy firmy doradczej Deloitte precyzują: „Powszechnie uważa się, że Big Data zasłużyła na przydomek "Big"/„wielkie" ze względu na tzw. cztery V („4Vs") tj.: „Volume (ogromna liczba), Variety (duża różnorodność), Velocity (zawrotna szybkość pojawiania się danych i konieczność analizowania ich w czasie rzeczywistym) oraz Value (znacząca wartość)".  Niby wiadomo o co chodzi, ale nie do końca.

To może inaczej. Termin powstał na początku tego tysiąclecia (wtedy jeszcze jako 3 V, bez Value). Teraz Deloitte prognozuje, że rynek Big Data będzie wart 48 mld dolarów w 2015 roku i rośnie w tempie 40 procent rocznie. Ponad 4 mln miejsc pracy powstanie w tej branży. Największy dochód z wykorzystania analiz Big Data mają ubezpieczenia, telekomunikacja, wysoko zaawansowane technologie, banki, media i handel. Big Data umożliwia personalizację oferty, poznanie upodobań klienta i przewidywanie jego zachowań oraz prognozowanie trendów.

Big Data, czyli informacje i dane. Miliardy i miliardy miliardów bitów przetworzone w analizy, gdzie ograniczeniem jest tylko kreatywność analityka. Niby wszystko to już znaliśmy wcześniej ze statystyki, marketingu, czy badań opinii publicznej, ale skala zjawiska jest nieporównanie większa.

By  naprawdę zrozumieć, jaka rewolucja nas czeka, trzeba przeczytać dobrą monografię na temat Big Data. I właśnie taka się ukazała. Viktor Mayer-Schönberger, profesor uniwersytetu w Oxfordzie i Kenneth Cukier, dziennikarz The Economist, napisali „Big data: Rewolucja, która zmieni nasze myślenie, pracę i życie", a wydało wydawnictwo MT Biznes.

Dawno nie czytałem rzeczy tak pasjonującej, a równocześnie napisanej zrozumiałym dla laika językiem. Jak dobry kryminał zaczyna się od groźby pandemii w 2009 roku i systemu opracowanego przez Google do przewidywania, jak będzie rozprzestrzeniał się wirus grypy. Systemu, który okazał się niewiele mniej skuteczny, a znacznie szybszy w tworzeniu prognoz, tańszy i bardziej aktualny niż tradycyjny system rządowy oparty o informacje epidemiologiczne. Google wykorzystał z okresu poprzedniej epidemii zapytania osób poszukujących informacji na temat grypy w wyszukiwarce, zidentyfikował frazy dające najlepsza korelację z faktycznymi danymi o zachorowaniach i stworzył algorytm do zastosowania przy kolejnej epidemii.

Więc najpierw mamy pandemię, a potem napięcie narasta. Czytamy o znakomitym przykładzie zastosowania Big Data w liniach lotniczych – a ściślej o opracowanym na podstawie Big Data narzędziu, dzięki któremu pasażerowie kupujący bilet wiedzą, czy oferta jest atrakcyjna, czy też można się spodziewać, że za jakiś czas znajdziemy jeszcze korzystniejszą. Model wykorzystywał dane ze stron internetowych, porównywał daty i ceny biletów, by na tej podstawie znaleźć algorytm przewidujący, czy bilety zdrożeją czy stanieją jeszcze na dany dzień i trasę. Nie znał polityki cenowej linii lotniczych, czynników które decydują o takich a nie innych cenach, sposobach dyskontowania, wskaźnikach zapełnienia czy  promocjach. „Model nie wiedział, dlaczego [ceny] się zmieniają, tylko jak". Wystarczyło, zadziałało. Twórca planował rozszerzenie prognoz na pokoje hotelowe, bilety na koncerty czy ceny używanych samochodów. Niestety, wcześniej jego firmę kupił Microsoft za 110 mln dolarów i włączył do wyszukiwarki Bing.

Początkowo Big Data oznaczało nowe narzędzia do analizy tak wielkiej liczby informacji, że stare nie wystarczały. Teraz  „termin ten obejmuje to, co może być zrealizowane w dużej skali, a nie może być wykonane w małej, w celu uzyskania nowej wiedzy lub stworzenia nowej wartości w sposób, który zmieni rynki, organizacje, relacje między rządami i obywatelami" – definiują Big data Cukier i Schönberger.

Dalej, snując rozważania o znaczeniu Big Data, podkreślają, że społeczeństwo będzie musiało porzucić  swoją obsesję poszukiwania przyczynowości na rzecz korelacji – „nie będziemy wiedzieli dlaczego, ale zaledwie co". To wystarczy. „Prawdziwą rewolucję powodują nie maszyny, które przetwarzają dane, lecz dane same w sobie i to, jak my ich używamy".

Tych danych są gigantyczne ilości, obojętne czy dotyczą finansów, astronomii czy sekwencji DNA (na początku XXI wieku poznanie pierwszego genomu zajęło naukowcom 10 lat, teraz maszyna robi to w jeden dzień). Eksa-, tera-, petabajty – nawet nie ma sensu sprawdzać, co oznacza każdy przedrostek. Zawsze są to ilości niezwykłe – Google przetwarza codziennie tysiące razy więcej informacji niż wszystkie zebrane na piśmie w Bibliotece Kongresu. Facebook dostaje 10 mln zdjęć w ciągu godziny do przetworzenia. W 2012 r. wysyłano codziennie 200 mln tweetów, a przecież nie tylko portale społecznościowe kreują informacje. Analiza Big Data polega na przewidywaniu, na szacowaniu prawdopodobieństwa, np. że email jest spamem, że wystukane na klawiaturze „nei" to jest „nie", że trasa i prędkość pieszego wskazuje, że zaraz przekroczy jezdnię w niewłaściwym miejscu (samochód Google bez kierowcy zacznie w tym momencie hamować), itd.

Pojawienie się zjawiska Big Data odzwierciedla trzy zmiany w metodach analizy informacji, które przekształcą sposób naszego rozumienia i organizacji społeczeństwa – podsumowują autorzy. Po pierwsze, ponieważ analizować można dużo więcej danych niż kiedyś (a niekiedy nawet wszystkie), nastąpi odejście od badań wykorzystujących próby losowe. Po drugie – obserwowanie tak wielkiego spektrum danych zwalnia nas z konieczności zachowania dużej dokładności, „To co w skali mikro tracimy na dokładności, w skali makro zyskujemy na lepszym rozumieniu określonego fenomenu". Po trzecie wreszcie, nie będziemy poszukiwać przyczyn, w zamian odkrywając korelacje i schematy, które umożliwiają nam nowe rozumienie określonego zjawiska.

Opisuję dość szczegółowo ten fragment książki z trzech powodów. Po pierwsze, taka jest  zawartość pierwszych rozdziałów. Po drugie, opis uzasadnia, dlaczego powstanie technologii i analiz Big Data jest naprawdę Big wydarzeniem w historii człowieka. I po trzecie wreszcie, używając tekstu autorów, pokazuję ich język i łatwość z jaką przekazują swoją wiedzę.

Kolejny rozdział przedstawia koncepcję danetyzacji, czyli zbierania informacji o wszystkim - o sprawach, rzeczach, zjawiskach i wydarzeniach, włącznie z takimi, o których nie myśleliśmy nigdy, że mogą być źródłem danych. Następne rozdziały opisują jak Big Data zmienia naturę rynków, biznesu i społeczeństwa. Tak jak coraz mniej ważna jest infrastruktura fizyczna, a coraz ważniejsze wartości niematerialne, jak marki czy własność intelektualna, tak coraz ważniejsze będą zbiory danych w posiadaniu firm. Ich pojawienie się w bilansach korporacji jest tylko kwestią czasu - twierdzą autorzy. Wreszcie trzy ostatnie rozdziały opisują zagrożenia jakie niesie Big Data, kwestię kontroli nad zjawiskiem i jego przyszłości. 

Zagrożenia są równie pasjonujące w lekturze, jak przykłady Big Data i uruchamiają wyobraźnię. Czasem jest ona jak z thrillera. Jak choćby scena z „Raportu mniejszości", w której człowiek zostaje aresztowany zanim cokolwiek zrobił, ponieważ jasnowidze wskazali, że popełni przestępstwo. W rzeczywistości nam współczesnej nie ma jasnowidzów, ale są  programy analizujące Big Data, które wskazują, że dana osoba może popełnić przestępstwo. Na razie podejrzane osoby (także miejsca, wydarzenia, sytuacje) są  jedynie intensywnie monitorowane, ale czy tak będzie zawsze? Już obecnie analiza Big Data jest stosowana przez rady do zwolnień warunkowych, decydujące, czy można zwolnić przestępcę przed terminem na wolność. Ten wątek potencjalnego karania nie za działanie, tylko za jego prawdopodobieństwo, autorzy uznają za fundamentalny. Podobnie jak „fetyszyzację" danych, bez wnikania skąd się biorą i co oznaczają. Uznają to w  wywiadzie dla Amazon.com jako najciemniejsze strony Big Data, ważniejsze od inwigilacji i utraty prywatności. 

Inwigilacja, likwidacja prywatności, bo anonimowość jest nie do zagwarantowania,   dystrybucja informacji poza obszary pierwotnego ich przeznaczenia i zastosowania – to kolejne zagrożenia. Podobnie jak konkretne zastosowania np. ograniczenie w dostępie do kredytów nie dlatego, że nie spłaciliśmy kiedyś jakiegoś, tylko dlatego, że taki powstał nasz profil na podstawie kompletnie innych danych. Albo wyższy koszt ubezpieczenia, bo mamy gorsze oceny na studiach. Dodatkowe kontrole na lotniskach za nazwisko, kolor skóry i tysiąc innych czynników, o których nawet nie mamy pojęcia. Tego typu profilowanie klientów czy osób podejrzanych było znane już wcześniej. Big Data pogłębia je w sposób bardziej zindywidualizowany i mniej dyskryminujący – twierdzą autorzy. Być może, ja czuję się jak bym stanął przed właścicielem danych na golasa. Ba, nie dość, że na golasa, to jeszcze czasami widzą oni coś zupełnie innego, niż istnieje naprawdę. Albo - i to już najgorsze – wiedzą o mnie więcej, niż ja sam. Brr.

Bardzo ciekawe są rozważania związane z etycznością (albo nieetycznością) Big Data, ściślej - nie samego zjawiska, tylko sposobu wykorzystywania jego prognoz. Jeśli Big Data prowadzić będzie do karania ludzi za ich skłonności, a nie działania, to zaneguje to ideę wolnej woli i podważy ludzką godność. Grozi nam dyktatura danych, które mogą - nawet jeśli są Big - nie oddawać sensu tego, co miały pokazać i prowadzić do fatalnych wniosków. Zawsze grozi też niewłaściwe, niemoralne czy przestępcze wykorzystanie stworzonych analiz. Dane często służą wzmocnieniu tych, którzy mają władzę, uprzykrzając życie obywatelom zamiast je polepszyć – cytują autorzy pracę antropologa Jamesa Scotta z uniwersytetu Yale.

Autorzy są zwolennikami rozsądnego, ale szerokiego stosowania Big Data. Jednak  „jesteśmy posłańcami z wiadomością o Big data, a nie ewangelistami" - zaznaczają w wywiadzie dla Amazon.com. Podsuwają także metody zabezpieczeń przed decyzjami  szkodliwymi dla obywateli, a podejmowanymi w oparciu o analizy Big Data.  Pierwsze zabezpieczenie to otwartość; algorytmy i dane dotyczące pojedynczych osób przy podejmowaniu decyzji ich dotyczących powinny być jawne. Po drugie – potrzebna jest certyfikacja wiarygodności tych algorytmów przez doświadczonych i krystalicznie uczciwych algorytmików. Po trzecie – prawo sprzeciwu obywatela wobec decyzji opartych na Big Data. Nie można jednak się oprzeć wrażeniu, że zabezpieczenia te są skromne biorąc pod uwagę, że w tym samym czasie tysiące inżynierów danych będą doskonalić Big Data na potrzeby rządów, administracji czy korporacji, a nie obywateli.

Głosów krytycznych o książce jest w recenzjach czytelników na amazon.com niewiele, jednak nie dotyczą ewentualnego braku obiektywizmu autorów czy zafascynowania Big Data. Jeżeli już, to raczej powtórzeń i rozwlekłości. Kilku recenzentów zauważyło, że autorzy mieli materiał na obszerny artykuł, a napisali książkę. Coś w tym jest, jednak nawet mimo powtórzeń, książkę czyta się bez znużenia.

Tak więc z jednej strony mamy wizję świata, w którym o naszym losie decydują algorytmy i profilowanie, a nie my sami. A z drugiej - niewątpliwie zalety kreatywnego stosowania analiz Big Data. Bohaterowie ostatniego rozdziału książki („Przyszłość") – to młodzi specjaliści od Big Data zatrudnieni przez burmistrza Nowego Jorku, którzy stworzyli system trafnie przewidujący, gdzie mogą wystąpić zagrożenia pożarowe w 900 tysiącach domów metropolii, choć nigdy wcześniej w nich nie byli. Wykorzystali, tworząc bazę danych, tak odległe informacje jak te o nielegalnych przeróbkach, o spóźnionych płatnościach podatkowych, o anomaliach w zużyciu mediów, nieopłaconych rachunkach za prąd, wezwanych karetkach pogotowia, skargach na występowanie szczurów, a nawet ostatnio przeprowadzonych pracach murarskich. Gdy w końcu zebrali dane z 19 agencji i je usystematyzowali, zaczęli  poszukiwać korelacji z przypadkami pożarów w ostatnich pięciu latach. Opracowali program i zaczęli 200 inspektorom przeciwpożarowym w Nowym Jorku podawać adresy „podejrzanych" nieruchomości. Dotychczas wybierając obiekty do inspekcji inspektorzy opierali się na doniesieniach mieszkańców, intuicji i doświadczeniu, ale w efekcie tylko w 13 procentach przypadków stwierdzali na miejscu sytuację na tyle poważną, że wymagała opuszczenia budynku przez mieszkańców. Program analityków Big Data dawał trafność ponad 70 na 100.

W Polsce Big Data też zaczyna być stosowana. Alior Bank przyznał, iż buduje zespół fachowców, którzy będą analizowali dane na temat klientów z portali społecznościowych i generalnie ich zachowań w Internecie, po czym łączyli je z danymi firm  telekomunikacyjnych. Można jedynie przypuszczać, że wiele innych instytucji finansowych, telekomów czy sieci handlowych także wykorzystuje Big Data, choć nie chwali się tym. Wystarczy przypomnieć sobie, że w hipermarketach od Castoramy po Auchan ciągle pytają się o kod pocztowy – to bardzo prymitywna metoda pomagająca dostarczać gazetki reklamowe albo lokalizować ew. nowe sklepy. Ale Główny Inspektor Ochrony Danych Osobowych sugeruje, żeby podawać kod zbliżony, ale niedokładny, co uniemożliwi powiązanie z numerem karty płatniczej klienta i jego „deanonimizację".

Ciekawe, dlaczego Inspektor nie powiedział, żeby w ogóle nic nie mówić. Niżej podpisany tak czyni. Co nie zmienia faktu, że i tak o nim wszystko wiedzą.