Rečima Vilijama Edvarda Deminga u naslovu ovog teksta Mihajlo Popesku se obratio prisutnima na panel diskusiji održanoj krajem prošle godine. Popesku je govorio o analizama velikih podataka kojima se bavi u svakodnevnom poslu, kao rukovodilac istraživanja kompanije Auspex International. Postavili smo mu nekoliko pitanja koja su se prožimala tokom samog panela Big data: resurs društva ili elita (ENG) u organizaciji Laboratorije za digitalnu sociometriju IFDT-i ICT Hub-a. Posle panela Popesku je dao intervju za za dnevne novine Politika i objavio komentar za sajt Research Live.
Pojam big data jedan je od zvučnih danas. Ipak, često se upotrebljava u nedovoljno preciznom značenju, nekad čak i pogrešno. Kako biste vi odredili ovaj pojam, šta su veliki podaci? Da li vidite razliku između big data i big social data?
To je mitska pojava, o kojoj svi pričaju, a niko je nije video. Pojam je nedovoljno definisan, a isuviše često se koristi. Pominjanje velikih podataka nije poželjno u ozbiljnim inženjerskim diskusijama.
Definisao bih Big Data kao podatke koji se ne mogu čuvati, obrađivati i efektivno analizirati lokalno na jednom računaru. Naprotiv, za to nam je potrebna drugačija infrastruktura kao što je klaud ili klaster računara.
Big Social data su vrsta Big Data koje korisnici društvenih mreža generišu – aktivno i pasivno. Pasivno generisani podaci su vaši loginovi, pregledi, na čemu se i koliko zadržavate i slično. Aktivno generisani podaci su vaši statusi, lajkovi, šerovi, slike, video objave i slično. Procenjuje se da svaki korisnik Facebook-a dnevno generiše 1mb podataka što je za 2.5 milijarde korisnika 2500 TB ili 2.5PB podataka dnevno. Zamislite izazov organizacije, skladištenja i analize takvih podataka.
Veliki podaci se nekad nazivaju naftom novog doba, svetim gralom Četvrte industrijske revolucije. Kakvo je vaše viđenje ove tvrdnje? U svetlu big data, ko su elite? Kakav je kapitalizam zasnovan na podacima?
U biznisu pobeđuje onaj ko donosi bolje odluke. Dobre odluke su potkrepljene činjenicama. Onaj ko ima pristup podacima koji mu omogućuju da razume neki fenomen interesantan za neku tržišnu ili društvenu kompleksnost, može lakše i brže da uoči trendove, šanse i pretnje i da svoja jedra postavi tako da putuje brže, ka cilju. Dakle, podaci imaju vrednost samo onda kada se koriste u ove svrhe i kada su relevantni za problem koji želimo da rešimo. Međutim podaci sami po sebi nemaju vrednost ukoliko iz njih ne izvlačimo saznanja. Za to su potrebni alati i kompleksni setovi veština – znanje iz domena, statistike i verovatnoće i programiranja. Takođe, podaci kao ljudska tvorevina u sebi sadrže informacije i šumove, koji često potiču iz ljudskih predrasuda ili bias-a. Za ovo je potreban organizovan timski napor naučnika iz različitih oblasti kako bi se šumovi u podacima sprečili, prepoznali i otklonili.
Elite su GAFA: Google, Amazon, Facebook i Apple. Elite u Big Data su svi oni koji svoje odluke vode podacima. Imao sam priliku da sretnem neke sjajne ljude u Beogradu koji se bave naukom o podacima. Oni su jednom mobilnom operateru uštedeli milione tako što su kroz algoritme pokazali da im ne treba 100 već 30 baznih stanica. Ovi mladi ljudi sada to znanje žele da izvezu.
Kapitalizam zasnovan na podacima je u suštini kapitalizam novog doba ili kapitalizam na steroidima. Daću vam konkretan primer. Amazon koji je početno zamišljen kao Internet prodavnica za knjige danas pravi najveći prihod kroz Amazon Web Services. AWS je rešenje koje je Amazon razvio kako bi mogao da skladišti i obrađuje ogromne količine transakcionih podataka ali i podataka koje su ljudi sami generesiali kroz feedback rejtinge i slično. Amazon je koristio i mašinsko učenje kako bi preproučivao proizvode koji su relevantni za kupce. Takva infrastruktura koju je Amazon razvio je jako skupa. Male i srednje kompanije to ne mogu da priušte. S druge strane one mogu da priušte pristup takvoj infrasturkturi po potrebi i uz malu nadoknadnu. Tako je nastao AWS koji danas generiše najviše novca. Amazon je od AWS generisao 26 milijardi dolara prošle godine, a rast prodaje u poslednje kvartalu je 35%.
Zašto su skandali oko podataka postali centralna tema medija? Da li je medijska panika opravdana? Na kome je odgovornost oko takvih propusta? Da li su zakoni o zaštiti podataka dorasli izazovima savremenog doba?
Konkretno, podaci su dobili na medijskom značaju zahvaljujući politici, Trampu i Kembridž Analitici. Politika polarizuje, a ceo taj novi domen oko podataka nije posebno jasan ljudima tako da ljudi ne znaju šta od podataka postoji o njima.
Ljudi pretpostavljaju da neko raspolaže “svim o svemu,” čak i o vašim bankovnim računima, porukama, mejlovima, svemu na vašem računaru i slično. Postojalo je uverenje i da neko može da vas targetira na individualnom nivou, što nije tačno.
Panika je neopravdana zato što je došlo do širenja neistina i neproverenih činjenica. Neopravdana je zato što se nije pojavio ni jedan čovek koji je rekao da je izmanipulisan u političke svrhe na internetu iz razloga jer se neko poigrao saznanjima o njemu.
S druge strane, panika je opravdana zato što se shvatilo da je pravni okvir u suštini nedorastao izazovima realnosti na terenu. Na primer, postavljaju se pitanja da li je vaše psihološko profilisanje zadiranje u vašu privatnost i da li je u redu da vas kao pojedinca prisutnom u biračkom spisku klasifikujemo po raznim parametrima.
Tehnologija je eksponencijalna a ljudi nisu. Zakonodavci će uvek kasniti za razvojem tehnologija. Zato je bitno da se u školama gde se uče veštine baratanja podacima, u biznis školama i u okviru političkih nauka radi na usađivanju vrednosti koje će biti moralni kompas donosiocima odluka i izvršiocima. Dobar karakter bitniji je od veština. Oni koji imaju veštine imaju najveću odgovornost da pokažu primere dobre prakse.
Kako vidite budućnost primene big data u društvenim naukama? Koja uzbudljiva istraživanja se mogu sprovesti i kako ona mogu da budu korisna?
Kao što sam rekao ranije, društvene nauke i big data mogu da budu jako dobar tandem. Sociologija je uvek, barem kod nas, bila posmatrana kao salonska tj. nepraktična nauka. To je stereoptip. Veliki podaci omogućili bi sociolozima da bolje razumeju mehanizme društvenih pojava i da intervenišu kako bi se neke loše stvari u durštvu amortizovale ili sasekle u korenu. To bi značilo da su sociolozi postali primenjeni naučnici – agenti stvaranja društva blagostanja.
Potrebno je prepoznati sada da će ove veštine biti potrebne i raditi na njima, barem na bazičnom nivou kako bi posle mogla da se vrši nadogradnja
Moramo da se menjamo . Novo vreme zahteva učenje. Ne smatram da je potrebno da svi postanemo experti dana science-a, ali verujem da će ove veštine za 5 godina postati standardan zahtev, kao što se nekada tražilo da znate da koristite word i excel ili da pričate engleski.
Za ovo je potrebno da čitav niz aktera koji uključuje državne institucije, korporacije, udruženja građana, međunarodne organizacije. Cilj je ponuditi podatke kao otvoren resurs.