2016. április 12.
Nagy adattömegek, azaz a „big data” társadalmi felhasználási lehetőségeit és hatásait mutatták be a hallgatóknak a Liska Tibor Szakmai Hetek rendezvénysorozat keretében.
„Viszonylagos, hogy mi számít nagy adattömegnek a mai, rohamtempóval fejlődő technológiai világban. Az információ hamar „erodálódik”: ami néhány évvel ezelőtt még feldolgozhatatlan mennyiségű adatnak tűnt, ma már a tenyerünkben egy adathordozón elfér. Átmeneti időszaknak nevezhető az, amiben élünk: e méret- és felfogásbeli korlátok állandóan változnak” – hangzott el Székely Iván, a BME Villamosmérnöki és Informatikai Kar Elektronikai Technológia Tanszék docense előadásában a BME GTK Liska Tibor Szakkollégium rendezvénysorozatán.
A BME oktatója „hamisítatlan techno-realistának” vallotta magát. Abban hisz, hogy a „big data”, vagyis az olyan tömegű és számítási igényű adatállomány, amelyet hagyományos eszközökkel nem lehet feldolgozni, önmagában nem teszi boldogabbá a társadalmat. „Bizonyos problémákat megold, ám újakat is generál” – fogalmazott. Székely Iván az empirikus szociológia oldaláról járta körbe a „big data” témáját, és úgy vélte, hogy „nem a méret, hanem a potenciál lényeg, azaz, hogy mire használják ezt az óriási adatmennyiséget”.
Előadásában érdekes példák sorozatával szemléltette a „big data” társadalmi alkalmazásának lehetőségeit. A nemzetközi szakirodalomban is az egyik legtöbbet idézett hasonlatot idézte a 2009-es H1N1 járvánnyal kapcsolatosan: „az orvosok első jelentései a betegeikről és azok feldolgozása között hetek teltek el, hiszen a kutatók jelentős mennyiségű információt kényszerültek feldolgozni. Ám a fertőző betegségek terjedése miatt hatékonyabb monitorozási módszerre volt szükség.” A Google próbált megoldást találni a problémára: az interneten begyűjtött adatok jótékony társadalmi felhasználását kísérelte meg. Egy matematikai algoritmust hozott létre, amellyel összevetette az internetes felhasználók betegségekkel kapcsolatos 50 leggyakrabban feltett kérdését a járványok adataival, erre alapozva 450 millió tesztet futtatott le, és terjedési előrejelzéseket prognosztizált. „Gyors, ám orvosilag hatástalan modellt alkotott, ami ugyanakkor jelentős lépés volt a „big data” témakörében” – fűzte hozzá.
Székely Iván felvetette, hogy a „big data-jelenség” alkalmas lehet a piaci folyamatok előrejelzésére, sőt akár internetes felhasználók érzelmi állapotának befolyásolására is. Egy amerikai informatikus 2003-ban az ún. „Hamlet-projekt” keretében egy valószínűség-számításra alapozott modellt és webes alkalmazást hozott létre, amellyel a repülőjegyek valószínűsíthető árváltozását jósolta meg átlagosan 70-80 százalékos pontossággal. A „Farecast” nevű rendszer tippeket adott a felhasználóknak arra, hogy a keresett repülőjegy ára a kereslet ingadozásának köszönhetően várhatóan stagnál, emelkedik vagy csökken, vagyis hogy mikor érdemes megvenni a jegyet.
A felhasználók érzelmi állapotának befolyásolására a Facebook tett kísérletet 2012-ben azzal, hogy „érzelmi ragályokat” próbált terjeszteni. Körülbelül 70.000 felhasználó üzenőfalát manipulálták: egyeseknél a negatív tartalmú üzenetek arányát növelték, másoknál a pozitívakét. Ennek eredményeképpen a felhasználók átvették az üzenetek által sugallt érzelmi állapotot és maguk is így kezdtek kommunikálni. Székely Iván szerint e kísérlet is jó példa az ún. „filter bubble” jelenségre, amelynek hívei azt állítják, hogy a túlzott internetezéssel beszűkülhet, és könnyen módosíthatóvá válhat az emberek szemlélete és interakciói.
A nagy mennyiségű adattal foglalkozó kutatások az egyéni cselekvések megjósolhatóságával is kecsegtetnek. 2012-ben heves vitát keltettek az amerikai „Target” cég vásárlói szokásokkal kapcsolatos előrejelzései: egy gimnazista lány a korábban megszokottól eltérően színes vattapamacs helyett fehér színűt vásárolt. Az áruház a korábban elemzett fogyasztói adatokból arra következtetett, hogy aki így módosítja választását, az állapotos. E feltételezésre alapozva csecsemőápolással kapcsolatos kuponokat küldött a gimnazista lánynak, akinek az édesapja felháborodva tiltakozott, hogy az áruházlánc ilyen fiatalon gyermekvállalásra „buzdítja” a lányát. Később kiderült, hogy a lány valóban állapotos volt a szóban forgó időpontban, tehát a nagy adatmennyiségből levont következtetés helytállónak bizonyult. Székely Iván e példánál utalt arra, hogy a „big data” nyers adatokat, nem pedig összefüggéseket vizsgál. „Nem biztos, hogy e módszerrel megértjük az egyes társadalmi csoportok viselkedését, az ok-okozati kapcsolatokat, ám kétségtelenül alkalmas a korrelációk felfedésére”.
Székely Iván szerint óvatossággal kell kezelni a vásárlói szokásokkal kapcsolatos adatgyűjtést, így a különböző kuponok, ajándék- vagy vásárlói kártyák használatát is, mert ezek kivétel nélkül a „burkolt kémkedés” eszközei az emberek szokásai után. „Az áruházláncok ma már előre tudják vetíteni a különböző fogyasztók vásárlásainak alakulását. E tudásukat leplezhetik azzal, hogy többféle kupont küldenek ki a vásárlóknak” – jegyezte meg a Szakmai Hetek vendégelőadója. A „big data” kutatások ugyanakkor számos ígéretes eredménnyel csábítják a tudósokat. „Nagymennyiségű adatelemzéssel pontosabb lehet egy mérés és hatékonyabb az információátadás, a minták segítségével korábban mérhetetlen adatok lesznek elemezhetők.”
A mintavétel alapú adatelemzéssel szemben a „big data” a teljes populációt vizsgálja (matematikai-statisztikai szakzsargonnal: „n=all”, vagyis a minta minden tagja az elemzés alanya – szerk.). Székely Iván azonban vitatja, hogy kivétel nélkül mindenki nyomon követhető lenne. „Vannak olyan társadalmi vagy népcsoportok, amelyek tagjai nem interneteznek, de a kutató ettől még nem hagyhatja őket figyelmen kívül. A „big data” nem méri a „kívül maradókat”, és azokat sem, akik szándékosan kerülik az internethasználatot, mert félnek például a webpoloskáktól, és el akarják kerülni, hogy e kémprogramok profilokat készítsenek róluk.” Torzíthatja az eredményeket az is, hogy az internetes kommunikáció egy részét robotok (spambotok, chatbotok, avatárok) generálják. Ezek az adatok ugyanúgy a „big data” elemzés részei, s bár a klasszikus „Turing-teszt” elvben megkülönbözteti az emberi felhasználót a géptől, a robotok ma már egyre intelligensebbek, ezt a bejelentkezéseknél szokásos grafikus számkombináció begépelésének vitatható haszna is jelzi.
Székely Iván előadásában részletesen beszélt a nagy mennyiségű adatok feldolgozásáról is. Az empirikus szociológia kutatói reprezentatív mintavétellel elemzik anonimizált személyek információit ez utóbbiak beleegyezése után. Ezzel szemben a „big data” kutatói úgy vizsgálódnak, hogy azonosítják az egyéneket és a tudtuk nélkül használják fel adataikat. „E téma súlyos etikai kérdéseket feszeget, és a tudósok között máig nincs konszenzus ebben” – állítja az előadó, aki „digitális bennszülötteknek” nevezte a mai fiatalokat, akik „meg akarják őrizni privátszférájukat, miközben folyamatos online kapcsolatot tartanak a világgal okoskészülékeiken keresztül”.
Az előadás epilógusaként néhány vitatott kérdés vetődött fel, például az, hogy vajon létezik-e digitális lábnyomunk, azaz, az adatokból következtetve megjósolható-e a cselekvésünk. Hol lehet a határ az ember és mesterséges intelligencia között? Képes-e a társadalomtudomány lépést tartani a technikai fejlődéssel? Székely Iván annak a meggyőződésének adott hangot, hogy a kutatók folyamatos képzése mellett tudatosan törekedni kell az eredmények etikus felhasználására.
XII. Liska Tibor Szakmai Hetek – „Lépj Túl a Tényeken” Idén 12. alkalommal szervezték meg a két hetes szakmai programsorozatot. Viola Nóra, a 2016-os Liska Tibor Szakmai Hetek főszervezője kérdésünkre elmondta, a minél aktuálisabb és eredetibb témájú előadások és műhelyviták szervezésével minden évben javarészt egy adott témát több aspektusból és oldalról igyekeznek körbejárni. |
-TZS, TJ-
Fotó: Takács Ildikó