感恩!六點簽到
大數據的一個獲取方式很不起眼,人們往往沒有留意到。就拿看電影來說吧。1980年,你去看電影,只能用現(xiàn)金買票。你這次消遣產生的唯一數據就是票房收入。
1990年,你去當地的錄像帶租賃店租碟回家看,店老板那時最多有臺電腦做個記錄,或者直接用紙筆記錄你租了什么碟。
即使老板那時有電腦,估計也沒連接什么數據庫。但到了21世紀,只要你在網飛或亞馬遜一登錄,你的數據就進入一個龐大而相互聯(lián)系的數據世界,你的數據很容易就被拿來分析、對比,或在條件允許的情況下與數據供應商共享。
你申請借書證、繳納所得稅、簽手機上網合同或申請護照時,情況也大抵如此。
過去,這樣的數據只會以小紙條的形式存在于一個按字母順序排列的巨大檔案本里,它們不是為像人口普查那樣的統(tǒng)計分析而設計的,只是為政府管理需要而存在的。
隨著時間的推移、行政數字化和查詢算法的改進,這些數據越來越成為統(tǒng)計分析、數據補充,甚至民意測驗的一個個小分母。
但“一個都不少”更多是一種理想,而不是事實。
正如我們所看到的,政府數據經常會要求你填寫誰是戶主、誰養(yǎng)家這樣的家庭信息,那些本來就對政府敬而遠之的人就躲得更遠了。
此外,不要忘記“一個都不少”和“每個人都在”不是一回事。
例如,網飛對它的用戶擁有海量數據,但對于不是它用戶的人,就沒什么數據了,如果它用自己用戶的數據去推斷別的用戶群體,就會釀成大錯。
除了政府掌握我們的數據,大數據悄悄竊取我們數據的另一個重要來源是“留痕數據”——我們留下自己的數據時都沒有察覺。
大家現(xiàn)在走到哪兒都用智能手機、谷歌搜索、在線支付,在推特上發(fā)帖,在臉書上曬照,或者在手機上用智能溫控App(應用程序)為房間加熱。
所以,你不只給了網飛你的名字和信用卡的詳細信息,只要你在流媒體上看過東西,你什么時候看的、什么時候停的,或者別的信息,一切的一切,都會在網上留下痕跡。
如果有不懷好意的人從網上竊取了這些信息,他們就可以利用這些信息興風作浪、為非作歹。獲得這些信息一點也不難。
例如,我們想掌握輿情動向,可以在推特上運行一個情緒分析算法,就知道哪些人提哪些意見了,連民意調查的錢都省了。
推特上可以提供每一條信息供你分析,盡管在實際中,大多數研究員使用的是大數據中的一小部分。
但即使我們分析了每一條推特消息,仍然只是了解了推特用戶的想法,而不是整個世界的想法。
推特用戶并不能代表整個世界。例如,在美國,推特用戶大概率是年輕人、城市居民、受過高等教育的人和黑人。
與此同時,女性更傾向于使用臉書和Instagram,較少使用領英。
西班牙裔比其他白人更喜歡使用臉書,而領英、推特和Instagram在黑人族群中比在白人族群更受歡迎。這都是藏在細節(jié)中的信息。