大數據的反思：到底是揭露真相？還是創造更多偏見?

June Chou

7 min readSep 2, 2018

現在是人人都關注大數據時代的世界，數據不僅悄悄的入侵我們的生活，而且掌握數據的公司也成為箇中喬楚。分析數據，拆解數據是為了驗證觀點，發現真相，但數據真的能帶給我們真相嗎？

分享書單

近期閱讀兩本關於大數據的書，分別是：

賽斯（Seth Stephens）《數據、謊言以及真相》
凱西(Cathy O’Neil) 的《大數據的傲慢與偏見：一個數學家對演算法霸權的警告與揭發》

兩本書分別從不同的觀點，讓我們反思數據可以帶來力量與洞見，也可以導致偏見與毀滅。

人人說謊，google卻可以看穿真相

在公開表達意見的場合，人們通常不會承認自己的真實想法，最明顯的例子是2016美國總統大選川普民調比實際支持率低估，大部份人不敢承認自己支持川普，還有其他例子像是實際的捐款比例，總是比調查時說願意捐款比例低的多。人們總是希望給別人良好且符合社會標準觀感的形象，撒點小謊是人之常情。

然而人們在google搜尋上卻很誠實，夜深人靜時想為內心深處疑惑搜尋個建議，也是人之常情，其中同性戀傾向可能會是一個人們想要隱瞞想法。

案例：同志比例有多少？

以同志人口調查來說，美國最支持同志的州，公開自己同性戀的比例，是不支持同志州的兩倍，以常理來說每個州同性人口比例應該相同才對，賽斯排除了人口移動的因素後，推論google搜尋比較真實的反應人們想隱藏的事情：在不支持同性的州，搜搜尋跟同志有關的字詞比例，跟支持同性的州比例一模一樣，都是5%！甚至搜尋「同性戀測試」想知道自己到底是不是同志，比例還更高一些。

google搜尋的數據，不是僅揭露眾所不知的私領域的真相，包含性向，種族歧視，恐怖主義傾向，更透露這個世界其實比我們想像的更需要關心。

案例：真實的虐童比例

例如2007年開始經濟衰退，許多專家擔心家長飽受壓力使虐童案件暴增，爾後的官方數據顯示顯示虐童通報案件數反而少了，但是賽斯探索google搜尋「我爸爸（媽媽）打我」字眼反而增加，google其他證據更顯示失業率每增加一個百分點，有關於虐童的搜尋率就增加3%，塞斯推測，經濟衰退之時，可能處理虐童案件的人以面臨工作過度或失業，導致報案的人放棄申報，或根本無人可申報。

人人說謊，解釋了為什麼史上最受歡迎的色情片，分享次數卻遠遠低於熱門歌曲，解釋了為什麼人們總是說不想管閒事，卻癡迷於臉書滑他人動態….Google揭露隱藏在謊言下的真相給我們的啟示是：其實不用太在意別人的眼光，因為其實人性一致，大部分私底下想法跟我們是一樣，不敢說而已XD

大數據的機會與陷阱

機會：A/B實驗在網路時代更精準抓住商機

數據帶來的不僅有洞見，更可以為企業提升收入。隨機實驗（A/B Testing)的概念在以前就很流行了：將實驗對象分為兩組，一組實驗組，讓他做某件想要測試的事情，另一組對照組，什麼都不做，再比較彼此的差異，就可以推論新藥物是否有效、新改版是否提升客戶體驗等。

隨機實驗的優勢直到數位時代才真正顯現，線上實驗隨時隨地可以進行，不需要招募參與者，僅需要對網路頁面修改，某些人看到的畫面是A版本，另一些人看到的畫面是B版本，測試點擊程度差別，這樣的測試一天甚至可以進行上千種，成本極低。

我們從A/B測試學到的最大教訓是:不要亂下結論。一天結束之時，你不能假設任何事，必須針對每件事都進行測試才行。

網路文章的標題、歐巴馬競選網站入口、甚至連Google的廣告右方是否要添加一個箭頭，很多微不足道的細節都仰賴A/B測試，去發掘人們到底喜歡點擊什麼，然後發現其實我們並不瞭解人性，而這也是是測試的價值所在：讓客戶更常點擊，也意味更多廣告跟收入。

陷阱：掠奪式廣告( Predatory Marketing)

同樣是A/B 測試，凱西在《大數據的傲慢與偏見：一個數學家對演算法霸權的警告與揭發》同樣認為網路擴大了A/B測試的效果，能找到最適合的潛在客戶，但程式在收集資料的同時，也會針對人的弱點和痛點，做最有效的利用。

例如發薪日貸款（payday loan），是一種小額的短期高利率貸款，通常借款人需要再融資好幾次才能還清，業者用各種數據找到潛在客戶，大肆鼓吹借款，然而潛在客戶都以缺錢的貧窮客戶較多，若負擔高額利率，會一步擴大社會的不平等。

正如凱西所說：非常精確的數學毀滅性武器，瞄準最窮困的人。

陷阱: 維度的詛咒

維度的詛咒意味在變數很多的情況下，但觀察數又不夠多，可能會有其中一個維度成為「幸運者」，我們以為這個幸運者是很好的預測變數，然而他其實只是純屬巧合，純屬偶然的相關。

例如每天早上擲一千枚硬幣，想用來預測股市漲跌，總會找到一枚「幸運者」跟股市漲跌高度相關，可是實際卻沒有任何預測功效。

現今較新的數據分析常會比傳統蒐集更多新型變數，例如搜虛字詞、推文、情緒分析等等，在變數非常多的情況之下，有可能遇到維度的詛咒，找到以為有效的變數，但實際上卻純屬偶然。

針對維度的詛咒，賽斯提出的解決方案是進行更多的樣本外測試，並且用一些質性與「小型調查」。例如臉書除了演算法以外，也常常直接問用戶：你想看到這則貼文嗎？以此來驗證數據猜測的到底對不對。

陷阱: 道德問題

數學演算法是一個無法被看透的黑箱，而這個黑箱的不透明，有可能導致不公平的狀況，從小小的推薦系統，擴大到影響人們的整個人生，包含是否能借到錢買房，甚至能否找到工作。

例如凱西在書中舉例美國很多大公司在面試是都會要求做性格測驗，用來以低成本排除某些應徵者。某超市集團的面試題如下：獨特和井然有序哪一個比較能描述工作中的你？乍看之下分辨不出來那個比較好，因此受試者在完全不知道系統如何評價的狀況下選擇。

心理學家表示在測驗中選獨特代表自恃甚高，而選井然有序代表嚴謹自律。但這些判斷沒有嚴謹的依據，最可怕的是模型並不會接受反饋，這次在性格測驗中被淘汰的員工，也許在其他公司表現良好，但模型不會接受到這些訊息。

這也是大數據帶來道德問題的主要原因：當模型不透明且無法針對真實情況做反饋與修正之時，歧視與不公平會一直存在。

我的反思

賽斯（Seth Stephens）《數據、謊言以及真相》通篇的研究都來自Google搜尋，Google搜尋確實可以看到人們內心深處不可告人的秘密，但轉念一想，真正掌握這一些數據的是Google，不就代表Google完全可以知道我內心深處的需求？有沒有可能有一天，Google把這些數據拿來做任何不當利用，真真切切的驗證「所有免費，其實最貴」?

數據是雙面刃，我們運用數據帶來的好處，必須承擔他的苦果。凱西也在書中說過數據可以帶給公司很多優點，例如節省成本，更快速的聘僱人或以評分的方式減低成本等等，但凱西所提到數學毀滅性武器所帶來的掠奪與不公平，正是導因於模型無法完整反應這複雜的世界。

實際上，模型永遠不可能完全的反應這世界，只能做到近似，而做到近似的前提是必須要有大數據才能分析大數據，但這個前提常常並不存在。

當模型的效率與道德無法兼顧，亦即我們無法做到消除模型的不公平與歧視，但又同時維持模型快速與準確，我們該如何抉擇? 或許問題應該改成，在沒有模型的時候，單憑人的經驗判斷也一樣會有偏見，而有了模型到底還是加深了偏見還是減少偏見？

總結來說，這次嘗試把兩本書一起思考，花了一些時間整理論點，同一個議題不同人的觀點可以迸出火花，雖然花費比以往更多心思，但收穫也是成正比的。

大數據的反思： 到底是揭露真相？ 還是創造更多偏見?

人人說謊，google卻可以看穿真相

大數據的機會與陷阱

我的反思

Written by June Chou

大數據的反思：到底是揭露真相？還是創造更多偏見?