大數據的反思: 到底是揭露真相? 還是創造更多偏見?

June Chou
7 min readSep 2, 2018

現在是人人都關注大數據時代的世界,數據不僅悄悄的入侵我們的生活,而且掌握數據的公司也成為箇中喬楚。分析數據,拆解數據是為了驗證觀點,發現真相,但數據真的能帶給我們真相嗎?

分享書單

近期閱讀兩本關於大數據的書,分別是:

  1. 賽斯(Seth Stephens)《數據、謊言以及真相》
  2. 凱西(Cathy O’Neil) 的《大數據的傲慢與偏見:一個數學家對演算法霸權的警告與揭發》

兩本書分別從不同的觀點,讓我們反思數據可以帶來力量與洞見,也可以導致偏見與毀滅。

人人說謊,google卻可以看穿真相

在公開表達意見的場合,人們通常不會承認自己的真實想法,最明顯的例子是2016美國總統大選川普民調比實際支持率低估,大部份人不敢承認自己支持川普,還有其他例子像是實際的捐款比例,總是比調查時說願意捐款比例低的多。人們總是希望給別人良好且符合社會標準觀感的形象,撒點小謊是人之常情。

然而人們在google搜尋上卻很誠實,夜深人靜時想為內心深處疑惑搜尋個建議,也是人之常情,其中同性戀傾向可能會是一個人們想要隱瞞想法。

案例同志比例有多少?

以同志人口調查來說,美國最支持同志的州,公開自己同性戀的比例,是不支持同志州的兩倍,以常理來說每個州同性人口比例應該相同才對,賽斯排除了人口移動的因素後,推論google搜尋比較真實的反應人們想隱藏的事情: 在不支持同性的州,搜搜尋跟同志有關的字詞比例,跟支持同性的州比例一模一樣,都是5%!甚至搜尋「同性戀測試」想知道自己到底是不是同志,比例還更高一些。

google搜尋的數據,不是僅揭露眾所不知的私領域的真相,包含性向,種族歧視,恐怖主義傾向,更透露這個世界其實比我們想像的更需要關心。

案例:真實的虐童比例

例如2007年開始經濟衰退,許多專家擔心家長飽受壓力使虐童案件暴增,爾後的官方數據顯示顯示虐童通報案件數反而少了,但是賽斯探索google搜尋「我爸爸(媽媽)打我」字眼反而增加,google其他證據更顯示失業率每增加一個百分點,有關於虐童的搜尋率就增加3%,塞斯推測,經濟衰退之時,可能處理虐童案件的人以面臨工作過度或失業,導致報案的人放棄申報,或根本無人可申報。

人人說謊,解釋了為什麼史上最受歡迎的色情片,分享次數卻遠遠低於熱門歌曲,解釋了為什麼人們總是說不想管閒事,卻癡迷於臉書滑他人動態….Google揭露隱藏在謊言下的真相給我們的啟示是:其實不用太在意別人的眼光,因為其實人性一致,大部分私底下想法跟我們是一樣,不敢說而已XD

大數據的機會與陷阱

機會:A/B實驗在網路時代更精準抓住商機

數據帶來的不僅有洞見,更可以為企業提升收入。隨機實驗(A/B Testing)的概念在以前就很流行了:將實驗對象分為兩組,一組實驗組,讓他做某件想要測試的事情,另一組對照組,什麼都不做,再比較彼此的差異,就可以推論新藥物是否有效、新改版是否提升客戶體驗等。

隨機實驗的優勢直到數位時代才真正顯現,線上實驗隨時隨地可以進行,不需要招募參與者,僅需要對網路頁面修改,某些人看到的畫面是A版本,另一些人看到的畫面是B版本,測試點擊程度差別,這樣的測試一天甚至可以進行上千種,成本極低。

我們從A/B測試學到的最大教訓是:不要亂下結論。一天結束之時,你不能假設任何事,必須針對每件事都進行測試才行。

網路文章的標題、歐巴馬競選網站入口、甚至連Google的廣告右方是否要添加一個箭頭,很多微不足道的細節都仰賴A/B測試,去發掘人們到底喜歡點擊什麼,然後發現其實我們並不瞭解人性,而這也是是測試的價值所在:讓客戶更常點擊,也意味更多廣告跟收入。

陷阱:掠奪式廣告( Predatory Marketing)

同樣是A/B 測試,凱西在《大數據的傲慢與偏見:一個數學家對演算法霸權的警告與揭發》同樣認為網路擴大了A/B測試的效果,能找到最適合的潛在客戶,但程式在收集資料的同時,也會針對人的弱點和痛點,做最有效的利用。

例如發薪日貸款(payday loan),是一種小額的短期高利率貸款,通常借款人需要再融資好幾次才能還清,業者用各種數據找到潛在客戶,大肆鼓吹借款,然而潛在客戶都以缺錢的貧窮客戶較多,若負擔高額利率,會一步擴大社會的不平等。

正如凱西所說:非常精確的數學毀滅性武器,瞄準最窮困的人。

陷阱: 維度的詛咒

維度的詛咒意味在變數很多的情況下,但觀察數又不夠多,可能會有其中一個維度成為「幸運者」,我們以為這個幸運者是很好的預測變數,然而他其實只是純屬巧合,純屬偶然的相關。

例如每天早上擲一千枚硬幣,想用來預測股市漲跌,總會找到一枚「幸運者」跟股市漲跌高度相關,可是實際卻沒有任何預測功效。

現今較新的數據分析常會比傳統蒐集更多新型變數,例如搜虛字詞、推文、情緒分析等等,在變數非常多的情況之下,有可能遇到維度的詛咒,找到以為有效的變數,但實際上卻純屬偶然。

針對維度的詛咒,賽斯提出的解決方案是進行更多的樣本外測試,並且用一些質性與「小型調查」。例如臉書除了演算法以外,也常常直接問用戶:你想看到這則貼文嗎?以此來驗證數據猜測的到底對不對。

陷阱: 道德問題

數學演算法是一個無法被看透的黑箱,而這個黑箱的不透明,有可能導致不公平的狀況,從小小的推薦系統,擴大到影響人們的整個人生,包含是否能借到錢買房,甚至能否找到工作。

例如凱西在書中舉例美國很多大公司在面試是都會要求做性格測驗,用來以低成本排除某些應徵者。某超市集團的面試題如下: 獨特和井然有序哪一個比較能描述工作中的你?乍看之下分辨不出來那個比較好,因此受試者在完全不知道系統如何評價的狀況下選擇。

心理學家表示在測驗中選獨特代表自恃甚高,而選井然有序代表嚴謹自律。但這些判斷沒有嚴謹的依據,最可怕的是模型並不會接受反饋,這次在性格測驗中被淘汰的員工,也許在其他公司表現良好,但模型不會接受到這些訊息。

這也是大數據帶來道德問題的主要原因: 當模型不透明且無法針對真實情況做反饋與修正之時,歧視與不公平會一直存在。

我的反思

1.

賽斯(Seth Stephens)《數據、謊言以及真相》通篇的研究都來自Google搜尋,Google搜尋確實可以看到人們內心深處不可告人的秘密,但轉念一想,真正掌握這一些數據的是Google,不就代表Google完全可以知道我內心深處的需求?有沒有可能有一天,Google把這些數據拿來做任何不當利用,真真切切的驗證「所有免費,其實最貴」?

2

數據是雙面刃,我們運用數據帶來的好處,必須承擔他的苦果。凱西也在書中說過數據可以帶給公司很多優點,例如節省成本,更快速的聘僱人或以評分的方式減低成本等等,但凱西所提到數學毀滅性武器所帶來的掠奪與不公平,正是導因於模型無法完整反應這複雜的世界。

實際上,模型永遠不可能完全的反應這世界,只能做到近似,而做到近似的前提是必須要有大數據才能分析大數據,但這個前提常常並不存在。

3

當模型的效率與道德無法兼顧,亦即我們無法做到消除模型的不公平與歧視,但又同時維持模型快速與準確,我們該如何抉擇? 或許問題應該改成,在沒有模型的時候,單憑人的經驗判斷也一樣會有偏見,而有了模型到底還是加深了偏見還是減少偏見?

總結來說,這次嘗試把兩本書一起思考,花了一些時間整理論點,同一個議題不同人的觀點可以迸出火花,雖然花費比以往更多心思,但收穫也是成正比的。

--

--

June Chou

從事金融業信用風險分析,業餘愛好是讀書旅行,因為在書中看更多世界,在世界走跳能反思更多書中道理。 想知道更多關於我個人專業,可以參考我的個人部落格「書寫觀點.tw」:https://notebookpage1005.blogspot.com/