[心得] 《暗數據》(Dark Data)

作者列舉了暗數據的各種樣態,也說明各種暗數據所帶來的影響。他透過各種範例讓我們看到統計學的強大,也向我們展示這項強大的工具會如何扭曲數據的意義ーー無論是因為疏忽、誤解或是人為的惡意。他同時也教我們如何利用各種方法找出、面對與處理它們,並不斷地提醒我們要隨時提防,永遠都要假設它們存在。這本《暗數據》適合已經有些統計基礎的讀者,想更進一步探索那些未呈現、已呈現,或是尚未被發掘出來的暗數據樣貌。

暗數據就像宇宙中的暗物質,我們看不見它們,但它們實實在在地影響著我們的觀察與決策。

例如進行問卷調查時,若收集的方法處理不慎,那些收集到的資料將無法反應群體的真實樣貌。以年齡為例,可能是因為受試者不想讓人知道自己的真實年紀,所以亂填或跳過;研究者在設計問卷時將年齡以區間表示,或是認為年齡不重要所以沒有加入年齡欄位;又或者受試者發現研究者的意圖,進而刻意選擇某些特定的數字以換取某些好處;收集的地點不夠廣泛,網路訪客和百貨公司消費者群體年齡差異過大等。各式各樣的因素都可能讓研究者收集到有缺陷的資料,其中最容易被忽略的,就是沒有收集到該收集的資料,而研究者從頭到尾都沒有意識到。

我們已經見到暗數據無所不在,隨時隨地可能出現。而暗數據既然是暗數據,就代表有些時候,我們可能不知道它們並不存在,這是它最危險的一點。換句話說,我們必須時時警惕,小心自問:我們遺漏了什麼?P.34

當我們用這種有缺陷的資料集驗證假設時,即使跑出來的結果有顯著差異,也不一定代表我們的假設就是正確的。有可能因為某些人的年齡是空白的,統計軟體會跳過或自動填入某些數值,也可能區間設計得太大,使得二十歲以下或六十歲以上的資料被視為同一範圍。這些因素都可能產生出看起來很成功,但實際上毫無意義的實驗結果。

我們不可能記錄所有可能的變項,因此有些變項注定會成為暗數據。P.94

作者不斷提醒我們,當我們看數據時必須知道我們看得是什麼。例如我們都知道平均數的意義不大,因此我們現在都比較喜歡看中位數;而即使看得是中位數,也要檢視離群者的資料是否與其他人差得太多,並視情況處理。看選舉民調時,必須注意它的抽樣方法,以及和過去的數據做比較,瞭解長期趨勢,才能真正掌握選民的投票意向。我們必須知道自己要問什麼,想知道什麼。只是就算我們清楚自己想知道什麼,還是可能被暗數據帶偏。

數據點亮了現實。P.262

被暗數據帶偏的不只有人類,也可能是AI,如果餵得資料不對,我們可能訓練出帶有偏見的AI,進而在審核保險或貸款時造成不公平的結果,例如判斷風險較高所以某些地區的房貸利息會特別高,但有可能是該地區的資料特別少造成的。反過來說公平也不一定就是對的,例如明明男性出車禍的機率比較高,但若硬是追求平等而讓男女雙方付出相同的保費,可能造成男性開更多車出更多險,女性反而少開車繳更多保費的例子。

現實世界裡我們很難取得完美的資料,例如藥物研究可能就得考慮道德、生理或壽命等因素,物理研究可能也受限於預算或時間成本,這些限制都會是暗數據的產生原因。因此因此作者也在書後介紹了很多找出、避免與處理暗數據的方法,像是靠已知的機率去計算未知,靠插補法填補缺陷,或是對抽樣進行抽樣,用資料可靠性取得信賴區間等等,有些小節需要一些統計基礎會比較好懂。

統計是個強大的工具,它可以照亮我們想看的地方,也可能讓我們看不到燈光以外的地方;既可以用來揭露現實,也可能讓我們被表象蒙蔽。作者不斷地提醒我們,永遠都要對數據保持懷疑,提防暗數據,甚至一開始就要假設手中的數據是不完整、不恰當或不正確的。當一切都很順利時,就可能代表它不是真的。🌵

書籍資訊

書名:暗數據
isbn:9789865549961
作者:David Hand
評分:4.5/5

透過以下連結購書,該平台將會給予我一定比例的回饋金,而您無需負擔任何費用。

電子書
Readmoo:暗數據
紙本書
Taaze讀冊:暗數據

~有興趣的話,歡迎參考我的出版小說

留言