2016年5月9日 星期一

最有趣的大數據提問,最誠實的數位田野調查






「know thyself」(γνῶθι σεαυτόν,認識你自己),相傳是刻在希臘德爾斐的阿波羅神廟的三句箴言之一,也是其中最有名的一句。

臉書剛風行時,許多朋友除了玩開心農場,另一個上臉書的目的是玩心理測驗,是為了更瞭解自己,還是讓朋友來瞭解呢?然而,因為種種的社會規範,我們即使是在做暱名或自己才看得到答案的心理測驗,可能心中想的和表現出的,是一個自己希望成為的人,而非真實的自己。

萬萬沒想到,在臉書背後玩大數據的資料科學家,可能早就能從我們按讚的模式,判斷出一個人是外內還是內向,是開放還是保守,是否是異性戀或是同性戀等等,彷彿那些演算法,比我們自己還瞭解自己。

沒外人真正清楚臉書等社群網站背後真正且完整的商業動機和模式,不過收集大數據來瞭解人類的行為,肯定是其中一項,這是司馬昭之心。至少,有個交友網站OkCupid的創立,除了讓無數寂寞難耐的男女能夠找到人生另一半,另一個目的就是為了寫這本書吧,真是一魚二吃啊。

不否認,我也是OkCupid的註冊會員,當時是讀了一本書說,有個交友網站能用各種問題來判斷兩人是否適合交往,裡頭可供會員回答幾百個問題,從嗜愛興趣到生活習慣和宗教政治都有,可是其中最準確的居然是喜不喜歡看恐怖片(我不愛)等等看似無關緊要的小問題。

身為一個好奇心旺盛的人,我當然立馬去試,一口氣回答了上百個問題,可是送出異性的訊息大多石沉大海……後來就興趣缺缺了。沒想到,在OkCupid成立十年來龐大的資料,卻讓資料科學家發崛出一大堆極為有興趣的現象。這本書就是OkCupid的創始者之一克里斯汀.魯德 (Christian Rudder)的現身說法。玩大數據的大企業不少,包括谷歌、蘋果、亞馬遜、臉書等等都是箇中佼佼者,只是大多數資料是商業機密,像克里斯汀.魯德成立一個部落格OkTrends,用一手資料來討論並出書的不多。

從大數據瞭解我們的行為,只是個開始

《我們是誰?大數據下的人類行為觀察》Dataclysm:Who We Are(When We Think No One’s Looking))不僅稀有,也還真是本令人愛不釋手的好書,克里斯汀.魯德的寫作功力和他創業及資料分析的功力一樣不凡。我一口氣讀完還感到意猶未盡,書中談到的各種現象,就發生在我們這個有社群媒體的特殊時代,裡頭揭露的各種人類行為,令人感到即熟悉又陌生,熟悉的是你我就是參與者,陌生的是眾人組成的行為模式,往往有些出人意表,意味著你我當常常嘴裏說一套,可是身體卻很老實。

OkCupid的五百萬會員使用模式中,哈佛數學系畢業的克里斯汀.魯德挖掘出一批又一批資料,在書中畫了一個又一個簡單易懂的圖表,揭示了求偶過程中,人類隱而不宣的各種有趣行為。這樣躲在背後,趁使用者不注意時偷偷觀察各種社會學、心理學、人類學現象,就像是生物學家在野外做田野調查,而非把動物關在實驗室裏頭操作。

克里斯汀.魯德看來泡在大數據中是無時無刻都樂在其中,他旺盛的好奇心,問了一個又一個大家都很感興趣,也隱約以為知道答案,然而卻無從下手的好問題。書中分為三部分探討「我們為何互相吸引」、「我們又為何互相排斥」和「我們為什麼是現在這樣子?」。

書中五花八門的問題包括:男人和女人喜歡哪個年紀的異性呢?缺陷也能為人加分?推特讓寫作能力下降?跨種族的吸引力是如何?外貌究竟有多重要?我們怎麼描述自己?怎麼樣的社交網路有助穩固婚姻關係?還有多少同性戀者未出櫃?同性戀者的比例和居住地區有關嗎?犯眾怒的下場會是?

這些問題不單單是有趣而已,這些問題的答案,也會是重要的公共政策之參考。《我們是誰?》舉了不少實例,指出好些社會或政治上的爭辯,其實可以透過真實的數據來探究,而非以訛傳訛或自以為是。

例如,準確預測出同性戀者在人口中的比例,是個嚴肅的政治問題,大數據考查出美國各州都有穩定比例的同性戀人口,與各州政治宗教氣氛無關,這也意味著同性戀非後天養成的。很有趣但也可悲的,在美國保守的州,更多已婚婦女上谷歌查詢的是她們老公是否是同性戀,比查詢是否偷吃的還多。可喜的是,從大數據來判斷,美國至少對非白人當總統和接受同性婚姻等等事上,是真的愈來愈開明了。

雖然大數據時代中知識就是力量,可是臉書和谷歌都能夠操縱我們閱聽的資訊,我們也不該完全放心大數據的力量,也不能盡信大數據。即使大數據告訴我們的是準確無誤的,瞭解我們的行為只是個開始而已。科技始終該來自人性,我們在這時候更該問題,是身為人的價值和意義為何?而非隨波逐流地讓科技來決定我們該如何生活和看待世界。






本文為《我們是誰?大數據下的人類行為觀察》推薦序

沒有留言:

張貼留言