九合一選戰最後關頭,台北市、高雄市特定候選人贏定了嗎?資料科學家用大數據、視覺化圖表揭露的事實,可能大大顛覆你的想法。
半年前,一般都認為誰贏得民進黨高雄市長初選,百里侯寶座便如探囊取物,想不到空降的國民黨候選人韓國瑜成了「新網紅」,甚至有人稱「韓流」外溢將沖垮民進黨,多變的選情讓數據科學家如獲至寶。
大數據預測選情的里程碑,或許可回看2016年美國總統大選,選前一周,就有數據專家跟主流媒體唱反調,預測川普勝出,以結果論,大數據這一仗確實擊敗不少傳統民調。
台灣也有許多數據愛好者以技術為本,實現公民參政,提供不同於主流媒體的資訊,強調讓數據說話。
韓國瑜網路聲量激升
他用儀表板標注關鍵時刻
Facebook公開資訊便是重要的數據來源,長期關注社會議題的技術專家洪進吉(Gene Hong)三月便在部落格「食夢黑貘」發表文章,解讀Facebook粉絲團談論數與民進黨初選結果的關聯性。
洪進吉用民進黨高雄市初選結果與候選人臉書粉絲團單週平均談論數,計算相關係數,通常係數大於0.7,就表示兩變數之間「高度相關」,結果支持度與網路聲量相關性竟達0.99;洪進吉又取民進黨嘉義縣長初選的結果,也算出0.96的高度相關。
不過,同樣的算法卻在台南跌一跤,得出了0.03、趨近「無關」的結果,洪進吉認為網路聲量高的立委王定宇是關鍵,「網路資料雖準,但有些bias(偏差)無法呈現。」洪進吉認為,王定宇在網路上的活躍多為議論時事,而非專為初選,所以網路聲量無法反映在初選結果。他補充,若捨去王定宇,用其他候選人去算相關係數,就高達0.91。
「台灣一千六百萬臉書使用者的行為,頗具參考價值。」也因此洪進吉開發的另一項工具--2018縣市長選舉網戰即時看板,成了選舉風向球,透過Facebook數據,紀錄候選人粉絲專頁動態;其中,韓國瑜九月崛起,網友談論數達20萬,甚至「超車」柯文哲,躍居全台候選人之首,也擠進一年來政治人物排行前三名。
有人說挺韓的帳號來自世界各地,很難不讓人聯想是假帳號、機器人或境外網軍,洪進吉卻認為,「聲量是真的,假帳號在談論數方面不會產生太大波動。」
而儀表板目前單日不重複訪客約3000人,洪進吉自忖還沒「突破同溫層」(註:echo chamber,臉書、推特等社群平台的演算法邏輯,使得相近的意見不斷重複出現,令使用者認為這些就是事實全貌),他期許能向前作「台灣街景封面產生器」看齊,觸及全體選民的20%以上,「成為公開的民意系統。」
他用open data估票數
竟和操盤的姚立民一樣準
至於四年前網路聲量居冠的柯文哲,選前一直被「酸」是「空氣票」,卻有資料科學家用公開數據,提前算出柯文哲的得票數,甚至與實際開出的票數差距也不大。
「台灣選舉模擬器」開發者「一個哈」(匿名),在2014年選前預估柯文哲將以81萬票當選,對手連勝文則以62萬票落敗;最後柯文哲獲得85萬多票、連勝文獲得近61萬票。此項預測發佈在GitHub(最大的程式碼存放網站)至今仍有許多人「朝聖」。
「有點準,我也嚇到。」一個哈靦腆的說,其實沒有大學問,全是靠公開數據,包括從主計處取出台北市投票人數,從2008年TVBS在總統大選後兩天公布的民調,預估各年齡層投票比例,以及2014年11月的「封關民調」(依法於投票前10日為最後可公布民意調查結果的時間)。
北市選民結構一向是藍略大於綠,一個哈算出的票數「違背常理」,但卻與柯營競選總幹事姚立明選前兩週的預言不謀而合,當時姚說藍營支持者約20%會倒戈,「我們變成80幾萬,他們(連陣營)60幾萬。」
那麼今年呢?「(民進黨台北市長候選人)姚文智說他不會第三名,好像其來有自。」一個哈十月底發表了本屆選舉的預測,選前幾日將觀察政治氛圍陸續修正;此外他也嘗試分析高雄選情,「如果這次還準,那可以稱是巫術了。」一個哈說。