揭開大數據面紗

記者 程沛茜、陳祈安/專題報導

現社會資訊大爆炸,大數據(Big Data)因此崛起。用3V來解釋大數據,分別是Volume(容量)、Velocity(速度)和Variety(多樣性),這正好呼應了大數據中的「大」代表著資訊數量多、價值高的涵義。不同於傳統數字,大數據資料來自四面八方:手機透過社群網站按讚、更新影片、文字以及聲音。

許多非結構性數據,經由雲端運算再透過分析師得出結果,而從大量資料中尋找有特殊關係資訊的過程,就稱作資料探勘(Data mining)。大數據使用的層面包含預測、醫療、疾病犯罪防治等。美國影集「紙牌屋」就是眾多使用大數據的成功案例之一,找來觀眾喜歡的大衛芬奇執導,以及凱文史貝西領銜主演,開播收視率果然亮眼。

一步錯步步錯 謝邦昌:專業知識很重要

大數據演算從數據庫(Databases)分類資料,至資料倉儲(Data warehouse)到相關任務資料(task-relevant data),經過資料探勘及評估模式(Pattern Evaluation),最後得出知識(Knowledge)。一連串過程會在各階段因為得出不合理的結果,而回到前幾個步驟。

上圖為知識挖掘過程。 (圖片來源:http://hanj.cs.illinois.edu/bk3/bk3_slidesindex.htm)
知識挖掘過程。圖片來源/Jiawei Han, Micheline Kamber and Jian Pei

台北醫學大學大數據研究中心主任謝邦昌指出:「蒐集資料、分析資料還有因果關係,大數據在這一方面的關鍵在於專業知識。」並舉例皮膚科醫師分析腦癌用藥,發現服用安眠藥的民眾,罹患腦癌的機率將近98%,後來神經科醫師發現有誤,應是罹患腦癌或腦病變的患者睡不好,故服用安眠藥。其中的因果弄錯,導致結果方向錯誤。但謝邦昌表示專業知識變成人工智慧,就是告訴電腦之間的關係,並在不斷嘗試錯誤的過程中,找到一個最適合的模式。

大數據進步快 法律跟緊腳步

大數據無孔不入,可以準確算出人們的消費行為,再延伸到精準行銷、醫療等等,但相對的「個人資料保護法」跟大數據間的界線,又該如何拿捏?謝邦昌提到上個月特斯拉(指配備自動駕駛系統的電動車)車禍:「結果還是駕駛的責任,但實際上是不是這個模型沒有判斷好?這是道德、倫理、法律在這方面還趕不上技術的進步,也是大數據跟人工智慧的盲點。」

他強調技術會隨時進步,我們要克服的是道德、倫理和法律。以手機遊戲Pokemon Go為例,此遊戲原意是希望玩家能走出戶外,卻因為過度抓寶,導致許多意外發生。這些都涉及到倫理道德和法律之間的衝突,未來看相關人士如何訂定相關措施來加以防範。

教育大數據 顛覆教學模式

近年雲端運算的熱門發展,大數據分析為人們帶來新的思維,顛覆很多領域的理解與運作模式。大數據分析不僅是技術的進步,大量資訊裡所蘊含的內容,提供人們理解過去、分析現在、預測未來。

以國際學生能力評量計劃PISA (the Programme for International Student  Assessment)的教育數據研究來說,透過數據的結果,顯示學生的教育水平,進而成為教育改革的指標之一。今年經濟合作暨發展組織(OECD)宣布2018年PISA加考「國際素養」,從多元觀點來分析全球文化議題的判斷能力。台北醫學大學大數據研究中心主任謝邦昌表示現今社會國際素養很重要,台生應多了解不同國家的文化,對未來也有幫助。

根據經濟合作暨發展組織(OECD)顯示,台灣投資在教育部分比OECD平均少
根據經濟合作暨發展組織(OECD)顯示,台灣投資在教育部分比OECD平均少

結合網路科技與大數據  改善城鄉差距

假設將大數據應用在教育上,我們可以記錄學生的學習歷程,從上課抄筆記到考試,皆可轉成資料。除了能利用在課後個別輔導外,也能觀測到學生在學習上更多相關元素。在PISA排名裡,台灣學生成績雖不差,但城鄉差距大。謝邦昌認為,結合網路科技可以幫助偏鄉的教學,彌補城鄉差距的問題,而老師的角色可能也有所轉換,成為助教輔助一職。而台北醫學大學大數據科技及管理研究所所長蔣以仁表示,城鄉差距的問題不是只依靠大數據就能解決,它最多能呈現城鄉差距的產生原因,但要真正解決還須依靠政策實施,從大數據發現線索,訂定好的策略去執行,才是解決藥方。

PISA成績提升促經濟進成長?蔣以仁:需長時間觀察

台師大教育學院院長許添明曾在今年五月教育記者會表示,根據OECD研究指出,若在弱勢學生身上投資資源,不僅能降低犯罪率,如果台生在2030年具備基本學力,國民生產毛額(GNP)可增加八成,足足多了8520億美元。蔣以仁說,假設十二年國教加考「類PISA題型」,也許坊間會出現補習班,那GDP自然會成長,至於因為PISA分數的提高而帶動經濟一事,需要更長的時間去觀察同批學生,才能知道成效。

PISA:是由OECD(經濟合作暨發展組織)每三年大規模舉行的一項測驗,針對15歲學生,測驗閱讀、數學、科學素養三類,2018年將加考國際素養。 評量目的為檢驗15歲青少年是否具備參與未來社會所需的基礎知識,和處理事情的能力,也成為全球教改的重要指標。
台北醫學大學大數據科技及管理研究所所長蔣以仁認為,大數據就像螢光筆一樣,把重點畫起來,內容的解析與實際資料串在一起。
台北醫學大學大數據科技及管理研究所所長蔣以仁認為,大數據就像螢光筆一樣,把重點畫起來,內容的解析與實際資料串在一起。攝影 /陳祈安

從醫療、商業到教育,大數據在生活上處處可見,蔣以仁認為使用大數據會牽扯個人授權的問題,民眾願不願意被使用,還是須倚靠法律的規範。而台灣的個資法規範還算嚴格,但仍有潛在的漏洞和空間,應仔細規範大數據可使用的限度,加強個人資料防護措施。

一個人的學校 教育兼顧集體與個人

將大數據使用在教育上,學生學習狀況、分數等資訊放在資料庫裡,進行一連串分析,從而得出如何調整學習方法,或提供選擇,教育大數據因而得名。它包含三個核心條件,分別是回饋、個人化以及可能性預測。

台北醫學大學大數據科技及管理研究所長蔣以仁表示:「當然,民間是接受的(指教育大數據),那就要看教育當局、政府的開放程度,願不願意接受一些不同的想法。」此外現已有許多電子化教材,蔣以仁提到不管怎麼改變,這都是教育的一種,需要受教育相關法規限制,即使是電子化教材也需審核,因此「一個人的學校」在台灣落實還有難度。

教育大數據先從「高等教育」開始,不只因為受高等教育學生心理較成熟可以適應教材轉換,蔣以仁還指出:「因為高等教育管比較少,中小學就管比較嚴。我認為,像大學生就可以有一門選修在家裡上,那教育部會讓中、小學生在家上課嗎?」

成功的可能性剝奪選擇權

由於大數據提供的是成功的可能性,讓人不免擔憂,可能造成學生因為害怕失敗,而放棄自己熱愛的事物。對此蔣以仁表示,「個人化」的推薦的確會有這個問題。蔣以仁開玩笑的說:「有一位學生興趣在藝術,但礙於必修課他修了一門數學,偏偏數學也學得不錯,分數很好,那(大數據)算出來要他往數學,可他興趣就是在藝術。」因此系統在建立資料庫應該要完整且時常更新,除了學生學習狀況之外,其性向、興趣、偏好等方面的資料是否蒐集齊全也是關鍵。他也提到大數據並不全然知道你要的是什麼,會保留一些模糊空間、灰色地帶,不時丟一些沒有偏好的東西試探,能讓大數據分析更好的朝向個人化發展。

對教師職缺保持樂觀 有需求就有供給

台北醫學大學大數據研究中心主任謝邦昌,提及大數據可以客製化,區隔出不一樣的資訊,並不會因為資料量龐大而忽略了每個學生的獨特性跟學習需求。另一方面則結合網路科技,使偏鄉學校可以得到更好的教學資源,人民得到完善的醫療服務,來彌補城鄉差距。關於教育大數據未來的走向,謝邦昌表示教師的身分可能轉換為諮詢顧問。

謝邦昌解釋電腦人工智慧的發展。
謝邦昌解釋電腦人工智慧的發展。攝影 /陳祈安

對於老師身分的轉變,國立高雄師範大學國文學系國文組三年級現任職補習班國文老師的張敏捷,則持不同看法。「如果沒有老師的搭配及引導,就好像鋼鐵人,裡面沒有湯尼史塔克(Tony Stark)操作。」至於是否會因為大數據日趨成熟,而更難找到老師職缺,張敏捷笑稱早已是普遍的問題了,現在今的教育體制對於新老師本來就不友善,然而所有人都需要老師,因此老師不會消失。

他以電影「魔球」舉例,主角聘用一位經濟學者當他的副手,算出每位球員的數據。找出最被忽略但潛力無窮的選手,最後用這個方法打破大聯盟最長連勝紀錄。「如果把球員當成學生,主角和經濟學者是有著新觀念的老師,他們用數據的方式找出學生的優勢以及弱點。那麼在面對未來社會的變遷,應是樂見其成。」最後張敏捷認為大數據尚未成熟,且充滿不確定性,教育型態還是應以老師為主,「就像電影裡主角雖然造就了紀錄,但仍未能帶領隊伍拿下總冠軍。」