F15-深網智慧與腦資訊學 POST#3 碩職一 404085054 王怡文

大家對big data都充滿了憧憬,感覺任何資料都可以餵給這隻不挑食的大胃王,然後想要什麼樣的分析資訊都可以吐得出來。

但......出來的東西真的是有效、有價值的東西嗎?!

進去的東西真的都不用過濾,隨便餵都可以嗎?!

在演講中雖然知道棒球比賽的場記資料分析後可以得到有趣的結果:票房跟天氣有關。不過樣本數據偏少,那所得結果是公正的嗎?!這問題也值得討論。

我目前服務的公司,近期接觸到"Big Data"的案子,就會聽到爭論"不能因為是大數據就可以容忍來源資料是錯誤的",另一派"原始資料有異常是絕對的,應該可以利用某些工具將錯誤篩選出來,等到異常出現才慢慢建立篩選規則"?

這兩派的說詞,看似都沒有錯,但如何解決來源資料錯誤的問題,也是個值得討論的議題。