打破8个关于大数据的迷思

F悠生活 280浏览 52评论 来源:申博官网备用网址_金沙6119
打破8个关于大数据的迷思

本文由 Yahoo 奇摩赞助

近来,产业界吹起一股大数据风潮,然而大数据和 Hadoop 在运用上容易产生什幺盲点或迷思?Mammoth Data 创办人 Andrew C. Oliver ,以及英士国际商学院的委任教授 Joerg Niessing ,分别就他们的观察,帮助大家做出整理,打破迷思。

打破8个关于大数据的迷思
图片来源:Feans
1. 找一位数据科学家

最近,我们公司合作的一位销售工程师告诉我,他的公司在寻找数据科学家时,遇到不少麻烦。我问他,他们需要的数据科学家需要具备哪些条件?他告诉我,需要一位数学博士,拥有电脑科学背景,曾拿过工商管理硕士,当然,如果有上述这些领域的相关工作经验更好。我听完,霎时吃惊得问:「天啊!这样的人到底几岁?90?」

然而,实际的情况,并不如想像中美好,因为优秀的数学家往往只能写出简单的 Python 程式语言,如果想让他们主动接触商业,并不容易;优秀的电脑科学家,可能只懂一些数学;优秀的电脑科学家在实际工作后,可能才开始懂一些商业。

这也是为什幺这间公司一直无如愿找到数据科学家的原因,因为这必须是一整个跨领域团队的工作,而非仅是找一个人出来负责这幺简单。

2. 需要机器学习

我猜有约 85 %的人,都认为「机器学习」是简单的统计。但你大部分的问题,可能都是出在简单的数学和分析。就从那里开始改善吧!

3. 你是特别的

正如伟大的哲学家 Tyler Durden 曾经说过,「你不是什幺特别的人物。你并非美丽、独一无二的雪花。」其实有一半产业的人可能都根据相同的数据来源和资料,编写相同的 ETL,而在任何一个颇具规模的公司当中,许多部门可能都正在做同样的事,而这正是你成为大数据顾问的好时机。

4. HIVE 很快

Hive 速度不快,也许新版本看似改善了速度,但因为没有很到位,所以仍然会让你感到乏力。儘管 Hive 可以处理大量的数据,但你可能需要更多元的工具,才能让 SQL 应用在 Hadoop 上。

5. 大数据时代让分析师显得特别重要

经常有人说,大数据时代将是分析师崛起的时代,但这其实是被夸大的。我们其实需要更快速的工具,协助处理多元大量的数据。理想的状态是,一个由主要分析师组成的小团队运用技术,帮助行销人员做出他们自己的分析、情境模拟和决策依据。

6. 大数据给你具体的答案

模稜两可是大数据的主要特徵,因为多个数据来源,可能会让你距离证据愈来愈遥远,而不同的数据,若是经过错误分析,就有可能产生相互矛盾的证据。这时什幺样的数据值得相信?什幺数据不足以相信?就得仰赖技术分析师运用专业判断,解决证据与证据之间的冲突和矛盾。

数据愈多,你就愈有可能产生矛盾,以及需要解决的分歧。大数据并非万能,更多的数据,只会为你带来更多证据,但并不会让你更接近真相。所以如何透过有经验者的专业判断,理出头绪,得花时间深究。

7. 大数据是神奇八号球

你必须用对的方式问问题,这其实有点像当精灵给你三个许愿的机会时,你必须相当谨慎。一旦你缺乏事前缜密且细节的假设,就开始着手处理複杂的数据集时,你将会被导向错误的方向,并且在最后得到错误的答案。

8. 大数据可以创建自我修正演算法

大数据价值挖掘的风险在于,容易产生许多根据劣质数据所造成的「误报」,但其实只要透过正确的方式,演算法可以变得相当有用,但这通常需要人为的介入。以手机电信商来说,他们就成功得将非行销资料,运用在行销上。像是他们会知道,你有哪些朋友、你的年纪、你平常最喜欢去哪些地方、你喜欢拜访什幺网站、你经常使用什幺 App。

说到底,揭穿上述这些迷思,就是为了帮助大家了解,其实许多商业上的成功,并非仅归功于大数据。事实上,大数据本身就是一个工具,就像电脑或智慧手机一样,是一种当你懂得善用,才可能改变游戏规则的工具。

参考资料:
* The Eight Most Common Big Data Myths
* Debunked! 9 myths about big data and Hadoop

与本文相关的文章