本帖最后由 starrycheng 于 2015-9-12 17:11 编辑
问题导读
1.你认为成为数据科学家需要哪些技能?
2.你认为该如何学习这些技能?
经常有人问我“要成为数据挖掘工程师或者数据科学家应该读什么书?”类似的问题。下面是一份建议书单,同时也是成为数据科学家的指南,当然,这不包括取得合适大学学位的要求。 在深入探讨之前,数据科学家似乎需要掌握许多技巧,如:统计学、编程、数据库、演讲技巧、数据清理与变换知识。
理想情况下,你需要具备以下技能: - 了解统计学与数据预处理知识。
- 理解统计陷阱。你必须明白在统计分析过程中偏差与常见错误都将影响统计分析人员。
- 了解几个机器学习与统计技术的工作原理。
- 时间序列分析。
- 编程技巧 (R, Java, Python, Scala)。
- 数据库 (SQL and NoSQL Databases)。
- 网页爬虫 (Apache Nutch, Scrapy, Jsoup).
- 文本数据。
了解统计学
数据预处理我必须再次强调确认并检查你数据的重要性。数据预处理除了能将数据转换成算法更易识别或处理的模式还能防止将输入数据错误。推荐书籍如下:
了解陷阱有太多的 统计误用与偏差的示例会影响你的分析工作,特别是当你没有意识到这个问题的时候。这在我身边的各种情况下发生。实际上,这个博客包含了一系列我试图高度强调的由于自然数据带来的统计附庸。大数据的需要注意的技能是可信度。例如: 下面Quara关于该问题的问答: 推荐以下书籍:
理解常用机器学习与统计算法工作机制你需要理解每个算法的优点与缺点。算法是够可以处理数据噪声?算法的适应的数据规模?算法可以采用什么优化方法?算法是否需要对数据进行变换?下面是一个微调 SVM 回归模型的一个示例: 另外一本值得注意的书是: 当需要了解机器学习与统计算法时,我推荐以下书籍:
时间序列预测在很多情况下,我们需要确定并预测时间序列数据的趋势。
编程能力编程能力是另一项必要的技巧。它可以帮助你是用许多书籍科学工具或者是编程接口,通常是 Java 与 Python. Scala 也正在成为数据科学的重要编程语言,R 语言通常来说是必须的。 具有程序经验通常会让你在学习其他新的程序语言时变得很容易。你应当经常了解数据科学对程序语言的要求 (见 Finding the Right Skillset for Big Data Jobs). 从当前看来 Java 是目前最流行的程序语言,然后是 Python 和 SQL. 另外,从谷歌的趋势来看也是非常有用的途径,但有趣的是 Python 不是当前值得学习的程序语言。
数据库知识以我的经验来看数据库知识是非常重要的一项技能。通常数据库管理员或者其他 IT 工程师会因为太忙而没有时间帮你提取数据。这意味着你需要掌握如何连接数据库,优化查询以及执行一些查询或变化来获取你想要的数据格式等技巧。
网络爬虫网页爬虫是非常有用的一项技能,如果你知道如何编写网络爬虫,你可以从网络上爬取并提取许多有价值的信息。你应当了解 HTML 元素以及 XPath 。下面是一些可以用于构建爬虫的工具:
文本数据文本数据包含了许多非常有用的信息,如:顾客意见、情绪以及意愿。信息提取与文本分析是数据科学家需要掌握的重要技能。
信息提取: 推荐以下书籍:
结语最后,这里还有一些数据科学家不该错过的书籍:
|