Spark 高级分析:第四章第1,2,3节
本帖最后由 feilong 于 2017-12-30 07:51 编辑问题导读
1.什么是分类?什么是回归?
2.什么是向量?什么是特征
3.如何训练样例?
http://www.aboutyun.com/static/image/hrline/4.gif
上一篇:Spark 高级分析:第三章第8,9,10节
http://www.aboutyun.com/forum.php?mod=viewthread&tid=23640&extra=
第四章 用决策树预测森林覆盖率
预测是非常困难的,特别是对于未来 。 —玻尔
在19世纪后期,英国科学家弗朗西斯·高尔顿爵士忙于测量豌豆和人类。他发现,一般来说,大豌豆(和人)有较小的后代。这并不奇怪。作为一种特别大的豌豆是非常罕见的,而这种豌豆的后代可能比一般的豌豆大,它也不太可能比已经很大的父母大。
他的研究几乎是一个副作用,他将孩子与父母的大小进行了对比,并发现两者之间有大致的线性关系。大的父母豌豆有稍微小一点的孩子;小的父母一般有稍大的孩子。因此,这条直线的斜率小于1,高尔顿描述了我们今天所做的这种现象,即回归均值。
虽然在当时可能不是这样认为的的,但对我来说,这条线是对数据做出预测的开始。这条线将这两个值连接起来,暗示了其中一个值与另一个值有关。考虑到豌豆的大小,这种关系可能会导致更准确的估计其后代的大小,而不是简单地假设后代会像父母或其他所有的豌豆一样。
第1节 快进到回归
统计学之后的一个多世,甚至自现代机器学习和数据科学的出现,我们仍然谈论从其他值回归预测的价值想法,即使它无关滑回到平均值,或者向后移动。回归技术也与分类技术有关;一般来说,回归指的是预测一个数字,比如大小、收入或温度,而分类是指预测一个标签或类别,比如“垃圾邮件”或“猫的图片”。
连接回归和分类的共同主线是,两者都包含预测一个(或多个)值给定一个(或多个)其他值。要做到这一点,两者都需要一组输入和输出来学习。他们需要回答问题和知道答案。因此,他们被称为有监督学习的类型。
分类和回归是最古老和最深入研究的预测分析类型。在分析包和库中,你可能会遇到的大多数算法都是分类或回归技术,比如支持向量机、逻辑回归、朴素贝叶斯、神经网络和深度学习。前一章的主题,更直观的介绍,也是机器学习的一个相对较新的子课题。
本章将重点介绍一种既流行又灵活的分类和回归算法:决策树及其扩展,随机决策森林。
令人兴奋的事情是这些算法,对波尔先生,他们可以帮助预测未来——或者至少,预测我们尚不确定的东西,根据你的在线行为购买汽车的可能性,电子邮件是否是垃圾邮件,或由于地理位置和化学成分,有多少英亩的土地有可能种出最多的农作物。
第2节 向量和特征
为了解释本章中数据集和算法的选择,并开始解释回归和分类是如何操作的,我们有必要简要地定义描述它们的输入和输出的术语。
给定今天的天气,预测明天的高温。这个想法并没有错,但是“今天的天气”是一个松散而随意的概念,需要一些结构,才能被输入到学习算法中。
今天天气的某些特征可以预测明天的气温,比如:
•今天的高温
•今天的低温
•今天的平均湿度
•今天是阴天,下雨还是晴朗
•预测明天会有寒流的天气预报员的人数
这些特征有时也被称为维数,甚至只是变量。这些特征都可以量化。例如,高温和低温是用摄氏度来衡量的,湿度可以被测量为0到1之间的分数,而天气类型可以被标记为阴天,下雨或晴天。当然,许多预测者都是整数。因此,今天的天气可能会被降为一个值,比如13.1、19.0、0.73、cloudy、1
这5个特征组合在一起,被称为特征向量,可以描述任何一天的天气。这种用法与线性代数中术语向量的使用有些相似,只是这个意义上的向量在概念上可以包含非数字的值,甚至缺少一些值。
这些特性并不是完全相同的类型。前两个特征是用摄氏度来衡量的,但是第三个特征是一个单位量,一个分数。第四个不是一个数字,第五个是一个永远是非负整数的数字。
为了讨论的目的,本书将只讨论两大类的特性:类别特征和数字特征。这里的数字特征是可以被数字量化并有意义的排序。例如,有意义的说今天的最高温度是23C,这比昨天的最高温度22C大。上面所有的特性都是数值型的,除了天气类型。像clear这样的术语不是数字,没有排序。说多云比晴天是没有意义的。这是一个分类特性,它替代了几个离散值中的一个。
第3节 训练样例
为了做出预测,学习算法需要对数据进行训练。它需要大量的输入和从历史数据得出的已知正确的输出。例如,在这个问题中,学习算法会给出,一天天气在12到16摄氏度之间,有10%的湿度,晴,没有寒流预报,第二天,最高温是17.2度。有了足够多的例子,一个学习算法可能学会预测第二天的高温和一些准确性。
特征向量提供了一种有组织的方法来描述学习算法的输入(这里:12.5,15.5,0.10,clear,0)。预测的输出或目标也可以被认为是一个特性,这里有一个数字特征:17.2。
简单地将目标包含在特征向量中作为另一个特性并不少见。上面的整个训练例子可能被认为是12.5,15.5,0。10,晴,0,17.2。所有这些例子的集合被称为训练集。
注意,回归问题只是目标是数字特征的问题,分类问题是目标明确的问题。并不是每一种回归或分类算法都能处理分类特征或分类目标,有些仅限于数值特征。
谢谢。拿走不客气了。
页:
[1]