问题导读
1、为什么使用Scala构建机器学习系统?
2、一个计算工作流需要哪些步骤?
3、使用训练数据进行分析的过程如何处理?
引言
在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质。其丰富的类型系统可以帮助编程设计提供很好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶函数实现计算并行和数据处理流水线,其Actor系统帮助编写可伸缩性的应用程序,其实现特定领域语言的优势帮助开发用户很好克服不同语言的障碍。
虽然以上Scala优点说起来不会感同身受,但这可以作为我学习的一大动力,让我开始尝试编写并行机器学习系统。
在学习过程中,我主要参考《Scala for Machine Learning》一书和相关网上的资料。希望这些分享能帮助自己学习,也更好的服务有兴趣的读者。
为何使用Scala构建机器学习系统
抽象
Monoids和Monads是函数式编程的重要概念。
Monoids定义了在具有闭包性质(property of closure)的数据集上的二元操作op,恒等操作(identity operation)和结合性(associativity)。
下面是代码描述:
[mw_shl_code=xml,true]trait Monoid[T] {
def zero: T
def op(a: T, b: T): T
}[/mw_shl_code]
Monoids具有结合性的操作。假设ts1、ts2、ts3是三个时间序列,该性质保证ts1+(ts2+ts3) = (ts1+ts2)+ts3。Monoid的结合性对于计算流的并行化是很关键的。
Monads可以被认为是容器的结构,它是Monoids的推广。像是Scala标准库中的List,Map等集合被设计成monads的结构。
Monads提供了以下的功能:1. 创建集合; 2. 对集合的元素进行转换; 3. 压平嵌套的集合。
下面是Scala代码描述:
[mw_shl_code=java,true]trait Monad[M[_]] {
def apply[T](a: T): M[T]
def flatMap[T, U](m: M[T])(f: T=>M[U]): M[U]
}[/mw_shl_code]
Monads允许集合或者容器连接起来产生一个工作流,该性质可以应用在任何科学计算中。
可扩展性
Actors系统使得Scala编程变得可伸缩、可扩展。Actors作为协程(coroutines),通过异步消息进行通信,管理底层的线程池。
机器学习的工作流被实现成一系列的计算任务,这些任务包含了Scala的高阶方法(如flatMap,map,fold,reduce,collect,join,filter)对数据集合的操作,Scala允许actors集群对这些数据进行分割来完成计算任务。Scala还支持本地或远程的actor之间进行消息分发和消息路由。
上图中,主节点作为控制器,管理和调度四步任务。这些具体的任务通过Scala的actors实现的多个工作节点执行。主节点通过和工作节点交换消息来管理工作流的执行状态,负责可靠性。通过监督actors的层次结构来实现计算任务的高可用性。
可配置性
Scala支持依赖注入(dependency injection),通过抽象变量(abstract variables)、自引用成分(self-referenced composition)和可堆叠的特质(stackable traits)的组合来实现。最常用的依赖注入的模式成为cake pattern,该模式在构建动态计算工作流中经常用到。
可维护性
Scala内嵌了领域专用语言(Domain Specific Languages,DSL)。DSLs是在Scala原生库上建立的语法层,DSLs允许软件开发者抽象计算细节,更好让使用者理解。DSLs最有名的应用案例就是在Matlab中的语法形式。
计算工作流
一个计算工作流(computational workflow)可以分为以下几个步骤:
1. 从文件或数据库中载入数据集
2. 将数据集进行分割,用于并行的数据处理
3. 运用过滤技术、方差分析等进行数据预处理
4. 应用机器学习模型
在使用训练数据进行分析的过程还需要一些具体的处理:
[mw_shl_code=text,true] - 从清洗的输入数据中选择训练集、测试集、验证集
- 抽取关键特征、利用聚类技术从一组相似观测中简历亲近关系
- 减少特征数量,避免训练数据过拟合
- 重复进行多次上述步骤来验证模型和调整模型
- 将模型进行持久化,用于新观测数据的预测和处理[/mw_shl_code]
作者:Jason Ding
来源:CSDN
|
|