问题导读
1.Azure机器学习是项基于云的多租户可扩展服务,它可以用来做什么?
2.在搭建Azure机器学习平台的基础时,需要注意哪些问题?
3.数据科学家可使用ggplot2来完成什么任务?
近年来,开源的机器学习发展巨大,尤其有越来越多的机器学习者使用R语言和Python语言。在这些编程语言的帮助下,很多强大的机器学习库达到了良性循环,结果又增大了对这些编程语言的使用。R语言的普及与镜像网站CRAN有很大关系,SciPy网站则对Python的应用意义巨大。但是,总的来说,这些编程语言和相关工具及程序包有点像各自独立的岛屿——它们大多无法协同操作。协作问题并不只是编程语言或脚本层面的问题。在这些语言环境中,“数据集”有特定的对象,比如对“柱状模式”的专有解读及其他关键数据的科学建构。要真正实现“云条件下的环境智能”这个概念,机器学习平台需允许开发人员及数据科学家们混合并配对其解决方案使用的语言和框架。数据科学解决方案常常涉及许多计算和数据流上的操作,包括数据的摄取、转换及优化,还有机器学习计算程序。不同步骤可能采用不同的编程语言、工具及程序包,因为不同选择可能只是某一步骤的最优选项。
Azure机器学习是项基于云的多租户可扩展服务,它能编集并执行数据科学工作流,还能将这些工作流投入运行。”Azure 机器学习工具室”的一大独特功能,即能执行操作组合,运行数据和计算的任意工作流。在Azure上,这些工作流可成为表述性状态传递的终端。开发人员或数据科学家便能借此编集他们的数据,用简单的“拖放,删除,连接”范例计算工作流,测试工作流,然后轻点鼠标、发布网络服务产品。
这一版的Azure机器学习服务中,一个关键的部分就是强调了机器学习平台的扩展性,以及对R语言、Python语言等类似环境的开源软件的支持。如此,现有的机器学习者便能流畅地将他们的技术、代码和脚本直接引入Azure机器学习平台、进行操作。我们在搭建Azure机器学习平台的基础时,也牢记着这一原则。
我们首先支持的是R语言,特别采用了以下支持手段: · 数据科学家可导入已在R语言环境中生成的一切,并将其同Azure机器学习工作流无缝贴合。 · Azure机器学习工作室可在几分钟内将R脚本变成可扩展且低延迟的网络服务。 · Azure机器学习工作室为数据科学家们预装400多种最热门的CRAN程序包;此外,用户还可使用英特尔数学核心函数库提供的优化版线性代数核心函数。 · 数据科学家可使用ggplot2等R绘图包,将数据可视化。 · 该平台可以对运行环境进行自动识别,通过高保真双向数据框架和架构桥梁保证扩展性,以达到协作。 · 开发人员可以通过R获取常用的机器学习算法,并同时使用Azure机器学习平台提供的其他算法编程。 下图展示了用户如何使用Azure机器学习中的“执行R组件”,将样本数据集“乳腺癌数据”可视化。
我们欣喜地看到,R语言在我们的第一批用户中大受欢迎。有趣的是,用户最常见的错误通常是R脚本中的语法错误!使用数据表明,四分之一的用户使用 R进行Azure机器学习模型实验。微软的一些重要客户以及我们团队的部分成员正对R预测程序包进行内测。
|