分享

韦啸:阿里云人工智能平台DTPAI研发理念与技术解读

fc013 发表于 2015-10-2 22:08:53 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 0 14859
本帖最后由 fc013 于 2015-10-2 22:10 编辑

问题导读:

1.DTPAI面向哪些用户?
2.DTPAI对标的产品是什么?
3.DTPAI实现的可视化有什么不同?
4.DTPAI的使用对开发者有什么门槛?
5.DTPAI的特征工程采用的具体方法是什么?




在2015高性能计算用户大会深度学习分论坛上,阿里云技术专家透露了开放HPC集群及开放深度学习Docker镜像的消息,实际上,阿里云在此之前已经推出了人工智能产品DTPAI,其支撑技术包括了ODPS和iDST的研究工作,CSDN记者近日采访了阿里巴巴ODPS和iDST产品经理韦啸(花名龙场),就DTPAI的核心技术和理念进行了探讨。

韦啸认为,各个领域对人工智能和机器学习的技术都开始有了越来越多的需求,云服务则代表了人工智能或者机器学习作为一种计算能力的未来。他表示,希望DTPAI是阿里云产品线上的一块重要拼图,把释放人脑智能的人工智能和机器学习服务作为一种普适的计算能力。

DTPAI非常注重产品的易用性,目前主要支持鼠标拖拽的编程可视化(Visual Programming),也支持的据可视化和模型可视化,并且广泛与MapReduce、Spark、DMLC、R等开源技术对接。DTPAI已经开放Kmeans、逻辑回归、随机森林、GBDT等分类和聚类的算法,未来还提供通用的深度学习框架。韦啸强调,这些算法都是经过阿里巴巴内部大规模和复杂的数据场景锻炼的,有效性、算法能力和计算规模都得到了很好的验证。

韦啸表示我们正面临从IT时代到DT时代的跨越,一方面各个领域对人工智能和机器学习的技术都开始有了越来越多的需求,另外一方面这些技术由于较高的门槛,也并没有出现一些普适化的解决方案来应对这些需求。大家知道阿里云的愿景是希望计算成为中国经济的力量,所以我们希望DTPAI是阿里云产品线上的一块重要拼图,把释放人脑智能的人工智能和机器学习服务作为一种普适的计算能力,提供给我们的用户。我们相信需要DTPAI的用户群将会很广泛,包括有数据场景需求的政企、金融业、科技产业等和其他的一切数据创业者,例如物联网、智能硬件的创客等。

关于对标:目前人工智能和机器学习服务只是刚刚开始发展,所以阿里云专注于自己在这个领域做出自己的贡献,并不存在和谁对标。

韦啸表示我们相信云服务代表了人工智能或者机器学习作为一种计算能力的未来。我们知道(包括Wired去年的文章也持同样观点)这个领域的突破需要有一个平台或者生态很好的联通大规模并行计算能力、大数据和数据人(数据科学家等),而阿里云拥有建立这个生态所需要的三个要素。

至于第二点刚才也提到目前整个领域还是只是刚刚开始发展,而最大的推动力将来自于云计算平台和用户的联通。

韦啸表示DTPAI非常注重产品的易用性,因为我们的愿景是要将大家认为的高深莫测和遥不可及的机器学习等技术变为一种唾手可得的普适资源,产品需要简单易用。可视化是我们提升易用性的一种重要手段。DTPAI目前主要支持鼠标拖拽的编程可视化(Visual Programming),用户可以实现0代码的算法应用开发。同时我们也支持的据可视化和模型可视化,让用户更直观的了解数据与算法。

韦啸表示DTPAI是基于阿里云搭建的平台。除了刚才提到的可视化编程以外,用户还可以基于阿里云计算平台提供的开发语言和框架来搭建应用或者组件。阿里云计算平台提供我们自研的计算框架例如ODPS(SQL、open MapReduce等)和一些常见的开源产品例如Spark。同时针对机器学习,我们也对接了开源的例如DMLC等框架,和自研的Parameter Server开发框架。

Parameter Server主要特性如下:

  • 模型、数据分片,支持超大模型
  • 利用稀疏特性减小通信
  • 支持异步迭代
  • 各个角色有完善的Failover机制

560ba97a75ab1.jpg


韦啸表示如章文嵩提到,我们将在最近推出GPU的服务。而GPU在大数据和机器学习领域目前也有很多应用,特别是在计算和数据密集型的场景。DTPAI也会专注在这些场景提供包含GPU加速的算法和应用,我们会按照从应用到框架,从单机单卡到多机多卡的节奏来发布成熟的服务。

韦啸表示我们知道数据探索是非常灵活的,在DTPAI之上支持的方式如下:

  • 首先用户可以基于像ODPS这样的计算框架(SQL、MR等)来灵活的探索和理解数据,或者开发自己的特征工程应用,总之前面提到DTPAI是完全架构在阿里云的计算体系上的,阿里云提供非常丰富的数据探索工具。
  • 其次,对于一些常见的特征工程和数据探索算法,例如统计,例如一些特征离散化,标准化的算法,我们也会封装让用户直接调用。
  • 最后,我们在不远的将来也会提供通用的深度学习框架,也可以作为用户自动构建筛选特征的高级的手段。

560babf72163a.jpg


韦啸表示首先我们计划持续的发布第一方核心算法库。首批开放的算法支持对ODPS上的数据集上的数据处理和分析的一些基本功能,包括统计,采样,拆分,标准化等。在机器学习建模和预测的算法我们有分类和聚类的算法,包括Kmeans、逻辑回归、随机森林、GBDT等。另外用户也可以使用R脚本来封装一个节点逻辑。

560bab093e4c8.jpg

韦啸表示除了阿里巴巴提供的第一方的算法库,我们还支持ISV或者用户提供自己开发的第二方或者第三方的算法。我们希望搭建一个能把有数据智能需求的用户和有数据智能开发能力的用户连接在一起的健康生态,所以我们会提供公平成熟,市场驱动的算法及应用额分享机制,来激励创新。

韦啸表示好的算法不能脱离大数据产生。所以DTPAI的一个核心优势就是阿里巴巴在零售、广告、物流、金融、影视领域中遇到的复杂的数据场景和沉淀下来的数据智能。

  • DTPAI的核心算法库中我们提供的通用的算法都是经过阿里巴巴内部大规模和复杂的数据场景锻炼的,有效性、算法能力和计算规模都得到了很好的验证。
  • 我们在这些数据场景上也孵化出了一些走在业界前段的技术,包括深度学习和Parameter Server等。我们也希望把这些数据技术分享到整个生态。
560babc1c5bb2.jpg


韦啸表示不光是在中国,我们的愿景是打造一个世界领先真正的DT时代的人工智能平台,虽然我们只是刚刚开始。打造每一款产品都会遇到很多困难,但是我们认为真正的障碍在于这些技术因为过高的门槛,还没有成为用户可以唾手可得的普适服务,所以我们会尽全力按照我们的愿景走下去。

韦啸表示iDST团队一直以来都希望基于阿里巴巴的数据场景,沉淀先进的数据智能产品,通过阿里云计算让这些产品成为普适的服务。

韦啸表示基于人工智能技术的产品将会继续井喷,我们最近也看到了支付宝的刷脸,阿里妈妈的魔镜等。而DTPAI将是阿里巴巴和阿里云丰富产品线上的重要拼图,致力于向数据创业者提供一个基于与计算的、简单易用的一站式的数据智能应用的开发、发布和服务的平台。








没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条