作为美国最大的婚恋交友网站之一的eHarmony通过性格测试来进行婚恋匹配,所有加入eHarmony的用户,必须首先回答由心理学家精心设计的数百个问题,eHarmony借此了解用户个性的数十个维度,并基于此给用户介绍合适的交往对象。随着OpenStack、Hadoop、Spark、Docker等技术的发展,公司CTO Thod Nguyen表示他们正在积极拥抱这些技术。 以下为译文: 这计划开始于2013年,预计在2015年底结束,Nguyen在最近的一次采访中告诉我。eHarmony将现有以虚拟化为中心的数据中心转变为私有云环境的一个很大原因是希望运行开源的OpenStack云软件。这将给公司在扩展和配置基础设施方面更大的灵活性,包括虚拟服务器和存储,这些将强化其网站和移动App。 eHarmony的业务都安装在思科的UCS刀片服务器上(服务器已经悄悄地成为思科数十亿美元的业务),现在公司希望能将web服务器数量从目前的1000台机器裁减到一半,他说,该公司还管理着约2000台其他设备。 Cisco的刀片服务器
eHarmony以前也研究过Citrix系统支持的开源CloudStack技术,但Nguyen说OpenStack似乎可伸缩性更好。尽管OpenStack已经支持有很多大型IT公司支持,并且用户也越来越多,但这不影响他们的评估。 “作为软件定义存储解决方案的一部分,它通过OpenStack Swift组件给你在共享存储方面有更多的灵活性,”Nguyen补充道,“我们真正的终极目标是能够以最小的运营成本来让存储规模指数增长。” 但是Nguyen表示,eHarmony专注于运营效率的新方案不会止步在OpenStack上,时下,该公司也在为简化分布式应用程序的部署和管理考虑流行的Docker容器技术,并且在某些情况下它们也许“可以探索公有云解决方案”。eHarmony已经使用AWS来概念验证和灾难恢复,他补充说。 Nguyen说: “利用Docker的概念,我们在不需要投资DR数据中心的情况下,就可以很轻松的拥有一个DR解决方案运行在一个请求式公有云上,而投资DR数据中心对我们来说非常,非常昂贵。 Thod Nguyen
但eHarmony也收集并分析了大量的数据——Nguyen预计在未来几年将达到PB级别,其先前运行在512 节点SeaMicro装置上的Hadoop环境已经成为扩展和创新的一个障碍。每个工作负载需要它自己的集群,Nguyen解释道,这意味着所有其他装置都是这样并且需要再次复制相同的数据。
转移到运行YARN资源管理框架的单个集群上将给公司带来很多益处。首先,它可以在同一组服务器上承载多重工作负载和流程框架,共享相同的文件系统。它还可以按需增加容量来水平扩展,而不是每次通过512个节点。 一个共享的Hadoop集群具有商业意义,Nguyen解释道。eHarmony可以在更便捷和更少投入的前提下,启动新的大数据应用程序,并且YARN意味着eHarmony可以开始着眼新技术,如加快机器学习工作负载的Spark和流处理的Storm。 虽然公司和大多数的交友网站一样,最出名的是它的匹配算法,但Nguyen表示,更好的数据基础设施也将给业务方面带来更好的模型,包括诸如价格优化和用户体验。
Hortonworks YARN on Hadoop架构图
“我们的目标是创建一个数据产品,能够真正可以提供正确的功能,非常吸引客户的正确特性集,他说。“我们应该在客户提出要求之前,提供给他们想要的产品。” eHarmony在技术上的改造,特别是在数据方面并不是巧合。实际上在过去一两年,Spark、 Storm 和 Kafka技术开始达到临界点,使其在交互地或实时分析数据以及定期对机器学习模型进行迭代更为可行。 “我认为大数据被炒作的过头了“,Nguyen说。“许多人认为他们正在做大数据,但他们只是仅仅在存储数据,他们实际上用数据作不了任何事。”
|