Data Lake,是在2011年由James Dixon提出,其与数据仓库的主要区别在于数据仓库中数据在进入仓库之前是需要实现归类,而数据库是把大量原始数据通过廉价存储保存下来。数据仓库具有高度结构化的架构,用户可直接获得分析数据;而数据湖是将数据直接加载到湖中,然后根据分析的需求再转换数据。数据湖架构的特点可总结为:低成本、原始数据、需灵活可使用、面向任务数据绑定、不提前定义数据模型。在实现技术上面,多采用基于Hadoop生态的产品,兼具有MPP、Hive/Spark、NoSQL、Stream/Batch能力。具备良好的扩展能力,可支持数千节点的超大规模集群。但对SQL支持偏弱、ACID特性支持差,较难从传统数据仓库迁移过来。业务上更为强调数据资产管理与数据服务。