在云计算、物联网等技术的带动下,中国已步入‘大数据’时代。邬贺铨说,我们正在进行一场全新的革命,庞大的数据带来的量化转变将在各领域迅速蔓延,没有哪个领域能够逃脱它的影响。据有关机构测算,大数据已成为全球IT产业中增长最快的领域。2010年全球大数据以及相关的硬件、软件和服务市场达到30亿美元,2015年将超过170亿美元,平均年增长速度超过50%。作为全球大数据产业的重要组成,中国大数据潜在市场规模未来有望达到2万亿人民币。身处“大数据”时代,中国正多方位布局“大数据”产业,各地政府、通信公司、科研院所、IT企业等都“摩拳擦掌”,希望能分到“一杯羹”。
1.大数据的含义
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。
2.大数据的特征
关于大数据的特征,业内专业认识人士表示,可以用很多词语来表示。比较有代表性的即为2001年DougLaney最先提出“3V”模型,包括数量(Volume)、速度(Velocity)和种类(Variety)【1】。除此之外,在3V的基础上又提出了一些新的特征。关于第四个V的说法不一,IDC 认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM 认为大数据必然具有真实性(Veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集【2】。如今,业内人士已经将其扩展到了11个V,包括有效性、可见性等。
下面就目前使用最多的“4V”模型进行分析。“4V”特征主要体现在以下方面:
2.1.规模性(volume)
Volume指的是数据巨大的数据量以及其规模的完整性。数据的存储TB扩大到ZB。这与数据存储和网络技术的发展密切相关。数据的加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得数据产生量和存储量成倍增长。实质上,在某种程度上来说,数据的数量级的大小并不重要,重要的是数据具有完整性。数据规模性的应用有如下的体现,比如对每天12 tb的tweets进行分析,了解人们的心理状态,可以用于情感性产品的研究和开发;基于Facebook上成千上万条信息的分析,可以帮助人们处理现实中的朋友圈的利益关系。
2.2.高速性(Velocity)
Velocity主要表现为数据流和大数据的移动性。现实中则体现在对数据的实时性需求上。随着移动网络的发展,人们对数据的实时应用需求更加普遍,比如通过手持终端设备关注天气、交通、物流等信息。高速性要求具有时间敏感性和决策性的分析——能在第一时间抓住重要事件发生的信息。比如,当有大量的数据输入时(需要排除一些无用的数据)或者需要马上做出决定的情况。比如:一天之内需要审查500万起潜在的贸易欺诈案件;需要分析5亿条日实时呼叫的详细记录,以预测客户的流失率。
2.3.多样性(variety)
Variety指有多种途径来源的关系型和非关系型数据。 这也意味着要在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。除了简单的文本分析外,还可以对传感器数据、音频、视频、日志文件、点击流以及其他任何可用的信息。比如,在客户数据库中不仅要关注名称和地址,还包括客户所从事的职业、兴趣爱好、社会关系等。利用大数据多样性的原理就是:保留一切你需要的对你有用的信息,舍弃那些你不需要的;发现那些有关联的数据,加以收集、分析、加工,使得其变为可用的信息。
2.4.价值性(value)
Value体现出的是大数据运用的真实意义所在。其价值具有稀缺性、不确定性和多样性。“互联网女皇”Mary Meeker在2012年互联网发展趋势中,用一幅生动的图像来描述大数据。一张是整整齐齐的稻草堆,另外一张是稻草中缝衣针的特写。寓意通过大数据技术的帮助,可以在稻草堆中找到你所需要的东西,哪怕是一枚小小的缝衣针。这两幅图揭示了大数据技术一个很重要的特点,价值的稀疏性。
从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。从大数据的特征来看,数据源增加、传感器的分辨率提高,使得大数据的体量大。数据源增加、数据通讯的吞吐量提高、数据生成设备的计算能力提高,使得大数据的速度快。移动设备、社交媒体、视频、聊天、基因组学研究和各种传感器使得大数据的类型多以数据为基础的决策要可追溯,要有理有据,这使得大数据还应具备准确性的特征。大数据的这些特征将决定政府在大数据业务和整个大数据生态系统中收集、分析、管理、存储及分配数据的方式。
3、大数据的现实价值
巨量数据正在成为一种资源,一种生产要素,渗透至各个领域,而拥有大数据能力,即善于聚合信息并有效利用数据,将会带来层出不穷的创新,从某种意义上说它代表着一种生产力,麦肯锡认为,“人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”
大数据将带来此起彼伏的IT技术革命。为解决日益增长的海量数据、数据多样性、数据处理时效性等问题,一定会在存储器、数据仓库、系统架构、人工智能、数据挖掘分析以及信息通讯等方面不断涌现突破性技术,当今世界IT巨头、IT敏锐的创新者们正努力耕耘在大数据技术领域,大数据将成为IT的主战场。
大数据将在各行各业引发各类创新模式。随着大数据的发展,行业渐进融合,以前认为不相关的行业通过大数据技术有了相通的渠道,沃尔玛通过数据挖掘将风马牛不相及的“啤酒与尿布”联系在一起,大数据将会产生新的生产模式、商业模式、管理模式,这些新模式对经济社会发展带来深刻影响。
大数据将给人们生活带来翻天覆地的变化。大数据技术进步将极大地惠及人们生活的方方面面,在家有智能管家帮助你美好生活;外出购物,商家会根据你的消费习惯将购物信息通过无线互联网推送给你;外出就餐,车载语音助手会帮你挑选餐厅并告诉你即时的周边情况和停车状况。衣食住行的便利将无处不在。
大数据将提升电子政务和政府社会治理的效率。大数据的包容性将打开政府各部门间、政府与市民间的边界,信息孤岛现象大幅消减,数据共享成为可能,政府各机构协同办公效率和为民办事效率提高,同时大数据将极大地提升政府社会治理能力和公共服务能力。驾驭大数据,在整个政府和全球经济中创造价值,其影响是广泛而深远的。政府善政的许多重要原则与大数据有相通之处。从根本上说,大数据能够通过改进政府机构和整个政府的决策,使政府机构更加英明地提高政府工作效率,为利益相关者服务。利用各种渠道的各种数据,快速获得关键、准确的深刻见解,将显著改进政府的各项关键政策和工作。