认识大数据

2014/9/15 17:49:59

作者:王伟(君友公司研究总监)

 如果你在百度搜索引擎上输入“大数据”,会显示出“找到相关结果约100,000,000个”,一亿条信息量足见目前这一概念的热度之大,当然你也会见到有人在一些论坛上时不时地提及大数据,甚至走在街上也会遇到有人使用“大数据”这三个字来表达身边的人和事,大数据时代似乎真的一夜之间来临了。而一个新兴时代的到来,不能仅看这一概念出现的频率,当今互联网传播放大作用下更是如此。只有当大数据的应用已经产生着广泛的社会影响时,才可谓大数据时代真的来临了,从整个社会来看大数据目前仅可称为“小荷才露尖尖角”。

大数据(Big data),应该说是“大规模数据”的简称,不是一个确切的称谓,甚至可以说是一个借用的概念,因为之前没有严格的小数据概念与之对应。“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。大数据在教育、医疗、汽车、服务性行业的应用初步彰显出的能量使政府、大学、企业管理者对大数据的未来充满信心,大数据被认为将会给人们的工作、生活甚至思维方式带来重大变革。2012329日奥巴马政府公布了美国“大数据研发计划”(Big Data Research and Development Initiative),旨在改进现有从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学和学习方式。

君友认为,大数据是时代的产物,是生产力发展的结果,是信息技术催生出的新事物,不应理解为一个静态的数据类型,理解为基于现代网络技术而可及的海量数据更为恰当。但大数据的呈现因人、因事、因时、因力而异,用之方为“大”,不同的数据运用主体、不同运用目的、不同时间限制、不同技术实现能力等因素决定着某个“大数据”的内涵和表现。大数据是客观存在的,只有对于可及的海量数据通过一定模式加工到可使用状态,才会展现出大数据的魅力,如果不用或视而不见,则无所谓大数据小数据。

大数据,在一些人眼里已经不是一个网络技术名词,但它最适合的定义还是与能够处理结构化、非结构化数据的网络技术相捆绑。对于大数据,研究机构Gartner给出了这样的定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从技术上看,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。离开了“大数据技术”,大数据就像海水一样流淌在大海里,无法到达使用者的桌面。

大数据的发展有其自身的规律,就如其诞生一样,需要适宜的土壤,政府、企业可以去推动,但其成长有赖于技术的成长,其发展有赖于应用方的形成。大数据的4V特点——Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值),前三个特点是其自身属性,Value(价值)正是决定其应用脚步快慢的关键,数据永远不能代替思维,数据本身不会说话,数据价值表现在数据应用方的思维中。价值的形成是循序渐进的,今日人们对大数据的狂热,甚至期望大数据可以解决所有面临的难题和疑点,大有准备告别昨日旧思维的架式,而大数据的出现并不意味着既有的理论与思考方式不再适合存在,正如微软的Mundie先生所说,“以数据为中心的经济还处于发展初期,你可以看到它的轮廓,但它的技术上的、基础结构的、甚至商业模型的影响还没有被完全理解。”

时至今日,大数据仍处在它的诞生期,对其未来的成长形态人们有各种各样的描述。相信随着数据获取、分析、应用技术的发展,随着决策模式的变迁,大数据的面孔会成长的越来越清晰,对于时代的影响会越来越广泛,大数据时代会真正来临。