大数据是什么意思?

大数据是什么意思?

大数据是什么意思?大数据(英语:Big data,香港称作大数据,台湾称作巨量资料),指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。

海量数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,海量数据的出现促成广泛主题的新颖研究。这也导致各种海量数据统计方法的发展。海量数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,海量数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,海量数据分析在现代研究中越来越突出。

概述

截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(EB)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频识别(RFID)和无线感测网络。自1980年代起,现代科技可存储数据的容量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾字节(2.5×1018字节)的数据。

海量数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”(电脑集群是其中一种常用方式)。海量数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百TB才会对他们造成困扰。”

随着海量数据被越来越多的提及,有些人惊呼海量数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“海量数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对海量数据感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的时髦术语(buzzword),看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。

大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,海量数据包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(Case of Right to be Forgotten)一案作出裁定,判决谷歌应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。

定义

海量数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。海量数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。

在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分海量数据产业中的公司,都继续使用3V来描述海量数据。高德纳于2012年修改对海量数据的定义:“海量数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。

海量数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手海量数据,奥巴马更在同年投入2亿美金在海量数据的开发中,更强调海量数据会是之后的未来石油。

数据挖掘(data mining)则是在探讨用以解析海量数据的方法。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于特殊大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。