技术中心

技术中心

您的当前位置: 首页 > 技术中心 > 技术百科 > 大数据 > 返回

大数据

发布日期:2013-08-28 15:54:09  来源:  作者:admin  浏览次数:0

    “大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
    早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。且中国物联网校企联盟认为,物联网的发展离不开大数据,依靠大数据可以提供足够有利的资源。随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
    大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台———并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
    大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
    大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
    大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
    例子
    例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务 。
换算关系
    最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,它们按照进率1024(2的十次方)来计算:  1Byte = 8 bit  1 KB = 1,024 Bytes  1 MB = 1,024 KB = 1,048,576 Bytes  1 GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes  1 TB = 1,024 GB = 1,048,576 MB = 1,073,741,824 KB = 1,099,511,627,776 Bytes  1 PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes  1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes  1 ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes  1 YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes  1 DB = 1024 YB = 1,237,940,039,285,380,274,899,124,224 Bytes  1 NB = 1024 DB = 1,267,650,600,228,229,401,496,703,205,376 Bytes

    应用案例
    洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
    google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
    统计学家内特银(Nate Silver)利用大数据预测2012美国选举结果。
    麻省理工学院利用手机定位数据和交通数据建立城市规划。

    技术
    大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的中国企业如何应对大数据时代的来临?国内的企业跟美国比较,有一个很重要的特性就是人口基数的区别,中国消费群体所产生的这种数据量,与国外相比不可同日而语。

    SOA模型
    我们需要的是以数据为中心的SOA还是以SOA为中心的数据?答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中,将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。
SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。  SOA和数据企业的例子  也许以极限情况为开始是理解SOA数据问题的最好方式:一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件(查询即服务,或QaaS)上。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上;而是通过一个单一的架构—— RDBMS(关系型数据库管理系统)。数据去重和完整性便于管理单一的架构。 
    通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事,由于数据有多个来源和形式因此很少按序存储,并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时,关键是要定义三种模型中的最后一种模型,SOA数据关系中的架构模型。有两种选择:水平方向和垂直方向。
SOA和各类数据模型
    在水平集成数据模型中,数据收集隐蔽于一套抽象的数据服务器,该服务器有一个或多个接口连接到应用程序上,也提供所有的完整性和数据管理功能。组件虽不能直接访问数据,但作为一种即服务形式,就像他们在简单情况下的企业,其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型,但是它至少复制了我们上面提到的简单的RDBMS模型。垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上,该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离,这种分离直接涉及到数据基础设施。在某些情况下,这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理,管理服务器可以作为SOA组件来操作各种数据库系统,以数据库特定的方式执行常见的任务,如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA即服务原则,也可能产生数据管理的一致性问题。

    SOA和水平数据模型
    毫无疑问水平模型更符合SOA原则,因为它更彻底地从SOA组件中抽象出了数据服务。不过,为了使其有效,有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。
水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce,可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据,然后集中查询这一分布式信息的相关结果。实际上,SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。
    效率问题
    效率问题较为复杂。因为水平数据库模型可能是通过类似大多数SOA流程的信息服务总线来完成的,一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销,但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件,很容易被忽略与延迟和数据传输量相关的问题,特别地,如果数据库是云分布的,那么使用他们就会产生可变的网络延迟。
    上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘,而是一组相互连接的高速缓存点,其存储于本地内存中,也可能转向固态硬盘,然后到本地磁盘,最后到云存储。缓存算法处理这些缓存点之间的活动,从而来平衡存储成本(同时也是平衡同步地更新成本)和性能。对于大数据,它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这中方法可以产生大量的数据,但是如果汇总数据最后一分钟还存储在内存中,最后一小时存储在闪存中,最后一天存在磁盘上,那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。
    SOA都是抽象的,但当抽象隐藏了底层影响性能和响应时间的复杂性时,这种抽象的危险程度会提高。数据访问也是这样的,因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系,并为其特定的业务需求优化它。
    影响
    斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛每隔一小时处理超过100万客户的交易,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍 。FACEBOOK处理400亿张照片,从它的用户群。解码最原始的人类基因组花费10年时间处理,如今可以在一个星期内现。“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。

    价值
    大数据
    谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。
    大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,已进入大数据时代,但硬件明显已跟不上数据发展的脚步。以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。虽然大数据在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。
未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。[9]

    治理
    利用ApacheHadoop等开放源码技术,通过传感器、RFID、社交媒体、呼叫中心记录和其他来源提供的新型数据创造价值。出于这样的目的,许多组织开始启动自己的大数据治理计划。所谓大数据治理,指的是制定策略来协调多个职能部门的目标,从而优化、保护和利用大数据,将其作为一项企业资产。
    大数据治理计划也需要关注与其他信息治理计划类似的问题。这些计划必须解决以下问题:
    元数据。大数据治理需要创建可靠的元数据,避免出现窘境,例如,一家企业重复购买了相同的数据集两次,而原因仅仅是该数据集在两个不同的存储库内使用了不同的名称。
    隐私。企业需要严格关注遵守隐私方面的问题,例如利用社交媒体进行数据分析。
    数据质量。考虑到大数据的庞大数量和超快速度,组织需要确定哪种级别的数据质量属于“足够好”的质量。
    信息生命周期管理。大数据治理计划需要制定存档策略,确保存储成本不会超出控制。除此之外,组织需要设定保留计划,以便按照法规要求合理处置数据。
    管理人员。最终,企业需要招募大数据管理员。例如,石油与天然气公司内的勘探开采部门的管理员负责管理地震数据,包括相关元数据在内。这些管理员需要避免组织因不一致的命名规范而付款购买已经拥有的外部数据。除此之外,社交媒体管理员需要与法律顾问和高级管理人员配合工作,制定有关可接受的信息使用方法的策略。

    存储
    “这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”———哈佛大学 社会学教授加里·金随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce 、 INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等对于大数据的存储问题,以下问题不可忽视:容量问题
    这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB1的持续吞吐能力,非常适用于大数据分析。
延迟问题
    “大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。
    安全问题
    某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。
成本问题
    对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场,而且还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。
    数据的积累
    许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
    灵活性
    大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。
    应用感知
    最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。
    针对小用户
    依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。[10]
    与Hadoop
    Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。
    Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性,已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外,您还能够以其他语言编写map和reduce函数,并使用称为Hadoop Streaming(简写为Streaming)的API调用它们。与流数据分析什么是流?
    从技术角度而言,流是通过边缘连接的节点图。图中的每个节点都是“运算符”或“适配器”,均能够在某种程度上处理流内的数据。节点可以不包含输入和输出,也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起,表示在运算符之间移动的数据流。

    右图一个简单的流图,它可以从文件中读取数据,将数据发送到名为Functor的运算符(此运算符能够以某种编程方式转换所传入的数据),然后将这些数据传入另一个运算符。在此图片中,流数据被传送至Split运算符,而后又将数据传入文件接收器或数据库(具体情况视Split运算符的内部状况而定)。
    Streams即,IBM InfoSphere Streams。在IBMInfoSphere Streams(简称Streams)中,数据将会流过有能力操控数据流(每秒钟可能包含数百万个事件)的运算符,然后对这些数据执行动态分析。这项分析可触发大量事件,使企业利用即时的智能实时采取行动,最终改善业务成果。当数据流过这些分析组件后,Streams将提供运算符将数据存储至各个位置,或者如果经过动态分析某些数据被视为毫无价值,则会丢弃这些数据。你可能会认为Streams与复杂事件处理(CEP) 系统非相似,不过Streams的设计可扩展性更高,并且支持的数据流量也比其他系统多得多。此外,Streams还具备更高的企业级特性,包括高可用性、丰富的应用程序开发工具包和高级调度。
    商业模式
    国内网络广告投放正从传统的面向群体的营销转向个性化营销,从流量购买转向人群购买。虽然市场大环境不好,但是具备数据挖掘能力的公司却倍受资本青睐。
    大数据是一个很好的视角和工具。从资本角度来看,什么样的公司有价值,什么样的公司没有价值,从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力。而这几个能力正是资本关注的点。移动互联网与社交网络兴起将大数据带入新的征程,互联网营销将在行为分析的基础上向个性化时代过渡。创业公司应用“大数据”告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容等,这正好切中了广告商的需求。社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。实际上,将用户群精准细分,直接找到要找的用户正是社交内容背后数据挖掘所带来的结果。而通过各种算法实现的数据信息交易,正是张文浩为自己的社交数据挖掘公司设计的盈利模式。这家仅仅五六个人的小公司拿到了天使投资。未来的市场将更多地以人为中心,主动迎合用户需求,前提就是要找到这部分人群。在移动互联网领域,公司从开发者角度找到数据挖掘的方向,通过提供免费的技术服务,帮助开发者了解应用状况。
    数据与机遇
    数据:成功的新前线
    众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。
但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。
数据属于所有人
    有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据科学家和高级开发员的天下。数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。
    数据=机遇
    自从有了IT部门,董事会就一直在要求信息管理专家提供洞察力。实际上,早在1951年,对预测小吃店蛋糕需求的诉求就催生了计算机的首次商业应用。自那以后,我们利用技术来识别趋势和制定战略战术的能力不断呈指数级日臻完善。今天,商业智能 (使用数据模式看清曲线周围的一切) 稳居 CXO 们的重中之重。在理想的世界中,IT 是巨大的杠杆,改变了公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。大数据分析是商业智能的演进。当今,传感器、GPS 系统、QR 码、社交网络等正在创建新的数据流。所有这些都可以得到发掘,正是这种真正广度和深度的信息在创造不胜枚举的机会。要使大数据言之有物,以便让大中小企业都能通过更加贴近客户的方式取得竞争优势,数据集成和数据管理是核心所在。面临从全球化到衰退威胁的风暴, IT 部门领导需要在掘金大数据中打头阵,新经济环境中的赢家将会是最好地理解哪些指标影响其大步前进的人。当然,企业仍将需要聪明的人员做出睿智的决策,了解他们面临着什么,在充分利用的情况下,大数据可以赋予人们近乎超感官知觉的能力。Charles Duigg是《习惯的力量》一书的作者,他找出的一个黄金案例分析的例子是美国零售商 Target,其发现妇女在怀孕的中间三个月会经常购买没有气味的护肤液和某些维生素。通过锁定这些购物者,商店可提供将这些妇女变成忠诚客户的优惠券。实际上,Target 知道一位妇女怀孕时,那位妇女甚至还没有告诉最亲近的亲朋好友 -- 更不要说商店自己了。很明显,在可以预见的将来,隐私将仍是重要的考量,但是归根结底,用于了解行为的技术会为方方面面带来双赢,让卖家了解买家,让买家喜欢买到的东西。再看一下作家兼科学家 Stephen Wolfram的例子,他收集有关自身习惯的数据,以分析他的个人行为,预测事件在未来的可能性。大数据将会放大我们的能力,了解看起来难以理解和随机的事物。对其前途的了解提供了获取崭新知识和能力的机会,将改变您的企业运作的方式。
    数据回报率
    简而言之,企业可以通过思考数据战略的总体回报,来应对大数据的挑战,抓住大数据的机会。Informatica所指的‘数据回报率’,是为帮助高级IT和业务部门领导者进行大数据基本的战术和战略含义的讨论而设计的一个简单概念。等式非常简单:如果您提高数据对于业务部门的价值,同时降低管理数据的成本,从数据得到的回报就会增加 -- 无论是用金钱衡量,还是更好的决策
数据回报率=数据价值/数据成本
    在技术层面,数据回报率为数据集成、数据管理、商业智能和分析方面的投入提供了业务背景和案例。它还与解决业务的基础有关:挣钱、省钱、创造机会和管理风险。它涉及对效率的考虑,同时推动了改变游戏规则的洞察力。

    案例研究
    智能以及获取数据回报经常被看成旷日持久的事情,但是通过云计算,快速的回报正在成为可能。PDI是一家领先的医疗商业化公司,Informatica Cloud加强了该公司的销售、客户报告、洞察力和合规性。Informatica通过确保交付及时和相关的信息,帮助PDI取得高额数据回报,同时减少了企业的应用程序、数据和 CRM 备份成本,更在不到一个月的时间就部署完毕。解决方案将PDI的Salesforce .com CRM数据复制到基于云的报表系统中,使数据完整且保持最新,完成报表周期所用的时间只是以前所需时间的零头。可以每周、每日甚至实时生成报告,而从前则是30天的周期。数据集成和CRM备份成本也大幅降低,同时PDI销售团队可以共享他们的业绩视图,跟踪生物医药销售指标和其他促进销售的信息。PDI的首席信息官Jo AnnSaitta 表示:“离了 Informatica Cloud ,PDI的销售团队就会抓瞎。这种灵活易用、基于 SaaS 的集成服务正帮助公司实现数据的巨大回报,推动本来向下的销售上行,最终提高IT 利润。”新西兰最大的金融机构 Westpac Life将Informatica 部署在其雄心勃勃的保险项目中,这个项目是一个商业智能环境,帮助金融机构增加收入、留住更多客户、增加交叉销售的潜在客户并降低风险。系统提供了一个可信业务和保险客户数据的单一来源,有望交出240 %以上的投资回报,保单的生命周期收入提高至少一个百分点。Informatica 还助力Westpac的社交媒体项目,利用客户所说的话,从而将客户放在Westpac活动的前沿和中心。超过120 万客户每月进行三百万的在线交易,庞大的数据集带来了复杂的挑战。但是通过部署Informatica 平台,避免了在孤岛上作出决策。可基于具有高级报告和可视化的全盘信息,在保密情况下通过强大数据治理作出战略决策。Westpac Life新西兰有限公司的保险负责人KevinCrowley说:“在财务不确定性的环境中,更快作出决策所需的财务效率和业务洞察是 Westpac 已经解决的挑战。因为有 Informatica ,我们有更好的定位,对更大透明度的需求作出响应,并将公司的客户保险数据资产转化为业务洞察力。”
    实现最大回报
    Informatica深知,对于很多企业来说,向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点,同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica可提供数据集成平台和领导力,为企业提供全程帮助。在大数据的世界中,最灵活和成功的企业将会是那些善用大机遇的公司。

    IBM战略
    IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”,指的是在“掌握信息”(Align)的基础上“获取洞察”(Anticipate),进而采取行动(Act),优化决策策划能够救业务绩效。除此之外,还需要不断地“学习”(Learn)从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现“转型”(Transform)。基于“3A5步”动态路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。如下图所示。
 

    在大数据处理领域,IBM于2012年10月推出了IBMPureSystems专家集成系统的新成员——IBM PureData系统。这是IBM在数据处理领域发布的首个集成系统产品系列。PureData系统具体包含三款产品,分别为PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分别应用于OLTP(联机事务处理)、OLAP(联机分析处理)和大数据分析操作。与此前发布的IBMPureSystems系列产品一样,IBM PureData系统提供内置的专业知识、源于设计的集成,以及在其整个生命周期中的简化体验。
    多重挑战
    伴随着各种随身设备、物联网和云计算云存储等技术的发展,人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人,不再是网页。数据大爆炸下,怎样挖掘这些数据,也面临着技术与商业的双重挑战。首先,如何将数据信息与产品和人相结合,达到产品或服务优化是大数据商业模式延展上的挑战之一。张夏天认为,大数据对算法和计算平台的挑战加大,计算开销大增。总量上升,质量下降,这是大数据带来的重大挑战。其次,巧妇难为无米之炊,大数据的关键还是在于谁先拥有数据。多盟联合创始人兼COO张鹤表示,智能手机是根据用户营销而不是根据媒体营销。移动互联网提供了新的数据来源,数据分析能够针对每一位用户的手机信息做精准匹配,但大数据时代还没有真正来临。多盟虽然每天可覆盖1800万用户,但对用户行为的描述,还需要更大的数据量。从市场角度来看,大数据还面临其他因素的挑战。架势无线CEO叶忻直言,大数据很有前景,但是市场中数据噪音太多,会导致数据价值大大降低。以无线营销为例,大量的刷量以及水军好评差评等数据已经严重干扰了数据的准确性,这实际上大大降低了数据的价值。
    服务前景
    产业界对于大数据的热情持续升温的同时,资本也敏锐地发现了这一趋势,并开始关注数据挖掘和服务类公司。基于此,《中国经营报》记者专访了对这个领域深有研究的资深人资。《中国经营报》:大数据越来越多被提及,你觉得数据挖掘在商业模式上有什么新的趋势?
答:大数据就是实时数据的处理和实时结果的导向,越来越多的数据挖掘前端化,或者说直接为消费者感知和直接提供消费者所需要的服务,通常形式是诞生了各种各样的个性化推荐的服务。《中国经营报》:在大数据背景下,对于各种从事数据挖掘的公司有什么新的机会?
答:大数据的前提是数据总量的迅速增加以及数据的流动性增加,前者是由于用户的行为在手机和电脑上越来越多,门槛越来越低;另外一个因素是因为各种平台的开放导致流动性增加,以上两个因素的诞生才能催生更多的直接为消费者服务的大数据公司。以北京百分点信息科技有限公司(以下简称“百分点”)为例,这家公司的方向、应用和诞生时间,恰好符合了这样的趋势。《中国经营报》:从投资角度,你怎么看数据挖掘类公司的投资价值和公司前景?
答:我看好以大数据为出发点的商业模式和电商的后续服务产品。它们的前景大方向是符合趋势的,但是具体产品和数据处理能力,可能是最终成败的因素。《中国经营报》:从行业角度看做大数据的门槛在哪里?做数据挖掘需要具备哪些重要的因素?答:门槛主要是如何获得大量数据,数据的质量、相关性以及是否有好的处理能力和技术,最终应用的方向是商业化的关键。《中国经营报》:在你看来,IDG投资百分点主要看中哪几个关键点?你认为百分点所处的竞争环境如何?答:百分点具有良好的团队、技术能力、行业能力以及研究能力,在它们的创始人之间既有互补又有突出。另外,它们的诞生和发展符合了大的趋势,而且相对又有一点领先。竞争环境主要取决于国内互联网公司,尤其是大公司对于开放数据的态度和速度,同时也包括它们的技术能力和产品是否能够不断地超越用户的需求。[9]
    我国应对最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在2011年12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
    投资热点大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。  大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判,所有传统的产品公司都只能沦为新型用户平台级公司的附庸,其衰落不是管理能扭转的。  因此,大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测,到2020年全球将总共拥有35ZB的数据量,而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。数据处理技术和设备提供商、IT系统咨询和ERP/CRM/BI改造服务商、智能化和人机交互应用以及信息安全提供商将获巨大需求,相应公司将获得机会。  
    当前我们还处在大数据时代的前夜,预计今明两年将是大数据市场的培育期,2014年以后大数据产品将会形成业绩。由于国际巨头在硬件层和基础软件层垄断优势明显,本土企业将主要依靠对客户需求的了解和客户资源优势,以及本地化服务的优势,在应用软件层分得蛋糕,拥有大数据处理、挖掘技术、数据分析人才以及数据资产的公司值得看好[11]。