大数据时代的到来,像许多顶级矩阵式管理的大公司一样,主流企业开始认识到数据是提升业务敏捷性的关键,是可以迅速、积极和高效地适应经营环境中各种变化的关键。相关人士认为大数据发展将呈现三种趋势:应用软件泛互联网化,软件的价值同它所协助管理的数据的规模和活性成正比;行业应用的垂直整合,越靠近最终用户的企业,将在产业链中拥有越大的发言权;数据成为核心资产,对数据的掌控导致了对市场的支配和巨大的经济回报。
大数据的影响是否也如其声势一样?
云计算中的“大数据”
数据中心正在成为新时代的“信息电厂”,成为知识经济的基础设施。
过去一年,“大数据”正在成为一个热门话题。
半个世纪信息技术的发展,主要解决的是云计算中“结构性”数据的存储、处理与应用。“结构性”数据的特征有如你到银行去存取款,银行的计算机系统记录着你的名字,在名字之后是你存取款的数量、时间、类型等信息。这些数据的特征是“逻辑性强”,每个“因”都有“果”。
然而现实社会中大量数据事实上没有“显现性”的因果关系,如一个时刻的交通堵塞、天气状态、人的状态(心理与物理)等,它的特征是随时、海量与弹性,如一个突变天气分析包含会有几百个PB(Petabyte, 1Petabyte=1024TB)数据。而一个社会事件如乔布斯去世瞬间所产生在互联网上的数据(微博、纪念、文章、视频等)也是突然暴发出来。
传统的计算机设计与软件都是以解决“结构性”数据为主。对这一类新型的“非结构”要求一种新的计算架构。互联网时代,尤其是社交网络、电子商务与移动通讯把人类社会带入一个以“PB”为单位的结构与非结构数据信息的新时代,它就是“大数据(Big Data)”时代。
大数据的企业与技术
一个大规模生产、分享、应用数据的时代正在开启,我们每个人都成为了数据的创造者和使用者,微博、社交网络都是最好的例子。
工业革命以后,书籍等以文字为载体的知识大约每十年可以翻一番;1970年以后,知识大约每三年就可以翻一番;如今,全球信息总量每两年就可以翻一番;2010年互联网的数据量,比之前所有年份的总和还要多。现在,人类每天可以产生数以PB的数据,从日志、微博、分享照片、传送视频,多种格式的数据实时、不断地更新。在医疗卫生、地理信息、电子商务、影视娱乐等行业,每天也都在创造着大量的数据。
数据正在成为从工业经济向知识经济转变的重要特征,成为新时代最关键的生产要素和产品形态。
代表着大数据时代的如Apple、Facebook、Amazon等公司正成为这场变革的推动力量。同时新企业也层出不穷,比如2007年才成立的dropbox公司,创始人不到27岁,估值已经超过40亿美元,这是一家提供文件备份及共享服务的公司,允许用户在不同平台和设备之间同步并共享文件,dropbox用户数量超过2500万,每天存储的文件数量2亿多个,苹果公司曾出价8亿美元想收购它未成功。
值得一提的是,这家公司最早使用的也是Amazon的S3云计算平台,得以低成本迅速起步。Amazon云计算数据存储服务,原来只是为了利用闲置服务器资源,现在一年可以带来近10亿美元收入,并且供不应求。今年初,Amazon S3云存储服务存储文件是2620亿份,这个数字最近变成了5660亿份,翻了1倍还多。目前Amazon称自己的S3数据存储服务,担心的已经不是数据的存储成本,而是更加重要的数据处理的问题。
云计算中的大数据有几个核心要素,如数据在云端的集合与分享、个人数据的无缝连接(随时、随地、同步)以及数据的跟踪分析和挖掘。
源自雅虎的Hadoop这样大数据系统越来越重要,作为开源的分布式数据处理系统架构,Hadoop主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
Hadoop已经成为AOL、Facebook、Twitter和Netflix这些公司大数据分析的主要解决方案。比如像Facebook一天的数据要比很多大公司一年的数据还要多,他们通过Hadoop收集和存储每天生成的数百万的文件,使用开源Apache Hive数据仓库工具集中对这些数据进行分析。
Opera Solutions这样的创新公司提供的服务更加引人注目:客户将数据上传到Opera平台,Opera就会根据用户数据池里的相关“信号”进行分析,根据每个客户的个性化需求,Opera雇佣各行业的专家来帮助他们进行数据分析,Opera Solutions的年营业额已经超过1亿美元。
新的创业公司像MapR、Zettaset、Cloudera、HStreaming这些和Hadoop相关的大数据公司,在资本市场倍受青睐。它的快速成长将会成为下一个改变信息技术的力量。
大数据的经济意义
大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题。同时这个领域的计算标准与软件均刚刚起步,为全世界新型软、硬件及应用创新提供了前所未有的机会。
海量的数据需要足够存储来容纳它,快速、低廉价格、绿色的数据中心部署成为关键。最近一年多来,谷歌、Facebook、Rackspace等公司都在纷纷建设新一代的数据中心,大部分都采用更高效、节能、定制化的云服务器,用于大数据存储、挖掘和云计算业务。
数据中心正在成为新时代的“信息电厂”,成为知识经济的基础设施。从海量数据中提取有价值的信息,数据分析使数据变得更有意义,并将影响政府、金融、零售、娱乐、媒体等各个领域,带来革命性的变化。以投资Facebook而著名的风险投资机构Accel Partners 表示:“大数据是信息技术未来发展的战略走向,将催生下一代价值数万亿美元的软件企业。”
大数据将丰富我们对世界的认识。从定量、结构的世界,到不确定、非结构的世界。这个转变,使我们得以了解真实信息,提高决策水平,当社会对自然的数据有较为完善、随时的分析能力时,我们对事件的把握及预测能力便增强。以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具,通过对大数据分析、预测会使得决策更为精准,这对现阶段的中国尤其重要。
中国有着庞大的人群和应用市场,复杂性高、充满变化,如此庞大的用户群体,使中国成为世界上最大数据的国家。解决这种由大规模数据引起的问题,探索以大数据为基础的解决方案,是中国产业升级,效率提高的重要手段。
“数据银行”与“云存储”
“数据银行”概念逐渐变为应用的试点。将有公司把我们产生的数据如金钱资产一样,放在“数据银行”中储存起来。
企业计算在大数据环境中可以将已有数据和文档向云计算环境迁移,加快云环境下的数据管理、数据挖掘等软件应用,进行商业模式探索和数字化决策。政府可以通过海量数据的存储、分享,进行分析和应用,通过数据共享和业务协同,提升办公智能和决策效率,解决城市交通、人口管理、公共安全、医疗卫生等诸多难题。
数据不仅代表着生产力,还将成为重要的资产,或许在将来,我们留给下一代的资产,不是银行里有多少存款,而是信息资产;也许10年、15年之后,会有国家的数据银行,相对今天的财富资产,里面保存的是我们的信息资产。
大数据的各种基础及应用软件、硬件产品会逐步推出,而这方面中国创业型企业与硅谷距离也在缩短。今年底我们投资的北京超云计算机公司,将在北京亦庄与硅谷一家企业同时推出世界首台解决大数据问题的“Hadoop”服务器。
“云存储”将会由于苹果的“iCloud”而逐渐流行起来。传统的家电企业提供“云家电”将成为应用热点。大规模、海量的“云数据”中心建设会成为全球与中国下轮基础设施投资重点。
无论云计算还是大数据技术与应用,今天还是早期发展阶段,相当于上世纪80年代初的个人计算机。我们已看到它广阔的应用前景及改变世界经济的力量。但是我们仍无法准确地预知什么样的商业模式与什么样的企业、企业家会取得最终的成功。探索、学习与试错是进入这个新世界之门的唯一钥匙。
大数据和云计算概念不同但有交集
“EMC正在处于转型期,从过去到未来,这种变化让EMC将是两家完全不同的企业,”EMC信息基础架构产品事业部总裁兼首席运营官帕特•基辛格一年后如约再次来到中国,“过去EMC只是一家存储厂商,而未来EMC将引领信息基础架构解决方案市场的发展,成为市场的领导厂商,而不再是一个跟随者。”
EMC 2011年开局不凡,第一季度财报显示EMC Q1综合收入创纪录达到46亿美元,其中在在欧洲、中东和非洲地区、亚太地区和日本都取得出色业绩。“其中大中华区业务增长态势非常良好,在中国的市场份额在增加中,研发中心的能力也不断壮大,其中包括Hadoop和Greenplum的研发工作也在中国进行。目前对大中华区EMC团队的表现非常满意。中国市场很大,所以要走的步伐还要更快一些。”基辛格如是评价。
在刚刚结束的EMC World 2011上,EMC除了一直倡导的云计算外,还抛出了“大数据”概念,大数据构想是EMC带来的全新理念,想要理解好这个概念首先要从“大”入手,“大”肯定是指大型数据集,一般在10TB规模左右,但在实际应用中,很多用户把多个数据集放在一起,已经形成了PB级的数据量,而且这些数据来自多种数据源,并以实时、迭代的方式来实现。这种大数据趋势应该是顺势而生,在医疗、地理信息、基因分析、电影娱乐行业都会存在大型数据,而EMC通过Avamar、Isilon、Greenplum等产品不是简单把数据进行存储,除此之外还需要对数据进行分析,并且与业务流程联系到一起以进行操作。
在本次的EMC World 2011上,EMC针对常用于数据密集型分布式应用的Apache Hadoop开源软件,宣布了一项有关软件发布、集成和支持的全面战略,为客户提供了最强大、最高效率的方法,充分挖掘大数据的价值。这项战略发布,将进一步巩固EMC的领先地位。EMC今天还推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备(Data Computing Appliance)。
基辛格透露:“可以说Hadoop战略代表着EMC进军开源领域,同时还宣布了15家EMC Hadoop分销商,更多的新产品和解决方案将在VMware大会上进行发布。”
而在大数据市场,EMC也面临着诸如IBM、微软、甲骨文等实力强劲的竞争对手,其中,IBM在大数据领域对EMC威胁极大,对此,基辛格分析道:“IBM拥有非常丰富的资产,比如有DB2数据库环境,而且IBM收购了很多企业,在整个硬件、软件、解决方案都有非常强的研发力量。最近IBM在推进大数据项目,IBM也是Hadoop的分销商,所以在大数据领域EMC和IBM有很多竞争。但我们的大数据战略不同,EMC秉持着基于云、虚拟化、X86架构,而IBM是局限于大型机架构,不具有伸缩性,这将极大制约IBM架构的发展。”
事实上,大数据和云计算是两个不同的概念,但两者之间有很多交集。简单形容两者的关系就是“大数据离不开云”,支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,这些都是底层的技术原则,实际上大数据和云计算之间存在很多合力的地方。
大数据比云计算更激动人心
当下,大数据分析技术已经变得炙手可热,它将作为IT行业的下一股热潮,在接下来的很长一段时期里发展得如火如荼。在项目越来越多的行业项目列表中,大数据分析和云计算、社交网络和移动计算一同被列出。作为一种技术,大数据分析有可能改变IT领域,因为我们已经在了解它。
上个月,IDC(国际数据公司)发表的一份报告,预计大数据技术与服务市场销售量将从2010年的32亿美元增长到2015年的169亿美元,其年均增长率会是一般IT市场的7倍,这是相当令人震惊的消息。毕竟,五年前,几乎没有人谈论大数据。
但现在因为大数据成为了新的IT流行语,成群的新闻稿提到这个词就像它是唯一的话题般,公关行业也把它当做救命稻草,于是存活了下来。但是我们的记者却开始恐惧这个主题,不过,你真的不该把责任归咎于我们身上,我们仍然在云计算“革命”的笼罩下,写着一个接一个关于公司终于进入云计算领域或IT供应商已公布云产品的新闻。
我们的研究已经覆盖了云计算市场的规模与价值方面,甚至到了探测哪个公司在为云做准备的程度,并开展了一场关于云计算挑战的长时间的讨论。但之前我们已经把大数据当做另一个云而抛弃掉,而现在我们需要再仔细想想,这项技术是否有一线希望。
大数据分析不仅是一种新型的计算机体系结构,可以用来降低成本和驱动效率,还是一个有潜力的技术集,有可能改变社会的生活,所以它类似于科幻电影。利用大数据分析,个人、企业和政府之间的互动可以变得更快,更开放。如一个经常被引用的例子就是,执法机构通过大数据分析研究犯罪热点地区和作战的具体性质。这在一个名为Crimespotting的美国自主团体和拥有犯罪地图的英国警察部队的共同努力下进步显著。这两种方案汇总的犯罪记录都允许公众在他们的居住区跟踪罪犯。
同时,另一个经常被用来突出大数据的好处的例子是,医学研究人员能很快地从公众健康记录、医学教科书、临床研究和个人的基因组成功治疗中扫描出数据。欧洲最大的大学附属医院--查理特大学柏林医学院,允许每一个医生和高级管理人员随时获得与操作、调度、病人护理有关的数据,并在某些情况下,他们可以看病人的病历,这使医生能够根据病人情况来做出安排,减少了所有病人的轮候时间。
到2017年,医院里每一个癌症病人的人类基因组都将被映射并纳入系统,以确保他们能得到最好的治疗。
除此之外,大数据分析给社会带来的利益几乎是无尽的用另一种方式来使用大数据分析技术能避免城市交通变得过于拥挤;
大数据分析还可以监测手机信号,这使得交通管制员在某一个车辆拥挤的特定地区保持警惕的同时,还会提醒和建议其他司机采取替代路线;
此外,大数据分析为企业提供技术好处。对于因为风险管理目的而实时分析大量数据的金融机构和保险业来说,大数据分析已经是必备流程了。现在,零售商和其他类型的企业也有机会使用这项技术,以便更好地针对他们的客户来制定营销策略。
然而,现实中真正能像以上方式分析大数据的企业还是很少,这不仅因为压缩大数据技术费用昂贵,而且许多企业不想越出私营范畴,尤其是在数据隐私辩论如此激烈的英国。英国人一直在保护他们的数据,即使越来越多的人为了省钱或个人娱乐而选择与优惠卡供应商分享他们的数据,但传统的意识习惯是很难在短时期内转变的。
当然,个人的心态是有可能改变的。如今越来越多地人们也看到消费者与企业共享数据时产生的利益。例如,耐克允许选手准确地记录他们奔跑、休息和停止的位置,然后这些选手就能和他们的同伴一起分享这一信息,同时耐克公司正在设计数以万计的赛跑路线。
我们的数据可以供企业使用,以便我们更容易地工作。随着大数据的增长,IT行业的未来会更令人期待。而且,在日益繁忙和紧张的生活中,能够看到很多企业利用大数据为我们提供解决方案的事例,这也是很有趣的。
大数据时代的数据收集与分析
在数据收集和分析这一正在繁荣发展的行业中,吉拉德-艾尔贝兹可能是最具影响力的投资者,他试图找出世界上的每一个事实,并将这些事实都容纳在被他称为Factual的公司中。自2008年创办以来,Factual已经吸收了大量的事实,其计划是为相互之间联系紧密的数千个超计算云建立全球范围内最主要的参照点。以下是这篇文章的全文。
在数据收集和分析这一正在繁荣发展的行业中,Factual创始人、此外还对其他30多家创业公司进行投资的吉拉德-艾尔贝兹(Gilad Elbaz)可能是最具影响力的投资者。
在7岁大时,艾尔贝兹曾写道:“我希望成为一名富裕的、非常聪明的数学家。”原因是,那将帮助他“发明时间机器、机器人(16.990,-0.56,-3.19%)和能回答任何问题的机器之类的东西”。
此后的34年时间里,艾尔贝兹已经完成了许多的目标,他已创造了能穿越网络的软件机器人、为谷歌(微博)回答了一些非常重大的问题,并在这一过程中获得了远远超过百万富翁的财富。
但是,他的时间机器计划则已被抛弃,原因是其发现了更加重要的事情,那就是试图找出世界上的每一个事实,并将这些事实都容纳在被他称为Factual的公司中。
“世界是一个大数据的问题。”艾尔贝兹在这家公司的总部中说道,这是一间安静的办公室,比洛杉矶乡村俱乐部高14层楼。他身形纤瘦,说话温和,当有什么想法让他感到激动时,他会在椅子中不停地摇动身体。“如果能在一写下错误的东西时就能马上发现,那将会怎样的一种情况?Factual肯定会是改变商界的新事物,对计算来说也是一种宝贵的新工具。”
在“大数据”蓬勃发展的这个年代里,曾经是难以想象的数量庞大的信息正在汇聚起来,从而创造出足以改变世界的发明。而在这一领域中,艾尔贝兹可能是最具影响力的发明者和投资者。除了Factual以外,他还对30家创业公司进行了投资,其中包括旧金山的一个致力于“大数据”的企业孵化器。Factual的总部位于星光大道的一幢高楼中,艾尔贝兹在这里主持召开研讨会,希望在洛杉矶地区培育一个数据社区。
艾尔贝兹还是其母校加州理工学院理事会的一员,同时还是X Prize Foundation基金的成员,这个基金会向在太空飞行、医药和基因科学等领域克服难题的团队提供现金奖金。艾尔贝兹出售给谷歌的公司Applied Semantics是谷歌旗下AdSense业务的基础,这项业务每年都能给谷歌带来接近100亿美元的营收。
虽然艾尔贝兹的投资额十分庞大,而且对前景的展望也很有价值,但他仍相对鲜为人知。他是如此的不爱出风头,以至于当最近他在参加一次有3000名数据科学家参加的会议时,仅有他投资的一家公司的几名职员认识他。他与曾经是联邦检察官的妻子和三名子女住在西好莱坞的一座乡间别墅中,一家人过着安静的生活。在个人兴趣方面,他喜欢在当地的一家运动俱乐部中打篮球。
艾尔贝兹说道,他的精神和金融资产就像是他需要分配的礼物,从而让世界变得更加美好。
“如果所有的数据都明晰无误,那么从世界扣掉价值的人就会减少很多,”他说道,“而为世界增添价值的人就会增加很多。”
创造明确的、可靠的数据还能让Factual成为一家规模很大的公司。
“艾尔贝兹远远领先于我们其他人,对于这位企业家所说的每件事情,我都要过几分钟才能理解。”通过麾下公司Andreessen Horowitz为Factual提供支持的风险资本家本-霍洛维茨(Ben Horowitz)说道。“在三年以前,他认为Factual是改变世界的最大机会。而随着时间的推移,世界已经朝着他所预料的方向发生了变化。”
自2008年创办以来,Factual已经吸收了大量的事实,用艾尔贝兹的话来说,就是“我们已经收集了数百上千亿的个体事实”。
Factual不仅向大公司提供数据,同时也面向规模较小的软件开发商,这些数据中包括可用的政府数据、以兆兆字节为计量单位的公司数据、以及全球50个国家的6000多个地方的信息,每一条信息都有17到40条的相关描述。Factual用30种不同的方式对80多万个餐馆加以描述,其中包括地址、所有权以及食客和卫生组织的评价等。此外,这些数据还包括5亿个网页的信息、一份美国高中列表以及美国180万名医疗保健专家的办公室所在地、特长和保险偏好等,还包括1.4万种葡萄酒的列表、从1950年到1974年的军用飞机事故、以及大型庆典活动的参加人数等。艾尔贝兹指出,即使是奇特的事实也会有用处。
在靠近Factual总部的地方,艾尔贝兹储存着500兆兆字节的数据,这大致相当于整个国会图书馆所需数据量的两倍。在亚马逊(微博)庞大的计算机云内部,他还存储着更多的数据。他领导下的统计员们对大量的数据进行了收集和清理,用来说明很多事情,比如说卫生部门在对卫生设施进行评分时的差异性、“中学”这个词汇在某个特别的镇上意味着两年还是三年的时间、以及原始数据及其副本之间是否存在修正等。
Factual的计划是,为相互之间联系紧密的数千个超计算云建立全球范围内最主要的参照点。到今年底为止,数字世界的数据总量预计将会达到2.7泽字节(一泽字节相当于一万亿GB),大约相当于7000亿张DVD的数据容量。Factual目前的员工总数为50人,当世界开始增长,以及这些数据库开始互的情况下,这家公司的价值将被证明是极其庞大的。
Factual按浮动价格向公司和独立软件开发商出售数据,其依据是有多少信息被使用。小规模的数据提供是免费的,而最大型客户需要支付的费用则会达到成百上千万美元。在有些时候,Factual还会与其他公司进行数据交易,目的是扩大自身所占有的资源。
就目前而言,某些客户使用Factual的数据是为了向手机地图加入餐厅地址等信息,或者是为了规划销售战略等。但Factual的真实目的则要更加广泛,直指当前时代一项重大业务的核心,那就是利用所有基于云的数据和算法,来找到自然和社会的模式,供科学家加以观察,同时供商界加以开拓。
“数据一直都仅被视为计算的副作用,一种当你工作时用来查阅的东西。”艾尔贝兹说道。“而我们将其视为一个完全独立的层面,是每个人在希望解决问题时都不得不去挖掘数据的层面,但你自己可能没有所需的完全可靠的数据。”
举例来说,一个餐饮连锁运营商可利用Factual来找出一个新的选址是否靠近竞争对手,以及当地人在社交点评网站Yelp上如何谈论这个地方。查阅餐厅附近的加油站数据可以知道有多少辆汽车会从高速公路上开下来,运营商还可利用Factual来看看自己的餐厅在网络上的哪些地方被提及,或是纠正其他人所说的有关餐厅的情况。
Factual拥有来自于多名硅谷明星级人物的2700万美元融资,目前仍是一家封闭式持股的公司,但却已经有了成千上万的客户。Facebook、CitySearch、AT&T及其他一些公司都会使用Factual来获得有关某些地方的信息,《新闻周刊》则使用数据库来为美国最绿色的公司进行评级。
其他一些公司则利用Factual的数据来执行产品规划和客户关怀等任务。这家公司还没能实现盈利,艾尔贝兹正在聘用更多人才和建立更多数据集等领域进行投资,公司团队已经包括高级数学家、来自于LinkedIn和谷歌的数据科学家、以及至少一名精通罗马后期考古学的专业人士。
在这个新兴的行业中,Factual的竞争对手包括微软(微博)等公司,后者称其Windows Azure Marketplace拥有“数万亿个数据点”和一个语言翻译器。此外,人们也可以向Azure出售数据集。Infochimps提供地理和社交数据,Gnip和Datasift等公司提供来自于Twitter及其他社交网站的深度数据,由另一名数学家创立的Wolfram Alpha则拥有苹果Siri所使用的数据和计算。
一家名为ClearStory的年轻公司则正试图把所有这些公司都绑在一起,这家同样由Andreessen Horowitz提供融资的创业公司希望提供的是能让普通人使用的所谓“数据集市”。
其他几名数据专家(主要来自于谷歌)也已辞去了原来的工作,用新的方式来争夺大量的信息。原谷歌产品经理大卫-弗里德伯格(David Friedberg)开创了Climate Corporation,这家公司利用有关天气、土壤孔隙度以及小麦和大豆根部结构的政府数据来制作农作物保险合同。
艾尔贝兹还是Kaggle的投资者,这家公司为找到数据模式的人提供现金奖励。举例来说,NASA(美国国家航空航天局)利用它来找到更好的方式去测量星系的形状;在竞赛开始的第一个周,一名专业为冰川绘图的博士生就发现了超过NASA的算法。艾尔贝兹还向ZestCash注入了资金,这家公司以低于行业平均值的利率提供发薪日贷款,通过电话账单及申请者如何解读ZestCash网站等要素来判断风险。
ZestCash CEO道格拉斯-迈瑞尔(Douglas Merrill)曾是谷歌的内部信息系统负责人。
“我们绝对,一切数据都是信用数据,只不过我们还不知道如何使用它罢了。”他说道,“这就是我们所有人在谷歌学到的数学。一张纸的重要性在于上面写着什么,还在于写的东西有多好的愈发,字体是什么,创作或编辑的时间是什么,诸如此类。艾尔贝兹正在做的事情也是一样的,是有关数据的问题。数据越多总是越好。”
艾尔贝兹出生在华盛顿特区,在俄亥俄州、德克萨斯州和佛罗里达州长大成人。艾尔贝兹的父亲出生在摩洛哥,在以色列长大,曾担任一所学校的校长和希伯来文学教授;母亲是一名新闻记者,在艾尔贝兹18岁时去世。在3岁时,他就开始在幼儿园中写重复的数字串,他喜欢读年鉴,喜欢看电视上的股价图表,试图从中找出数据模式。
“他会去参加许多数学竞赛,然后拿三四个奖回来。”艾尔贝兹的父亲尼西姆-艾尔贝兹(Nissim Elbaz)说道。“在参加数学竞赛的间歇,他会去参加物理学比赛玩儿。当我跟他说他是一个大天才时,他就会摆出一副轻蔑的脸色给我看,所以后来我就学会了把这句话藏在心里。”
老艾尔贝兹说道,当他试图向儿子解释以色列与巴勒斯坦之间的矛盾冲突时,后者的回答是,如果双方能在事实上达成一致,那么这种仇恨就将终止。
从幼年开始,艾尔贝兹就喜欢做与数学相关的生意——比如说在德克萨斯州的厄尔巴索(El Paso)把一种品牌的棒球卡全部买光,然后在纪念大会上以三倍的钱转卖出去。
“我们会猜罐子中弹球的数量来玩博彩游戏。”艾尔贝兹的弟弟伊坦-艾尔贝兹(Eytan Elbaz)说道,他曾与哥哥共事,现在则拥有了自己的两家创业公司。“16岁时他举办了一次比赛,用摇快艇骰子的方式来进行比赛。他熬夜制作了一张试算表,来显示所有支出和我们能获得的收入。”艾尔贝兹的另一个兄弟诺姆-艾尔贝兹(Noam Elbaz)过去十年里一直都在以色列的一所高等学院中从事研究工作。
在加州理工学院就学时,艾尔贝兹的专业是应用科学和经济学家。当时他对垄断这一课题感兴趣,并因一篇论文而获奖,内容是判定公司会因想要垄断市场而承担财务上的损失。
艾尔贝兹曾在IBM供职两年,着眼于利用计算机来解决制造业的问题。然后他跳槽到数据库公司Skybase,那是在20世纪初期,IBM正在从大型计算机厂商向服务器和PC厂商转变。
艾尔贝兹的弟弟说道,他认为这段经历使其发生了改变。许多职员都“只是试图保住工作,而不是齐心协力为公司工作”,伊坦说道。他回忆道,由于担心员工私藏数据的缘故,艾尔贝兹曾“开始谈论如果人们分享数据,那么事情将会变好多少”。
随后艾尔贝兹加入了一家名为Microunity的半导体创业公司,并担任这家公司的顾问,在此期间他存钱炒股,为第一家自己的公司筹集了部分资金。他的父亲给了1万美元来让他进行投资,而艾尔贝兹在18个月时间里将其变成了3万美元。当艾尔贝兹和加州理工学院的一个朋友决定在1998年成立公司——这家公司后来变成了Applied Semantics——他父亲让他把股市里赢到的钱投入到公司中去。
Applied Semantics的软件能迅速扫描成千上万更多网页,通过比较其内容的方式,这种软件能告诉公司哪种类型的广告将在某个页面上表现良好。这家公司拥有45名员工,当谷歌在2003年以1.02亿美元的现金加IPO(首次公开募股)以前的股票对其进行收购时,该公司已经实现了盈利。
虽然艾尔贝兹并未透露他从这项交易中获得了多少收入,但他父亲来自于投资股市的3万美元最终变成了1800万美元。“毫无疑问,是他改变了我的退休生活。”尼西姆-艾尔贝兹说道。
艾尔贝兹随后曾在谷歌驻加利福尼亚州圣塔莫尼卡(Santa Monica)的工程办公室担任负责人,与其妻子伊莉莎(Elyssa)和三个儿子住在附近的处所。他为多个领域捐出了数百万美元,其中包括科学教育、环境措施以及帮助罗衫非营利机构的一个组织等。他还曾向Common Crawl捐款,这是一种谷歌类型的网络监测工具,研究者能通过亚马逊的电脑使用这种工具。
在2007年,艾尔贝兹从谷歌离职,开创了Factual。2009年,霍洛维茨和Andreessen Horowitz的运营者马克-安德森(Mark Andreessen)被邀请对这家公司进行投资。当时,霍洛维茨因一种想法而感到困惑,那就是艾尔贝兹已经很富有,为何还要努力开创另一家创业公司。但当艾尔贝兹对其搭建事实“宫殿”的想法进行描述以后,霍洛维茨称其认识到这是一位“忠实的信徒”。
“当时我问他:‘你如此富有,为何还要构建这家公司呢?’”霍洛维茨回忆道。“他给出的答案是我听过的最长、最深思熟虑的回答之一。他认为,这是一个改变世界的机会,而这对他而言比金钱更重要。”霍洛维茨说道,艾尔贝兹告诉他,他需要拿钱来刺激工程师的工作动力,他需要在智力仍旧足够强大时实现自己的目标。
“我终于认识到这并非‘太富而不会努力工作’的问题。”霍洛维茨说道。
Factual的其他投资者还包括罗恩-康威(Ron Conway)、埃斯特-戴森(Esther Dyson)、Index Ventures和Founder Collective等。
Factual还在上海和加利福尼亚州的帕罗奥多(Palo Alto)拥有办事处,在后一个地方,艾尔贝兹所希望的是从硅谷吸引更多人才。他在帕罗奥多聘用的前两名员工分别是蒂姆-什克洛夫斯基(Tim Chklovski)和泰勒-贝尔(Tyler Bell),前者拥有麻省理工学院人工智能博士学位,后者曾在牛津大学从事研究工作,随后供职于雅虎,负责地图相关事务。
对员工来说,一个难题是判定多少数据才够。“毫无疑问,我们希望获得全球每一个加油站的正确名称和位置,”贝尔说道,“而并非每个加油站的价格变动。”
“等一下,我倒是希望知道全球范围内环流的每一加仑汽油,”什克洛夫斯基插嘴道,“这可能需要20年时间,但很有意思。”
在大多数创业公司中,人们谈论的事情无非是越大越好,因此要花20年时间做什么事情看起来可能就像是妄想与空洞的结合。但艾尔贝兹和他的团队则表示,他们觉得这很有意义,因为把真实的事实告诉所有人至少是份终生的工作。
“最近,我一直都在想我们需要获得更多的个人数据。”艾尔贝兹说道。他所说的个人数据并非姓名和地址等等,而是其遗传信息、饮食习惯、锻炼身体的时间和地点,诸如此类——理想的情况是搜集这个星球上所有人的数据,无论是现在还是永远。“我想要指出一条道路,”他说道,“让人们从数据走向科学。”
大数据帮助企业IT经理抓住“网络窃贼”
在安全圈子中有关“大数据”的议论是这样的:如果企业把自己的与安全有关的事件数据与商务信息库结合起来,企业就能够分析这个大数据以便抓住设法窃取敏感信息的入侵者。
这个从安全角度对大数据的观察希望企业应用基于开源软件Hadoop的庞大的数据库。这将导致在IT部门出现一个围绕Hadoop的新型的“数据科学家”的职位。安全专业人员和分析师现在也在讨论大数据还将产生以安全为重点数据科学家。这些数据科学家将利用工具和知识准确地找到设法窃取敏感数据的隐蔽的入侵者的攻击。
在复杂的网络中抓住网络窃贼已经证明是很困难的。“大数据”将提供新的希望。但是,“大数据”能保证做到吗?
咨询机构企业管理协会的分析师斯科特·克劳福德(ScottCrawford)也这样认为。他在旧金山举行的RSA会议关于大数据和大数据如何帮助增强安全的分析师小组讨论会上说:“统计分析将识别出异常情况,但是,统计分析不理解安全。”
克劳福德预计最终将出现一个大数据的“安全算法市场”。他指出,RedLambda和Palantir等公司目前正在解决这个问题。它们利用大量的算术分析以发现异常情况。
对于网络内部行为正常网络用户来说,企图隐藏起来的恶毒的攻击者一种异常行为。攻击者通常隐藏在正常用户的后面。Gartner分析师尼尔·麦克唐纳德(NeilMacDonald)在RSA小组会上发言称,目前,隐蔽的攻击者正在通过传统的防御措施,如入侵防御系统、防火墙和杀毒软件。
麦克唐纳德称,这些渗透和窃取高度敏感数据的灾难性的攻击有时候称作“高级的持续威胁”(APT)。这种攻击是能够把自己的恶意行为有效地隐藏在网络中的人类演员实施的。我们还不知道在网络中“好的”和“坏的”行为是什么样子。他指出,你必须了解“好的”行为是什么样子以便理解“偏离好的行为”。
分析师认为,大数据正在为安全分析提供新的可能性。这意味着目前使用的安全工具、安全信息与事件管理以及类似的不能解决这个问题的工具必须要发展。
麦克唐纳德称,在某种程度上,这种发展现在已经开始了。他是指RSA的威胁检测产品NetWitness和惠普的ArcSightSIM。CrowdStrike等一些创业企业称,他们将用新的方式解决APT问题。
但是,SIEM(安全信息和事件管理)的发展能够处理与商务有关的大数据吗?这个整个想法是不是一个愉快的假象?这个整个想法就是把更多的商务数据添加到来自各种防火墙、服务器、入侵防御系统和类似产品的更传统的SIEM数据中以便提高更有意义的关于入侵者的情报。
市场研究公司Forrester的分析师约翰·金德瓦格(JohnKindervag)称,人们不能从SIEM工具中得到自己需要的答案。他表示将会出现一些新的东西。SIEM工具将是这些新东西的一部分。
在参加RSA小组讨论会的分析师中,企业战略集团(EnterpriseStrategyGroup)分析师乔恩·奥尔特辛克(JonOltsik)是最乐观的。他认为大数据是解决APT问题的答案。
奥尔特辛克发表评论称,我担心的问题是我们将获取更多的数据,但是不知道用这些数据做什么。企业中的首席信息安全官目前还没有宣传大数据将促进安全的想法。他说:“当我与首席信息安全官谈话并且问到有关大数据的问题时,他们只是笑一笑。”
不过,一些大数据安全方法的早期应用者也表示有希望。
ZionsBancorporation公司已经建立了一个大型数据库,对实时安全和商务数据结合在一起的数据进行预防性的分析,以便识别钓鱼攻击,防止诈骗和阻止黑客入侵。这个数据库是在去年10月发布的,是以Zettaset数据库为基础的。这个数据库利用Hadoop工具数据密集型的分布式应用的分析。该公司首席安全官普雷斯顿·伍德(PrestonWood)把这种做法解释为增强SIM工具的一种方法并且为了安全目的分析大量的历史的商务数据。
包括NetIQ在内的SIEM厂商表示,他们知道,有关大数据和安全的议论才刚刚开始。
NetIQ产品管理主管马特·尤莱里(MattUlery)称,这是SIEM的发展方向。他说,这个行业正在通过集成商务智能开始重新发明SIEM技术。大数据能够检测到异常情况。尤莱里指出,该公司的Sentinel7.0集成了更多的数据环境。
尤莱里针对攻击者将接管一个账户的事情问到:“你如何定义好的行为?因此,这个问题就是那是一位员工,还是一个攻击者?”隐蔽的攻击行动最多每天会出现几秒钟。因此,这个目标就是区分可信赖的内部人员和攻击者。大数据在这方面会提供许多帮助。
但是,尤莱里补充说,有许多现实的理由说明为什么用于安全的大数据概念将遇到许多障碍。
一个现实的障碍是目前把企业数据放在云计算中的努力。这将使传统的SIEM方法更加困难。SIEM方法一直在企业内部网络中应用。另一个障碍是对大数据抱希望的安全经理们要制定数据管理战略并且推荐非常高级的技术。在还有许其它的多企业问题需要解决的时代,增加大数据问题可能是一个很难说服人的问题。目前,在工作场所使用自己的移动设备已经是企业的一个重大的管理问题。
大数据带来的机遇与挑战
随着物联网、移动互联网、社会化网络的快速发展, 企业数据的增长迅速,半结构化及非结构化的数据将成及几何倍增长。数据来源的渠道也逐渐增多,这不光包括了本地的文档、音视频,还包括了网络内容和社交媒体。大数据的时代已然来临,并给各行各业带来了根本性变革。
面对这种变革,如何实现高效的存储、如何有效地管理和利用使企业的营销管理更加智能以及现有数据如何保护,成为企业要面临的棘手问题。
数据仓库:
有效的数据仓库由于一直增长的大量数据确实变得越来越复杂。由于业务对快速数据仓库的需要,事情变得更加复杂化。这种高容量和低延迟的组合造成了传统工具不能解决的挑战,而客户正寻找能让他们适应这种变革中的业务和IT环境的技术和流程。
在解决这项需求时所面临的主要挑战之一,是无法在给定的时间内移动必要的数据量。如何突破容量的限制、实现高效检索为云存储等待了来了机遇。云存储平台能够实现快数据中心的存取及管理,并支持跨地域的用户访问、数据迁移。通过虚拟化技术、集群应用、网格技术以及自动分级存储功能。将网络上的不同类型上不同类型的存储设备统一管理起来,实现协同工作。
虚拟化存储技术将可以管控的存储单元汇集成一个巨大的可控“资源池“。对用户来说是”透明“的,用户不必关心数据存储的地理位置,也不必了解存储介质是磁带还是磁盘。对于管理员来说,通过可视的管理界面得到的是一个简化的虚拟控制视图。
集群存储将多台存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池,应用可以通过该访问接口透明地访问和利用所有存储设备上的磁盘,可以充分发挥存储设备的性能和磁盘利用率。数据将会按照一定的规则从多台存储设备上存储和读取,以获得更高的并发访问性能。
提高存储管理效率已经成为许多企业首要解决问题,自动分级存储成为最有效的基础技术,它指的是在不同磁盘类型和RAID级别之间迁移数据块的功能,这可满足性能和空间使用之间的适当平衡,快速将数据放到合适的地方并避免所谓的热点。在不同层级的存储介质之间,比如FC磁盘和SATA磁盘之间,移动数据需要实现全自动化的迁移流程。
数据安全:
存储资源不断升级应对数据增长,灾难恢复以及超出其原有设计极限的业务连续性架构,这使企业面临着巨大的风险。为了避免出现这些情况,你需要采取的最必要的措施就是将加强BC/DR资源的成本因素涵盖到你的主存储环境中,如同它们是相同的整体。这需要精心规划,以确定现有灾难恢复资源中哪些需要进行升级,以及明确在升级完成前你不能继续添加更多数据。这样做也有利于部署某种存储扣款机制,以显示企业数据增长的真正成本。在现今的商业环境中,由于种种原因,企业不被批准备份的措施,甚至要求削减备份计划,但管理员必须明确这其中的后果并应向CEO们说明将意味的风险。
商业智能分析:
事实证明,传统基于事实的商业智能分析模型能够为企业带来价值,但是大数据分析为企业从多种数据源中挖掘、分析铺平了道路,找出对未来企业战略具有影响的因素,能够大大提升效率并降低成本。企业数据的分析正朝着在一段时间内在那种内容中的信息的有意义的洞察,是大数据分析区别于传统数据仓库分析的原因所在。