繁體中文版 ︳

您现在的位置: 上海市无线电管理局 >> 新闻发布 >> 行业新闻

新闻发布

大数据时代的中国机遇 ——专访美国西塞罗集团(CICERO)首席执行官Randy Shumway

2016年1月5日

    编者按:近年来,随着互联网信息技术的迅猛发展,大数据(big data)一词正越来越多地被提及,大数据的重要价值日益凸显,也为越来越多的国家和企业所认识,并将其置于战略高度加以推动。今年5月召开的贵阳国际大数据产业峰会上透露,我国正在制定大数据国家战略及行动计划。7月1日,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》,要求在政府层面推动大数据应用,正是顺应大数据时代潮流之举。然而,面对大数据产业发展的有利时机,如何深入了解大数据可能带来的深刻影响,如何使大数据技术为我所用?为此,美国西塞罗集团(CICERO)首席执行官Randy Shumway接受了记者专访。
    记者:现如今,大数据及其应用的迅速发展,已经引起了社会各界的广泛关注,对于大数据,您怎么看?您认为未来全球大数据发展趋势如何?
    Randy Shumway:知识就是力量。二十一世纪的知识就是数据。几十年来,企业出于对传统流程和专业直觉的偏好,一直忽略数据。与此同时,全球数据量却呈现指数增长。在这一进程中,一些企业看到数据的真正价值与潜力,于是努力抓住机会,像谷歌、百度、网飞、阿里巴巴、亚马逊、腾讯和脸谱。正是这些公司的成功吸引了其它企业关注大数据。
    今天,“大数据”这个词有了经典的含义,即企业不论大小均可获取的、日益增多的海量数据。据估算2020年的数据量将达到2009年的44倍。2020年,全球数据量将高达44泽字节(或44万亿吉字节),这么大的字节量几乎和宇宙中的星星数量相当。随着更多设备和数据源(如交易数据、传感器、点击流、移动设备等)的加入,新兴经济体互联网的日益普及,更多通讯技术基础设施的完善,大数据还会继续呈指数增长。
    中国大数据市场的三大公司分别是百度、阿里巴巴和腾讯,人称“BAT”。这三家产生大量数据,但其数据的侧重不同。百度采集的主要是用户的搜索数据,阿里巴巴采集的是交易与信用卡数据,腾讯采集的则是社交数据。这里面的跨行业应用潜力极大,不仅包括针对客户的交叉销售与高端销售,还包括更精准的定位促销、假冒伪劣产品识别,乃至欺诈防范等。鉴于大数据所蕴含的巨大能量,预计BAT和其它中国企业在未来几年将推出一系列复杂的数据模型和客户应用。
    放眼全球其它区域,我们发现全球各地都在热烈拥抱大数据。大家期待从大数据中挖掘宝藏,借助大数据使自己从激烈的市场竞争中脱颖而出。这股横扫全球的大数据热潮绝非心血来潮,而是有来头的,在大数据成功案例日益增多的今天尤为如此。因此,我个人非常看好大数据在提升企业竞争力方面的积极作用,这一点毋庸置疑。但同时,我认为大数据并不完美,因此,搞大数据最好走一条平衡之路。
    譬如,大数据无论规模多大,它只是揭示了某些隐藏的规律。通过大数据,我们可大体了解哪些人属于行动派、哪些人喜欢点击广告、哪类人的成功(或失败)概率最高,等等。但大数据无法揭示问题的全部,尤其无法揭示个人经验方面的问题(如消费体验、品牌认知、回头概率等)。大数据回答的是“什么”,而非“为什么”。任何组织若想推出富有创新精神的颠覆性战略,就必须对“什么”和“为什么”两个问题有清醒的认识。
    记者:大数据会对哪类公共政策问题产生积极影响?
    Randy Shumway:运用大数据来制定公共政策,推进有社会影响力的倡议,这个话题令人激动。尽管大数据和公共政策的结合属于新生事物,但我认为这里面的潜在社会效益是巨大而真实不虚的。无论在预防传染病、控制大气污染、降低犯罪率方面,还是在垃圾处理、优化交通、减少水污染、提高能源效率发面,莫不如此。
    大数据在公共政策领域发挥重大作用的前提之一是物联网。“物联网”这个词是指日常产品所采集的各类数据。物联网的数据主要源于传感器,而传感器可对无数应用进行监控,包括车辆速度、天气状况、空气污染、水压、机器运行状态、化学成分等等。有了物联网,我们就能以史无前例的方式持续获取事件的精准可测量数据,这些数据的规模之大在以往是很难想象的。
    就大数据在优化公共政策、构建智慧城市方面的应用,我想举几个例子。瑞典的斯德哥尔摩市、美国的圣安东尼奥市的交管部门已开始利用大数据对红绿灯的设置和布局进行监控和改进,以疏导交通,减少堵车。圣安东尼奥市估算,大数据项目上马以来,大幅减少了人们在路上的堵车时间,为整座城市挽回了20亿美元的效率损失。
    耶路撒冷市则在城市供水系统中安装传感器,对居民用水的水质和水流进行监控。通过这套系统,市政可对系统各节点的水质污染程度进行测量和监控,还可迅速定位渗漏点,在重大损失前即可做到防患于未然。
    荷兰的阿姆斯特丹市和法国的尼斯市利用传感器跟踪空气质量,识别污染源,并对公交政策改善空气质量的效果进行评判。在美国,政府利用卫星图像监控森林火情,还打算利用类似技术对全球各地大规模空气污染进行监控。
    西班牙的巴塞罗纳市启动了八十多项大数据项目,其中涉及公交路线优化、储水与用水效率、能源配给等。通过对土壤湿润度进行监控,该市可在对城市绿地实行有效灌溉和管理的同时实现节水、省钱的双重目的。
    类似的应用还有很多,如大数据在公共健康领域的应用。在美国和加拿大,安装在患者家中的医疗传感器可对偏远地区的患者进行有效看护。通过对患者日常健康数据的监控,医生在患者发病初期即可进行干预,不必被动等待患者上门。其它公共健康领域应用主要体现在监控大规模人口状况、健康趋势和传染病方面。
    四川地震后,中国也利用类似的远程数据技术和监控设备进行数据采集,以支持大城市的医生为偏远闭塞村庄的患者提供远程诊断和治疗。这些数据只是患者的具体健康数据,似乎和大数据的关系不大,但这至少说明物联网领域内正在发生一些事情,同时也展示了有哪些数据采集的新手段可供选择。
    因此,可以说在公共政策等领域的确有些良机,我们要及时抓住这些机会,好好利用数据、数据采集和大数据等工具来造福社会,改善人们的生活方式。
    记者:您能否从专业角度解释下到底什么是大数据技术?
    Randy Shumway:许多人认为大数据就是指数量大的数据。但量只是大数据的一方面。IDC在它的报告中给大数据下了一个定义,描述了大数据时代的三大特征,即俗称的“3V”,分别是指量(volume)、类(variety)和速(velocity),这三个字的英文表达均以英文字母V开头,因此合称“3V”。只有将这三个特征结合起来,才能把大数据同传统数据(如关联式数据库)有效区分开来。
    “量”指的是数据的规模(数量)。大数据自然数量要大,大得要以拍字节(千万亿字节)为单位来计算。数据量既然这么大,这对需要存储或处理大数据但又缺乏必要基础设施的企业来说自然是个挑战。
    “速”指的是速度。大数据往往以极快的速度流向企业,这就要求有独特的IT解决方案来对数据进行实时的采集、管理和储存。
    “类”指的是采集的数据的不同种类。大数据的数据源与传统数据有所不同,多源于离散的非结构化数据源(如文本、数字、音频等),这就要求有强大的程序和算法对其进行适当解读。
    记者:大数据的数据源一般包括哪些?
    Randy Shumway:简而言之,大数据无处不在,其数据源也必然随着新技术、新平台和新流程的出现不断进化和发展。大数据的数据源多得难以想象。但从广义分类的角度看,我们认为大数据的最大数据源是内部档案、文件、媒体资料、数据存储、商业应用、公网、社交媒体、机器运行数据、传感器数据等。
    这些数据源主要包括:
    内部档案:包括扫锚文档、报表、与客户的通讯记录等;
    文件:包括PDF, XLS, CVS, DOC等格式的文档;
    媒体资料:包括影像、视频、音频、实时流媒体等;
    数据存储:包括SQL,和Hadoop等系统内文件;
    商业应用:包括业务流程方面的具体应用,如CRM、员工管理、人力资源、成本管理、市场营销等;
    公网:指对天气、交通、法律法规、公共财政、公共健康等方面的公共数据库的跟踪与文本清洗;
    社交媒体:包括脸谱、微博、领英、推特、优酷、QQ地带、人人网等;
    机器运行数据:包括运行事件记录、服务器数据、点击流量数据、客户呼叫记录、移动定位数据、移动应用等;
    传感器数据:此类设备包括智能电子测量仪、道路摄像头、游戏机、车载电脑、医疗设备、家用电器等。
    记者:目前最好的大数据分析技术是什么?
    Randy Shumway:我们可以退一步,对目前使用的规模不等、类型不同的大数据分析技术进行回顾总结。结果是相当惊人的。当初,大家在不同领域采用不同分析算法,包括机器学习技术、统计学、图形识别、人工智能、数据库系统等。现在,这些技术均进化成了强大而复杂的大数据专用工具。更厉害的是,为适应新数据源不断出现的局面和企业在大数据应用方面的独特需求,这些技术还在持续进化。
    鉴于大数据的应用案例分分秒秒都在刷新,因此,我们认为并不存在所谓的“最佳分析模型”或“最佳实践分析模型”。说到底,大家采用的各类大数据分析技术和具体算法各有千秋,其效果也各不相同。
    上述分析技术只是各类大数据分析技术的冰山一角。其它的分析技术还包括:关联规则挖掘、系集建模(袋翻法、随机森林模型等)、决策树(C&RT, CHAID)、文本分析、朴素贝叶斯分析、神经网络建模、向量机辅助学习、市场购物篮分析、回归分析(多变量分析、逻辑分析)等。
    在分析技术日益多元的同时,应用案例也越来越多。具体的应用包括:业务线索与销售目标优先排序、产品推介服务、客户发展成功概率打分、风险建模、客户价值与收益率打分、客户维系与流失预测、产品与服务内容优化、交叉推销法与高端推销法、消费意向分析、客户营销优化,等等。
    记者:那么,数据专家要采用哪些技术来驾驭大数据?
    Randy Shumway:目前这场我们正在见证的最大技术革命是围绕大数据基础设施展开的。前面我说过,大数据的三大特色分别是量、速、类,也叫3V。这三大特色其实也是驾驭大数据的三大IT挑战。某些企业尝试将大数据转化为竞争优势,但经过内部IT审核后,却发现自己根本不具备应对挑战所需的必要IT基础设施。原因在于多数企业依赖的是传统企业基础设施,而这种基础设施的设计初衷只是管理和分析关联式数据库,因此根本无法处理未结构化数据、海量数据和高速数据。为应对这一挑战,企业正逐渐采纳所谓的“簇计算结构”,即可廉价高效满足企业独特大数据需求的系统。
    从较高的层次看,簇计算结构是一组互联的电脑(多为低成本商用电脑),这些电脑一起工作来完成某项任务。一组互联电脑如能以有组织的方式开展合作,其处理能力就会大幅提高,尤其是分析非结构化大型数据集的能力。与企业结构相比,簇计算结构在升级和处理速度方面更为可靠,可为致力于培养大数据能力的企业提供理想的平台。目前,簇计算结构技术已发展了一段时间。另外还有个新生事物,就是把平台和大数据有效结合起来的软件平台 - 哈杜普分布式计算平台(Hadoop)。
    哈杜普是阿帕奇项下的开放源代码项目,是为簇计算结构量身定做的系统。哈杜普和簇计算结构的结合之所以令人激动,是因为这种结合可让企业实现想存多少数据就能存多少数据,且格式不限,廉价高效。哈杜普的特色主要表现在两方面,一是数据存储系统,二是数据处理系统。要了解哈杜普数据存储系统,必须对哈杜普分布式文件系统 (HDSF)有所了解。同样,要了解哈杜普数据处理系统,必须对MapReduce等并行编程技术有所了解。
    我先谈谈HDSF。假设有个数据集,这个数据集比电脑或服务器的储存空间还大。 通过HDSF,就可把这个大文件转化成许多方便存储的小块,然后把这些小块以离散的方式存储到多台电脑上。这样一来,企业就能成功存储一台电脑或服务器装不下的数据集。
    关于哈杜普,我们还需了解一点,即它通过MapReduce来处理数据的方式(搜索、还原、提炼等)。在传统企业机构中,通常把数据交付到任务处理的环节,但这样可能会给整个网络带来巨大的压力,特别在处理大数据集时。面对这一挑战,MapReduce可把数据处理任务分配到各个单独的数据点(如每台单独的电脑)上。在这一框架下,每台单独的电脑都会收到DHSF分配来的小型数据集,同时还负责处理MapReduce布置的数据处理任务。最后再由MapReduce 把每台电脑的运算成果收集起来,之后“还原“成完整的最终成果。由此,我们可以看出:这一流程确实比传统企业结构更迅捷、更高效。
    记者:你认为哪些行业从大数据中获益最大?如何获益?
    Randy Shumway:最先从大数据中获益的公司是谷歌、脸谱、网飞等网络公司。谷歌的成功主要源于搜索引擎算法与定位广告系统。同样,网飞之所以在网络流媒体方面具有领先优势,在于其利用非结构化社交媒体数据和网络分析工具来指导自有新媒体的创新与并购。经过短短几年,大数据的好处便开始辐射所有行业领域,并通过对各行各业重要职能进行优化的方式实现跨行业发展。
    零售业就是典型例子。我们预测实施大数据销售的零售商有望将毛利率提高60%。零售业有个经典的大数据案例,当事方是“目标”公司。2012年,“目标”公司开发了一套算法,可对怀孕顾客的购物行为变化进行侦测。该算法本来是为了向准父母们派送尿裤、婴儿奶粉、儿童服装等商品的购物券。但这套算法非常精确,导致大家纷纷担心自己的个人隐私。最终,“目标”公司不得不在促销时掺入其它类商品的购物券,以掩盖其促销活动的针对性。从上述案例中不难看出,大数据正在改变零售业的现有竞争格局。
    当然,从大数据中获益的远远不止零售业。今天,几乎所有企业均会产生所谓的“数据尾气”,或者说,这种潜力至少是存在的。因此,我认为未来几年下列行业将从大数据中获益最多并呈指数增长:健康保健业、银行业、通讯业、公用设施、零售业、保险业、能源行业和旅游业。
    记者:中国企业同样渴望挖掘数据的最大价值,对此您有何建议?
    Randy Shumway:过去十年,许多企业都致力于大数据战略的推行。有些取得成功,有些却失败了。成功的企业往往都在踏实推行数据驱动型文化,而非简单地把数据看作权宜之计。接受了数据驱动型文化,这些企业就能借助广泛而系统的分析学应用来超越对手,无论思维上还是行动上。
    中国企业要最大程度地挖掘数据价值,要明白两点。首先,大数据在真空里是没有价值可言的。就是说,只有利用大数据来推动实际决策,大数据的潜力才能释放出来。这不仅需要最佳实践,而且需要决策者与分析人员的密切配合。其次,要产生有意义的成果,要有一个过程,而数据只是这个过程的一部分。如果我们把从数据中导出的结论比作冰山,那么露在水面上的仅是冰山的数据部分。与之相比,冰山的水下部分比重更大,这部分包括公司的数据战略、数据技能、数据流程、数据系统等等。没有数据不行,没有推动数据互动的手段与能力更不行,这两者缺一不可。因此,我认为致力于大数据挖掘的中国企业与组织(包括政府、国有企业和私营公司)拥有巨大的潜力。

友情链接:工信部|中国上海|上海市经济和信息化委|上海市无线电协会|上海市业余无线电协会|上海无线电科普教育基地|上海无线电检测行业联盟