关闭

会员登录

还没有账号 立即注册

自动登录(30天内) 忘记密码?

用第三方账号直接登录

微博账号登录 QQ账号登陆

关闭

找回密码

关闭

邮件订阅

当前位置:网赢天下网>视点>

薛峰:大数据技术构建“可执行的洞察”

2014-08-28 10:06来源:比特网0

  IBM三年前已经讲2B的概念。而今天,大数据可以帮企业加强他们竞争能力。大数据包括在防火墙以外的数据,防火墙以内的数据,包括流动的数据、静止的数据,非结构数据、结构数据。如何把这些数据的价值利用起来?IBM硅谷研发实验室,大数据平台开发与设计项目总监薛峰Steven Sit 在2014IBM技术峰会上做了重点阐述。
 
  借技术力量挖掘大数据价值
 
  我们很注重怎么样把System of Record,怎么样把这部分加强到对客户、对产品、对竞争市场有更深一点的了解。System of Engagement本身可以是客户,也可以是产品,也可以是我们市场的竞争对手,我们需要首先用大数据把这些融合起来,加强记录系统。下一步需要利用大数据和分析能力提供这样一个环境,令企业里面的决策人员能够作出战略性决策,这一点也并不是太新的概念,很多人已经在做这部分事情。比较新的概念是怎么样利用大数据和分析能力来加强前端的互动系统,前端的系统可以是新兴的或者现有的应用或者在社交媒体上的应用。有一些传统的应用像呼叫系统、客户服务系统,这些方面都可以利用到对客户、对产品深入的了解及时性的加强它的功能,这就是所说的“可执行的洞察”(Actionable Insight)。
 

 
  至于,为什么可以利用数据仓库或者传统性的商业智能达到我们的目标?我们可以看到传统数据库的场景。数据源就是一些结构化的数据,从CRM、ERP或者主数据的数据,这些数据被导入ETL环境进行数据加工和整合,有一部分数据放到企业级仓库,再基于前端的应用,各个业务部门不同要求,数据发配到数据集市为前端作出服务。
 
  在今天这种场景有很大的局限性:第一,在左边没有很有效的可以处理非结构化或者半结构化的数据来源。第二,整个数据流程从数据端到前端的互动系统需要经过比较繁复的过程,这个过程中我们要Define数据库里要有技术上的Skimmer。如果前端应用需要新的要求或者需要改变的时候,整个流程都需要改变,数据库需要改变,ETL流程也需要改变,这种情况可能是三个月到半年的工程,对于时间来讲,在今天的竞争环境下是没有办法跟上潮流的。第三点是成本。数据库一般来讲成本比较高,一般的企业会把最热的数据放在企业级的仓库,比较冷的数据,比如说五年以后比较旧的数据放在档案点,问题是这些档案点没有办法被企业利用能做出更深一层的分析。这三点:灵活性低,没有办法分析更多的数据、价格比较高,这三点是比较严重的缺陷。
 
  轻型的大数据平台可以改变过去的局限。第一,在数据源方面除了结构化之外,可以处理移动性的数据,可以处理静止的数据,结构化、非结构化的数据都可以用起来。如果是动态的数据,先发到及时性的分析能力,所产生的洞察直接可以加强前端的应用。数据基本上有一个“内存计算”的过程,上载到储存器上的。
 
  第二,数据可以经过传统的ETL的系统,现在我们叫ELT,再利用大数据强大的功能做Transformation。数据也可以直接载入中间这点,这就是“登录聚点”和分析区,总括来讲我们讲是“数据湖泊”(Data Lake),在这里有几样重要的东西,我们尽量把原始的数据格式存储,在“数据湖泊”(Data Lake)里需要把分析这部分,在传统情况下要做分析,很多情况要把数据源取样抽出来到分析这一端建模,比如做预测性的模式。但是在“数据湖泊”(Data Lake)里面最大的分别把分析这一点搬到“数据湖泊”(Data Lake)里面来做,这样可以分析所有的数据,并不是分析取样得来的数据。分析的结果在“数据湖泊”(Data Lake)里面就是刚才说到的“Actionable insight”直接加强前端的互动系统,前端的结果也可以用于加强企业里现有的数据仓库或者是已经在被应用的数据集市。所以这是一个新型的大数据场景,主要是及时性的分析能力、以及“数据湖伴”,这两个是比较重要的一点。
 
  第三点就是整个场景里面需要有清晰的处理、安全性、援助性,各方面都是非常重要的一些功能。尤其过去两年之内,IBM跟很多的客户做出了比较多的合作。
 
  在合作的过程中,大概可以看到出五个大数据的“甜蜜点”。第一,很多的企业其实在利用大数据项目来解决企业里存在很长时间的问题,这个问题就是“数据岛”可以把各种各样不同业务部门的数据整合到同一个环境之下,再把这个环境提供给业务部门作出合并性的分析,达到更深的洞察。第二,对客户的全景认识,除了客户从CRM上知道了姓名、地址这些基本的信息,更加可以深入的了解客户,从不同的数据源,比如说社交媒体,可以知道这个客户对产品有什么要求、有什么期望,或者客户本身在生活上有什么新的需求,比如去旅游了或者新生了孩子,这些信息对零售业是非常好的推销渠道。第三,我们经常知道网络安全是越来越大的市场,尤其是银行业非常害怕被网络入侵,利用大数据的强有力的分析能力,可以把网络上不同的数据,从不同的仪器全部整合起来做强有力的分析,更加能够保护网络安全和降低风险。第四,可以看到企业有自己本身的生产线,怎么样利用大数据加强他们产品的质量和改进他们业务的效率,这部分多数会采用到生产线上传感器的数据作出整合性的分析。第五,我们经常看到他们所进入的应用是怎么样可以利用 “数据湖泊”(Data Lake)做一个缓冲期。
 
  大数据产生的重要影响
 
  其实大数据对我们的生活也有一定的影响。我们看到这两年内发现很多客户都有远程数据的要求。比如说汽车公司,很多汽车公司我们的客户,他们在做这方面的研究。另外是保险公司,这个例子就是保险公司,现在我们开的汽车,尤其是新型汽车,电脑上收集到的信息,比如刹车系统每秒钟都被记录下来,记录点通过网络传到数据中心。每辆车的行动每秒钟的记录,产生了大量的数据源。这些数据融合起来做怎样的分析呢?我们要了解驾驶员的驾驶特性。
 
  具体大数据应用案例,我们看到孕婴童行业全国排名第一的连锁企业-----乐友。乐友(中国)技术副总裁吕文龙认为:大数据无非是做好这三件事。首先采集到数据。零售企业有些数据是根深蒂固,自打零售企业开始时就有的,比如购物篮,对于客户的一些信息这方面我们都是有的。乐友有一个好处,它是会员制企业,从创立之日起就采用会员消费,乐友体系里面95%都是会员消费数据。随着互联网化、社交化的不断催生和发展,在乐友体系里面也催生了很多非结构化数据,比如对于网站的导航、媒体的分享、客户的反馈甚至于现在在店铺里透过wifi对于客户行为的追踪,这些都是有助于乐友提升客户服务,给客户更好的场景和更好的服务模式,这都提供了数据化的支持。
 
  数据采集在大数据里面是最基本的事情,真正要做好还要做好后面的两件事情。数据分析,现在乐友借助于IBM的Cognos做了BI平台分析工作,分析不能解决精准化营销,乐友通过SPSS,通过后台的建模,对于乐友的客户进行分析,才能真正把客户的数据理解,才能了解客户行为的变化。透过分析之后第三阶段是要落地。第三步是透过各种营销窗口做更好的营销。这里涉及到SPSS要对不同的客户群体进行标签化的设计,哪些是高消费、哪些是低消费、哪些是价格敏感、哪些是品牌偏好等等很多。针对不同的群体乐友会做精准的推送,包括对于他更关注的东西,不仅仅是商品促销,告诉你打折消息,乐友的服务群体是0-6岁,这个年龄段宝宝每天有很大的变化,在每个时间点都会有很多的要求,所以这里就有很多的营销需求。