一帘幽梦之萍聚满江红在过去的十五年中,各企业在商业基础设施上大量投入,因此具备了更好的数据收集能力。如今,几乎每个商业环节都可以收集数据,有些环节甚至装备了专供数据收集之用的设备,比如运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节。与此同时,外部数据,如市场趋势、业界新闻和竞争对手的一举一动等,可以通过互联网获得。在此背景下,人们自然更有兴趣从丰富的数据中获取有用的信息和知识——这恰好就是“数据科学”所特指的领域。
当大量的数据触手可及时,几乎各行各业的公司都关注通过数据开发来获得竞争优势。过去,公司可以聘用统计学家、建模工程师和分析师,组队对数据进行人工分析。然而,当今的数据量和复杂度已远远超出人工分析的能力范围。与此同时,随着计算机和互联网的普及以及其算力的增强,覆盖多种数据集的分析方法和挖掘算法不断被开发出来,使得数据分析的深度和广度达到了前所未有的程度。这些现象的集中出现, 使得数据科学原理和数据挖掘技术在商业领域的应用变得越来越广泛。
数据挖掘技术最常见的应用是在营销领域,尤其是在目标市场营销、线上广告和交叉销售的推荐系统中。一般客户关系管理系统使用数据挖掘技术来分析客户行为,以提高客户留存率和最大化客户价值。金融业使用数据挖掘技术来进行信用评分和量化交易,并在运营中用它检测欺诈行为和优化生产资源。亚马逊和沃尔玛等大型零售商在其经营的各个环节——从市场营销到供应链管理——都使用了数据挖掘技术。很多公司由于战略性地应用了数据科学,因而在市场中崭露头角,有的甚至变成了数据挖掘公司。
飓风Frances 正快速穿越加勒比海,并将直击佛罗里达洲东海岸地区。当地居民忙着前往海拔较高的地方避灾,而远在阿肯色州本顿维尔市的沃尔玛管理层却把这场灾害视为一个绝佳的机会,并计划借此展示他们最新的数据驱动法宝——预测技术。
飓风登陆前一周,沃尔玛首席信息官Linda M. Dillman 让员工们根据数周前飓风Charley 袭击的影响设计并开发出一套预测系统。依靠沃尔玛数据库中数万亿字节的客户消费记录数据,Linda 认为公司可以“化被动为主动,预测会发生什么事,而不是等着事情发生”。(Hays, 2004)
现在,思考一下,为什么数据驱动型预测在这种情况下能够派上用场。它也许能预测出飓风路线上的居民会需要更多的瓶装水。可这太显而易见了吧?即使不使用数据科学,我们也能知道。也许它能计算出飓风引起的瓶装水销售增量,进而保障飓风路线上的沃尔玛店有不多不少的库存。也许通过挖掘数据,可以发现在飓风路线上的沃尔玛商店里,某种DVD 脱销了。但是有可能在那一周内,该DVD 在全国所有的沃尔玛商店里都脱销了,而非仅限于那些飓风经过的沃尔玛店。数据驱动型预测或许多少有些作用,但是它的应用范围很可能比Linda M. Dillman 最初计划的要更加广泛。
更有价值的是,数据驱动型预测可以用来发现在飓风影响下产生的隐含模式。为了做到这一点,分析师可能需要分析沃尔玛在相似情况下(比如数周前飓风Charley 登陆期间)的海量数据,从中识别出当地不同寻常的产品需求。通过这样的一些模式,沃尔玛就能在飓风登陆之前预测到特殊的产品需求,并迅速补充相应库存。
实际上,这种情况真的发生了。《纽约时报》写道:“……专家在挖掘数据之后发现,除了那些常规的应急物资,某些特定商品的销量出人意料地增加了。‘我们之前从没想到,飓风到来前,草莓馅饼的销量会涨到平时的7 倍!’Dillman 在采访中透露,‘而且销售冠军居然是啤酒。’”
这类数据分析的效果如何?现在再来看一个更典型的商业案例,并审视该如何从数据视角思考商业问题。
假设你刚在美国最大的一家电信公司MegaTelCo 找到一份不错的分析师工作,然而公司目前正面临着严峻的无线业务用户流失问题。比如在美国东海岸中部,20% 的手机用户在合约到期后选择不再续约,而获得新用户却变得越来越艰难。由于手机市场已经饱和,因而曾经呈井喷式增长的无线业务如今也已势微。各家电信公司正在为了争夺对方的用户和留存自己的老用户斗得头破血流。“用户流失”是指用户未能留存在一个公司而转移至对手公司的情形。这种情形背后的代价是巨大的:用户转入的公司需要花大价钱才能吸引用户,而失去用户的公司也会损失收益。
分析并解决上述难题,就是你需要做的工作。因为吸引新用户比留存老用户的成本高得多,所以大部分预算应该用于留存老用户。市场部门已经制订了一份给留存用户的优惠方案,你的工作就是设计出一份精确、具体的计划,告诉数据部门如何依靠MegaTelCo 庞大的数据资源,找出哪些用户最应该得到上述优惠,从而有效地防止这些用户在合约到期后流失。
仔细想想:你会用到什么数据?又该怎么运用这些数据?尤其是在留存用户的奖励方案的预算已经确定的条件下,如何挑选一批特定用户,才能使公司的用户流失率达到最低?实际上,这个问题比看上去难得多。这个案例会在本书中被反复讨论,并且,随着你对数据科学的理解逐步加深,本书对这个问题的解答也会逐步深入。
现实中,用户留存是数据挖掘技术的主要应用方向之一,尤其是在电信业和金融业。这些行业通常也是使用数据挖掘技术最早和最广泛的,之后本书会讨论其原因。
数据科学涉及从数据的自动化分析结果中理解现象的原理、过程和技巧。在商业领域,人们最关注的是如何改进决策过程,这也是数据科学的终极目标。因此,本书将侧重于讲解这一点。
图1-1 把数据科学置于组织中其他过程之间,这些过程与数据相关且联系密切。该图将数据科学同其他在商业中日渐受到关注的数据处理过程区分开来。让我们从图中的最上部开始讨论。
数据驱动型决策(data-driven decision-making,DDD)指的是基于数据分析做出决策,而非仅凭直觉。比如,一位市场营销人员既可以凭多年的从业经验和一双火眼金睛选出最优的一支广告,也可以通过分析顾客对不同广告的反应数据来做决策,还可以把这两种方法结合起来。运用DDD 不需要在完全依赖它和彻底不用它之间做选择,不同的公司可以不同程度地运用它。
DDD 的优势毋庸置疑。经济学家Erik Brynjolfsson 及其在麻省理工学院和宾夕法尼亚大学沃顿商学院的同事进行了一项关于DDD 如何影响公司绩效的研究(Brynjolfsson, Hitt & Kim, 2011)。他们开发出了一种评分方法,用于评估整个公司的DDD 程度。统计研究表明,公司DDD 程度越高,其生产力就越高——即使在控制了其他众多可能的混淆因素后, 结论也是如此。而且DDD 的影响不容小觑:得分每增加一个标准差,公司的生产力就相应提高4%~6%。此外,DDD 不但与资产收益率、股本回报率、资产利用率和公司市值正相关,而且可能与它们存在因果关系。
我们主要关注两类决策:需要从数据中找到“新发现”的决策,以及将会重复做出的决策(特别是大规模重复的决策)。这样一来,即便数据分析仅仅略微地提升了决策的准确度, 也能使决策效果得到很大提升。前文提到的沃尔玛案例属于第一类决策:Linda M. Dillman 想发现新知识以帮助沃尔玛做好准备,应对即将来临的飓风Frances。
2012 年, 沃尔玛的竞争对手Target 百货也因为一次第一类决策而受到了媒体关注(Duhigg, 2012)。和大多数零售商一样,Target 关心顾客的消费习惯、消费动机和影响顾客消费的因素。顾客通常会产生消费惯性,这种惯性很难改变。但是,Target 的决策者们知道,当顾客们的家庭迎来新生儿时,他们的消费习惯就会发生显著变化。Target 的分析师说:“只要能让顾客从我们这里购买尿不湿,他们就会开始从这儿买各种其他商品。”大部分零售商深谙此道,于是他们相互竞争,以期把自己的母婴用品卖给新生儿父母。由于大部分新生儿记录是公开的,因此零售商会基于这些信息针对新生儿父母进行促销。
然而,Target 想在这场竞争中快人一步。他们想预测顾客是否怀孕了,如果预测成功,那么他们就可以赶在竞争对手之前给目标顾客发送母婴用品的促销信息。Target 运用数据科学技术分析了准妈妈们被确认怀孕之前的历史数据,并提取出了能够预测哪位顾客正在怀孕的信息,比如,准妈妈们往往会改变饮食习惯、穿衣风格和维生素摄入方案等。以上种种迹象被从历史数据中提取出来,整合成预测模型,然后应用于市场营销活动。随着内容的深入,本书会详细讨论预测模型。目前你只需要知道,预测模型可以将复杂的世界抽象化、简单化,只关注一系列与我们所关心的问题(比如哪些顾客会流失、哪些顾客会购买、哪些顾客怀孕了等)相关的因素。重要的是,在沃尔玛和Target 的案例中,数据分析不是为了验证某一假设。相反,分析师探索数据,是为了发现有用的信息。
前文的用户流失案例则属于第二类决策。MegaTelCo 有数亿用户,其中的每一个人都有流失的风险。每个月都有数千万的用户合约到期,因此他们当中的任何一位在近期流失的概率都会不断增加。如果能开发出更加精确的估计方法,可以估计出挽留一位特定用户所带来的收益,那么就可以将其应用到千万级的用户群上,从而收获巨额利润。该思路同样适用于其他大量应用数据科学和数据挖掘技术的领域,如直接营销、线上广告、信用评估、金融交易、服务台管理、欺诈检测、检索排名、产品推荐等。
图1-1 表明,数据科学既支撑着DDD,也与之部分重合。这指出了一个往往被忽略的事实,即企业越来越多地使用计算机系统进行自动化决策。不同行业使用自动化决策的程度不同。金融业和通信业是较早使用DDD 的领域,主要原因是它们的数据网络和大规模计算早已成熟,从而实现了大规模的数据聚合和数据建模,以及模型成果在决策中的应用。
20 世纪90 年代,自动化决策给银行业和消费信贷业带来了巨变,银行和电信公司应用大规模系统来管理以数据驱动的反欺诈决策。随着零售业的信息化程度越来越高,销售决策也越来越自动化。著名的案例有Harrah’s 赌场的积分项目,以及亚马逊和Netflix 的自动推荐系统。此时,广告业正经历着一场变革,这主要是因为消费者上网的时间越来越长,以及在线系统瞬间做出广告决策的能力得到了极大提升。
针对数据科学的这一商业应用,本书进行了深入解读,不仅详细介绍了数据挖掘的环节、常用分析技术和基本模型,还提供了数据科学解决方案的提案示例和评估指南。同时,为了便于读者理解,本书不仅分析了大量商业示例,在业务情景下阐释数据挖掘的基本概念和原理,还使用大量图表辅助解释数学细节。
|