京东零售首席科学家胡鲁辉人工智能与大数据的融合之道丨ccfgair2019

雷锋网 ai 掘金志按:7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(ccf-gair 2019)于深圳正式召开。峰会由中国计算机学会(ccf)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办。

在大会第三天的〖智能商业专场〗,阿里巴巴集团副总裁、ceo助理肖利华,京东零售首席科学家兼技术副总裁胡鲁辉,美国德州农工大学数据挖掘实验室主任胡侠,苏宁零售技术研究院院长王俊杰,tcl研究院 (香港)研究所总经理俞大海,扩博智能cto柯严先后登台发表精彩演讲,分享了各自对智能商业的理解与实践。

其中,京东零售首席科学家兼技术副总裁胡鲁辉以《数据智能驱动数字零售》为主题,从理论和实践角度出发,阐述自己对数字零售的深刻理解。

胡鲁辉老师指出,大数据和人工智能是两个密不可分的概念,其中大数据的主要价值在诊断性分析,而机器学习解决的是对未来的预测,并根据对未来的预测形成指导性建议,形成业务闭环。

然而在业务实践中,对大数据的利用依然存在许多问题,比如数据标准不统一、质量不高,对数据的利用不充分等。

胡鲁辉老师表示,很多企业大量地采集数据,却没有真正地将它用起来,这样的数据非但没有价值,反而会给企业带来非常昂贵的数据存储成本,而且每年新数据还将以指数级增长。另外,数据的时效性也非常重要,数据如果存着不用就会迅速贬值。因为行业在飞速发展,用十年前的数据来指导今天的业务显然是不靠谱的。

为了将不同前端业务的数据池打通,提高对数据利用的实时性,以支持前端业务的快速创新和迭代,京东全力打造了一个以数据资产为核心的数据中台。胡鲁辉老师认为,中台不仅仅是一个技术概念,更是一种战略思维。企业在发展的过程中有非常多烟囱式的组织需要打通,同时由于移动互联网的普及和消费者日益多元化,企业的前端业务面临非常多的不确定性,需要一个能量池来支撑小而快的前端应用,这正是京东建设中台的初衷。

以下是胡鲁辉老师的全部演讲内容,雷锋网做了不改变原意的整理与编辑:

大家早上好!很高兴今年又来到这里演讲,我今天的内容主要分三个部分:首先谈谈人工智能与大数据的融合;第二、结合京东的实际情况,谈如何在零售行业做数字化转型;第三、我会介绍一些京东的实际案例,阐述如何用数据智能来驱动业务增长。

我们先回顾一下科技的发展。从下面这张图我们可以看到,差不多每十年世界就会发生一次大的技术变革。1985年微软发布windows,开启了pc时代;1995年雅虎和亚马逊(1994)出现,真正开启了互联网时代;2005年前后智能手机的出现,标志着移动互联网的到来。又十年过去,2015年前后人工智能开始火起来。

从中我们可以总结出两条规律:一是差不多每十年就会发生一次大的技术变革;二是每一次技术变革带来影响都远胜从前。

pc时代、互联网时代或移动互联网时代,本质上都是在解决同一个问题――数字化。数字化程度的高低将直接影响我们每一个人的生活。对于企业同样如此,1995年前后国内企业还很少用ibm小型机,基本没有高性能pc;2000年左右国内开始陆续引进erp系统;直到近几年还有很多企业在用sap erp系统;这样的数字化程度是不够的。我认为,国内企业的数字化才刚刚开始,建设中台将是企业未来发展的核心命题。

再回顾一下大数据的发展。十几年前我在亚马逊做大数据,一做就是十几年。最早我们用的hadoop,只能处理比较简单的问题,不过现在依然有很多企业在用。差不多十年前,出现了flink 、spark等,在一些厂商的推动下,flink在国内比较火,但是在国际上,spark仍占上峰。其实在国际上,很多厂商已经进入了云化的状态,比如亚马逊的emr和微软的azure hd insight,甚至许多cloud-native大数据服务,比如aws kinesis和azure data factory,它们对资源的高度利用、系统性能、服务的可靠性和可扩展性提出了更高的sla。

未来大数据将如何发展呢?我认为必须以数据为核心,结合机器学习和云原生,只有这样才能真正把数据的价值充分发挥出来。

大数据主要解决的是计算问题,人工智能解决的是预测问题。但是两者的对象都是数据,而且数据也是它们最重要的纽带。

提到大数据,我们首先会想到bi报表,它解决的主要是描述性分析或诊断性分析的问题。什么是描述性分析?比如通过报表看我的顾客是男性多还是女性多,老人多还是小孩多。什么又是诊断性分析呢?即分析某个人为什么到我这里消费。这些都属于大数据的范畴,用过去或现在的数据做一些描述或诊断性分析。

机器学习和它有哪些区别呢?机器学习主要是预测,利用现在和过去的数据来产生新的数据,对未来的不确定性做一种推测。这里不谈广义的人工智能,从数据洞察的角度出发,它可以细分为两个维度:一是预测性分析;二是指导性分析,即根据对未来的预测提出指导性的意见,比如,如何提高用户转化率?如何提升商品周转率?只有做到了指导性分析才能形成业务闭环,真正最大限度发挥数据的价值。

那么,如何在零售行业里用数据智能驱动数字化呢?我认为主要有6个基本方面:

一是cloud-native。任何一个产业的快速发展,都少不了一种关键性技术或核心商业模式。云计算不仅仅是一项技术,也是一种新的商业模式或交付方式,它可以快速把另一种技术或解决方案呈现给用户。cloud-native全面解释了如何云化和云设计核心理念。

二是云数据湖。这个概念大家可能比较熟悉,但国内真正做好的并不多,国际上比较领先的有微软和亚马逊。云数据湖的核心在于能够低成本的将所有数据融合起来,解决数据的异构性问题,消除数据孤岛,一站式地提供数据分析能力。

三是智能工程。这一点对人工智能应用非常关键。这几年我们看到许多优秀论文和技术创新,但真正能推动行业发展,发挥商业价值,需要ai工程化。我们需要思考如何将机器学习方法一步步分解,从数据采集到预处理,从特征工程到训练与验证,让整个流程规范化;选择svm、dnn或gan等,让算法可解释,让模型真正有效。只有工程化,人工智能才能可复制、可发展,否则它只能停留在某个单点或某些垂直领域,很难做到普遍化。

四是数字思维。从战略的角度去思考数据治理和数据应用,理解事物背后的逻辑,全面提升数字化程度。

五是精细运营。精细化运营是数字化的一种有效体现,通过降本增效,把效率提升上去是企业发展到一定程度后的关键环节,也是企业长期发展的核心要素。

六是业务价值。这是数字化的核心关键,技术创新和业务价值密不可分。

再看看企业在应用大数据时普遍存在哪些问题。

一是烟囱式。很多企业经历了10年甚至30年的数字化进程,企业的各个部门都建立了一套自己的数据体系,它们之间缺乏融合与交流。存在标准不统一、口径不统一和数据质量不高的问题,对大数据的应用造成了巨大挑战。

二是死数据。很多企业有非常多的数据,每年需要在计算和存储上花费高昂的费用,甚至比人力成本还要贵。有些企业的想法是,数据越多越好,不管好坏先存起来,万一哪天有用呢?后来发现数据太多了,存在家里太贵了。数据存着不用是没有价值的,只有把它用起来,成了活数据,才能发挥价值。

其中有一个非常关键的要素,就是数据的时效性。数据如果存着不用就会迅速贬值,因为行业在飞速发展,用十年前的数据来指导今天的业务显然是不靠谱的。现在我们的数据还在迅速以指数级增长,当务之急是把它们用起来。

三是未闭环。bi报表等可以呈现许多分析结果,但都存在一个问题,就是没有形成闭环,无法真正对业务产生影响。这是值得我们去思考的问题。数据闭环从广义上有两种:业务应用闭环和数据洞察闭环,可以认为分别从数据流和数据深度两个角度来看。

回过头来说零售行业。大家一定好奇,我为什么会从微软这种高科技公司进入零售科技企业,因为我觉得零售是技术最能产生影响的行业。

中国零售行业今年的销售额大约在40万亿人民币,京东加上其他几家大型电商企业也不过才几万亿,这是个规模巨大的行业。在这个行业里,数据有非常多的应用场景,包括客户、商品、供应链、财务等等。每一个环节数据都可以发挥出巨大的价值。

下面介绍一下京东在数据智能方面的探索与成果。

首先是京东智能大数据平台,刚才讲到,所有商业模式变革和业务发展都离不开技术的推动,京东智能大数据平台就是数据洞察和数据驱动的核心技术,它支撑海量数据采集,云数据湖、流数据处理、离线数据计算、数据算法预测等等,支持各方面业务的创新和发展,包括零售、供应链、物流等。

说到这里必须引出另一个概念――中台。中台概念现在在国内非常火,我认为它不仅仅是一个技术概念,更是一种战略思维。

我们看到企业里有非常多烟囱式的组织需要打通,同时由于移动互联网的普及和消费者日益多元化,企业的前端业务面临非常多的不确定性,需要一个能量池来支撑小而快的前端应用,这正是许多建设中台的初衷。

中台有很多的说法,包括业务中台、数据中台、技术中台、移动中台等等,但我认为数据和技术的融合是至关重要。中台囊括底层的存储、计算,中间的数据模型和上层的交易系统,拥有一个比较全面的共享平台能力,将有效发挥数据资产的价值。

数据资产的概念我们讲了很多年,但对社会的影响远不及我们的预期,原因就在于我们没有真正把数据盘活。京东数据操作系统(data os)通过一套完整的方法和体系把数据运营和利用起来,让它成为业务资产和企业资产。数据资产不同于石油,囤在家里不用是会迅速贬值的。所以我们必须找到合适的工具和场景,通过合适的方法,把数据价值发挥出来。

下面结合一些具体的应用场景,谈谈我们如何用数据智能驱动数字化。

京东生态有非常多的应用场景,都可以和价值化紧密结合。我们的理念是以数据资产为核心,以技术为驱动,把数据的价值应用到实际业务中,提升零售数字化程度,助力业务增长。

比如说千人千面,如何理解客户,构建精准的用户画像,把客户和商品有效地链接起来。千人千面和我们说的个性化定制和c2m有所不同,完全个性化会带来成本的急剧上升,这时候它的整体价值也会大打折扣。所以在数字化建设方面并不是盲目追新,而是要求平衡成本和收益,根据在不同的技术阶段完成不一样的数字化建设。

还有线上线下数据融合。前两年京东提出了无界零售的概念,我们一直将线上线下数据进行融合。虽然线上的数字化程度已经非常高了,但在线下却是另一幅光景。举一个例子,大家都知道京东的物流和供应链做的非常好,但我们也面临一个挑战,就是如何精准地管理进销存,这是很多企业都面临的问题,也是零售精细化运营的关键。星巴克和costco这种看似简单的企业为什么能够成功,就是因为他们建立了高效的数字化供应链,能把整体成本降下来,把品质提上去,从而形成好品牌。

最后简单归纳一下我对数字化的思考。首先是技术,我认为技术是推动商业数字化的核心,包括大数据、云计算、机器学习、物联网、边缘计算等前沿技术。值得注意的是,我们对于技术的应用不能是单点的,而是要把这些技术结合到一起,融合成一个技术有效体。

其次是企业在建设数字化的过程中要有中台思维,要考虑客户的应用场景是什么。我们之前谈论的数字化更多是企业数字化,是to b的思维,但我觉得只有大众的数字化思维提升后,才能激发出更大的市场价值。我们都知道移动互联网的影响比互联网更大,为什么呢?因为参与者更多了,触点更全了,频率更高了,不仅仅是企业,还有大众。所以我认为数字化应该是to b和to c兼具的。

总而言之,数字化必须融合数据智能,以技术为核心,以价值为导向。

我今天的分享就到这里,谢谢大家!

虚拟动作捕捉

动捕软件

动捕软件