近日,爱分析在京举办了2018·中国大数据高峰论坛。针对数据服务这一大数据行业重要细分领域,爱分析邀请了数据服务领域标杆公司TalkingData的创始人崔晓波进行主题演讲。作为支持媒体出席了活动。
会上,崔晓波就中美大数据市场差异与联系、数据智能应用的演进路线、数据智能的商业化落地等方面,展开深度讲解。
现将TalkingData创始人崔晓波的主题演讲实录分享。
演讲实录:
崔晓波:今天我分享的主题是“数据智能应用和商业模式发展”。
数据智能是在过去两年里面才提的一个词,我坚信在未来的5到10年里面是非常关键的词,因为数据和智能本身就是一体两面,智能离不开数据,数据也离不开智能,如何运用好数据去创造智能,这是企业在未来不断探索的方向。
我从几个方面讲一下我们过去这几年,在大数据,特别是数据服务这个领域里面的探索和思考,以及我们看到的整个市场的状态。
一、中美市场的差异与联系
中美大数据的异同和联系,用一句话概括就是,数据是连接中美智能应用的桥梁。
2014年我们在硅谷设立了研发中心,对美国的投资也比较多,在这个过程中,我们发现很多有意思的事情。
我先举两个例子,前年和去年我们和Kaggle——世界上最大的数据科学社区——做过两个活动,第一个活动是我们提供中国脱敏的移动互联网数据,希望全球的科学家帮我们预测用户的人口统计学信息,包括性别、年龄。大概有2600个团队参加,为我们提供了约两万个模型。这里很有意思,我们发现提交的模型中,有用我们的数据集预测中国经济,比如用手机价位信息计算中国GDP情况和经济分布情况,还有用数据来计算中国人的行为变化。
通过这样一个实验,可以知道数据的用法非常丰富,但既依赖于场景,又依赖于领域知识。所以中国人真正缺乏的是各个领域如金融、地产、零售、互联网、工业里的知识,我觉得这里还需要很长的时间去探索。
最近我们又发布了一个活动,这个活动更有意思,我们提供了在反欺诈里面碰到的一些问题和数据集,但很多在国外的数据科学家,他们没有碰到过这么大量级的数据集相关问题。所以中国应用领域已经走到了非常前沿的地方,但是我们缺乏技术和基础设施。
过去几年里面大家提数据交易,政府也在筹建数据交易市场,但没有解决根本的问题。
通过去年的网安法,还有我们最近和监管部门的交流可以确定,数据作为原材料是不能被交易的。
另外你会发现真正拥有数据的企业不愿意把数据放出来,它的顾虑不是为了要垄断,而是因为还有很多技术问题没有被解决。什么样的技术问题没有被解决?就是数据如何安全的被共享,数据如何合规的问题。
数据安全完全不同于我们以前说的网络安全,因为以前我们对数据安全的理解只到这个层次,企业整个IT系统大概是由云、IDC以及内部网络构成。所以在网络外面有一层边界,企业要守住这个边界,不能让黑客进来。如果这一层边界都有问题,或者是企业有内鬼,怎么解决数据安全问题?而 Facebook数据安全投入是非常大的,也出现了非常新的数据,比如说我们看到一种技术,在网关上的设备可以看到企业所有的数据流动,这些信息是如何从一个点到另外一个点,是如何流动被使用的。而在中国完全没有积累,技术差距5到10年。
欧盟有史以来最严苛的个人隐私保护法GDPR在下个月就会正式实行,如果侵犯了欧盟成员国的个人隐私,罚金是企业全年收入的4%,或者2000万欧元,取高值。所以没有企业敢对这件事情不重视,并且企业会投入很多精力做这个事情。
我们也在解决这些问题,我们推了一个体系,就是在数据不流动的情况下也可以共享。因为以前解决不了这样的问题,A和B合作,数据相互不愿提供,很难达成合作。但如果找到一个方法,数据都不用出去,就能解决这个问题。
业务的问题要回归技术,最终还是用技术本身去解决问题,这是中国企业所欠缺的。所以我觉得中国下一步数据服务就会被限制在技术上。
所以这是我们从美国能看到的。
二、我们看世界的角度将从实体物质化转化为数字虚拟化
现在有很多做应用的公司,像Stitch Fix是服装行业公司,你会发现它的公司里面一半多是数据科学家,不是传统的运营人员,他们每天就是用数据帮你选衣服,帮你优化供应链。
这是真正的一个大趋势。
这一趋势可以用一句话概括,我们看世界的角度将从实体物质化转化为数字虚拟化。
Google在2014年、2015年就把大部分的资源投入到机器学习,Google的人告诉我未来一定是机器学习深度学习的时代,而在2016年就出现了阿尔法狗。
我一直在深思为什么出现机器比人强的情况。大家研究技术都会知道阿尔法狗的核心是算法模型,包括搜索、价值网络和策略网络,但是它的策略网络的平均值只有0.5几,真正做决策的时候不如人,他能下过人就是因为它的蒙特卡洛树搜索太厉害了,就是通过在虚拟世界里面无尽的算力,达到机器学习的过程。
后来我去MIT见无人车领域的顶尖专家,问他无人驾驶L5技术到底需要几年能成熟,他笃定的说十年左右,这是我听到的最乐观的估计。
阿尔法狗是把物理世界的问题数字虚拟化,之后就可以用不断增长的计算机算法去加速它的学习过程,达到能够破局的效果。
但是在绝大部分领域做不到这一点,因为如果一个机器或者一个算法不能帮人做决定,那么对这个行业,第一没有颠覆,第二没有价值。
自动驾驶技术达到L5肯定就颠覆了原有行业,就是完全的自动驾驶,但是在L3以下就是辅助驾驶。在医疗领域,如果机器给出的结果真的能作为诊断结果,那也是颠覆,但是如果这个结果只能辅助人类,价值就有限。
要达到这个阶段,所需要的时间远比我们想像的要长。
所以现在大家对人工智能过于乐观,我相信未来几年会有回落,不过技术本身是有价值的。
三、大数据通过四个步骤改造一个行业
我们再看一下行业,TalkingData成立了七年时间,服务了很多行业,我们可能是大数据公司里面涉及行业最多的。从我们的角度来看,不管是哪一个行业,基本上都是这四个步骤。
1, 业务数据化
2, 应用场景化
3, 流程自动化
4, 决策智能化
首先是业务数据化,我们进到很多传统行业的时候,发现它本身的数据流程没有数据化,就是这个业务做得好还是不好,没有一套数据体系、指标体系、方法论体系来管理。而业务数据化就是各种大数据技术,数仓、BI等这些技术搅合在一起的过程。
我们看到大量的企业还是用BI,用所谓的Smart BI这些技术去把企业整个的业务指标管理起来。但是从数据角度来看它能做的是什么?是Alert,它可以报警和监控,它可以告诉你哪一个业务出问题了给你报警,更多的是这样。
接下来到第二步,我们叫应用场景化,这里特指数据应用的场景化,就是在完成数据化之后,考虑用什么方法提升这些业务。用大数据的方法,用建模的方法,用机器学习的方法去做应用场景化,比如在营销场景里面,可以提出建议,是否在这样的一个营销活动里面增加预算,是否应该投放这样的人群。
坦率的说这个过程还是基于人工,基于很多的分析师对业务的了解或者是他的经验,中国90%以上的企业还处于这样的阶段包括互联网企业,而能否把自己的业务数据化,数据应用场景化,这是企业需要去面对的问题。
但是从去年下半年到今年,我们发现有一些头部企业走到第三步,流程自动化,比如说我们现在服务的一些在零售业的头部企业,有一家做餐饮的企业,他有一个50人的数据团队,这是绝无仅有的,比很多做科技的公司投入都大。这50人的数据科学家,会做很多的数据预测,预测每天卖多少汉堡,卖多少咖啡。大家觉得这个事好像挺不靠谱的,但是实际上经过我们的帮助,它的准确率已经在95%以上,真的能预测出一个门店明天卖多少汉堡。这个过程需要用大量的数据,包括天气、路况、客流、历史交易等等。这个结果对它直接的影响是可以优化第二天排班、优化供应链情况,计算下来一年节省上亿元费用,相当于一个逻辑算法就上亿。这个事情不是美国发生的,是在中国。
第四个就是决策智能化,我们也为企业选址提供