白癜风趁早治疗 http://disease.39.net/bjzkbdfyy/171003/5739869.html“哪些业务需求可以数字化?”
“数据科学只是单纯的技术问题?”
“数据科学家的最大的挑战是什么?”
第四次工业革命来临,许多企业已经意识到了要利用数据科学能力推动商业模式的创新,尝试将经营中产生的数据转化为适配业务需求的决策模型,由原本依靠经验的“人治”变为“数治”。
数据科学的应用领域同数据科学领域本身一样多样化,但成功突围的却是少数。“数据智能项目很难达到目标,90%的立项,最后只能草草收场。”
越是艰难,越是能让这些项目形成企业能力上的核心资产。任何企业都会产生数据,但数据本身不是万灵丹,它只是加速器,方向盘仍旧掌握在人的手中。
截至年,和鲸已经帮助了七个行业的Top3客户完成了数据智能的价值落地。将协同能力的内核落实到数据科学开发的全流程中,和鲸的经验或许能帮助大家揭开数据科学的图景。我们邀请了和鲸科技创始人兼CEO范向伟先生,对大家常提出的问题进行了统一回答。
和鲸科技创始人范向伟
01数据智能项目的两个挑战
问:过去5、6年,大数据经历了一个高峰,也经历了一个低谷。高峰期在16-17年,市面上最贵的工程师都投身于人工智能,而低谷也就是过去两年,人工智能主流的公司在上市过程中遇到了很大的挑战。一个现象就是,大部分人工智能项目都赚不到钱,对此您怎么看?
范向伟:现象确实存在。无论是在乙方还是在甲方内部,目前人工智能相关项目评估下来的ROI都很低。数据智能项目普遍达不到立项的目标,这个比例在90%,相信接触过相关项目的小伙伴都会有一些比较感同身受的经历。
和鲸作为数据科学平台,其实也做过各方面调研,我们归纳下来认为,大部分数据智能项目都面临着两个挑战,是导致项目失败的常见原因。
一个在供给侧,一个在需求侧。
供给侧,为企业数据能力负责的数据工程师或者算法科学家,都会去构建一个基础设施的金字塔结构,也就是保证底层的技术平台尽可能稳固、标准、可拓展,从而可以处理更多数据,产生更高计算效率。然后再一层层往上叠,将这个能力转化为更低的服务成本,去支撑更多需求场景。这是对数据工程师的挑战。
而需求侧,目前几乎所有可以用KPI描述业务的部门,都会给数据部门提需求,需求场景是指数级上升的。但个需求场景中,合理的比例,可能只有10%,剩下的90%,是因为他缺乏业务的思路,单纯想看到更多数据报表,这就会导致需求描述不清楚。所以这是对业务人员的挑战。
这样的结构,导致数据智能项目,往往很难让做数据的人和用数据的人看到进展,因为它是一个非线性爬坡的过程,你不知道是在哪里被卡住了。需求本身不确定,用什么样的数据也不确定,往往还不知道自己哪里做错了,项目就被叫停了。
供给与需求的结构性矛盾
这两个挑战带来的结果是什么?
一个是更高的工程成本,或者说指数级的工程成本。要搭建起金字塔结构,工程师将面临着大量跟机器学习、数据分析无关的基础工作、协调工作要处理,需要大量时间投入。与此同时,系统搭建起来后跑模型,模型结果不好的原因也有很多,而且相互影响、相互嵌套,导致排查、调试的时间成本是指数级上升的。
另一个结果,可以概括为更不确定的业务需求。既然业务链条中的各种问题都会找到数据部门,那数据部门到底怎么设计数据平台的架构、怎么积累算法模型的能力、怎么安排时间,就类似于是个风险投资问题了。数据智能项目的ROI符合幂律分布(PowerLaw)——极少数项目产生的价值非常大,而大部分项目几乎不产生价值。它就要求数据科学家一定要非常慎重地去做需求分析,如果业务方无法清晰地陈述自己的需求,就很可能是伪需求。
所以这两个挑战直接导致企业中供给和需求存在着结构性的错配,数据部门跟业务部门常常相互不满意。业务部门想要提需求,但很难把数据智能的需求说清楚,数据权限都拿不到,或者找不到合适的数据。又因为需求不清楚,成功率不高,企业不愿意投入资源,拿不到资源,也很难完成模型的打磨。数据智能的落地,就陷入了需求不清晰、供给低质量的恶性循环。
02从数据到业务应用的反馈闭环
问:既然供给侧和需求侧存在着错配,那让它重新形成回路是不是就能解决这些问题了。放到实际工作场景中,供需双方该如何去做呢?可以通过彼此多“沟通”解决吗?
范向伟:如何去做,基本原则很简单,就是按照敏捷开发的原则,把大回路拆成小回路,最重要的是,要跟业务部门掰扯清楚,业务到底想回答什么问题,要搞清楚这个事情到底有没有价值。
这是一门很大的学问,我们观察下来,大部分数据工程师都不喜欢干这个事情,不喜欢进行需求的争论和探究。但这件事又很重要,我们自己认为,一个项目70%的成败与否都取决于这个需求是不是一个真实的需求、重要的需求。
因为和工程相关的工作,在过去几年已经越来越成熟了,包括现在也出现了大模型,自动化调参、分布式训练的方案,这里面的平均水准越来越高。更大的问题还是在于,大部分业务需求的质量还是很低,很少有业务人才能够把自己的数据需求、算法需求给理清楚。
一个是需求的质量,一个是数据的质量,这两块现在在AI的实践中问题很大。不管多优秀的算法科学家,在这两段都容易掉到坑里面去。我们能建议的,就是在实战中,数据工程师可以更多地去