【编者按】:在企业数字化转型潮流下,需要了解4个可以实现数字化转型所要掌握的客户全貌的最低要求:系统集成和数据交换、中央数据存储库、数据质量、齐心协力的数据科学团队和IT团队。
本文首发于企业网D1Net,作者Mary Shacklett ;由编辑,供行业人士参考。
为什么孤立的数据科学家很快就会成为过去式?
许多组织管理数据科学团队的方式就是让他们各自为政。这些团队专注于收集、清理和查询非结构化或“大”数据,但他们很少接触来自交易处理系统和公司业务流程的数据,甚至可能不是IT组的成员。由于数字化转型,这些“孤立的”数据科学家和分析实验室的分析师很快就会成为历史。
公司几乎要将一切东西数字化(如对大量纸质文档、照片、视频、CAD文档、社交媒体新闻和录音进行渲染),并创建大量未经开发的数据和非结构化数据。
随着组织花钱将所有数据转换成数字格式并以数字格式存储,他们也期望从投资中获得回报。最起码地,他们希望查询这些数据,以获取有助于业务的信息和洞察。
比如说,你正在查看重要客户(如甲客户)的购买模式。你可以查看CRM系统记录,了解销售人员与甲客户联系的次数以及结果。你的营销部门可能希望将甲客户购买的时间与公司在社交媒体上推广产品的时间进行比较。如果甲客户的购买模式发生了中断,你的销售部门和客服部门可能还希望察看客户最后一次打电话提及产品保修或服务问题时的情绪分析。
首席信息官和IT领导者从中获得的启发是显而易见的:如果你想全面了解你所要影响的特定客户的情况,那么来自最近的数字化录音和社交媒体内容等来源的非结构化数据必须与来自CRM等系统的交易数据一起使用。
系统集成和不同系统之间的数据共享的两大难题向来是首席信息官的职责。但由于数字化转型的全面进行,新的市场压力如今也随之产生,即更快、更准地实施这些集成。
以下是4个可以实现数字化转型所要掌握的客户全貌的最低要求。
系统集成以及相关的成本、时间和复杂性依然使公司犯难。由于数字化和混合IT架构的采用如今需要IT将不同的云平台与其自身的内部数据中心系统集成,因此这一过程变得越来越复杂。CAD系统等来自网络和其它数据源的非结构化数据并没有使用固定的记录格式,这增加了复杂性,因为现在有更多数据类型和数据源必须集成到一起。此外,并非所有传入的数字数据都易于访问或集成。例如,物联网设备提供商可以采用特殊的专用通信协议,这使交换数据流和文件变得很困难。
如果公司希望IT手动实施数据集成,那么它们永远都无法掌握因数字化而堆积起来的数据。虽然“手动”进行系统集成的做法尚未绝迹,但市场上还有一些工具可以与许多不同的系统接口配合使用,甚至可以与物联网中常见的通信协议建立通信。
下一步是找到可以满足你特定需求的工具。有一家医疗设备制造商的IT规划负责人向首席信息官表示:“我们需要一个可以与后端IT系统配合使用的内部工作流程系统。我们使用的第一个工具做了一部分集成工作,但我们仍要处理XML,而执行XML编程是一项艰巨的任务。我们决定研究更多工具,并找到一个不仅支持XML文件映射,而且支持电子邮件和HTML输出的工具。该工具还具备用户界面,这个界面可以让我们在各种应用程序中使用这个工具。该软件使我们能够将制造流程与质量保证团队相结合,同时提高性能。”
为了呈现客户的全貌,非结构化数字内容和记录数据的系统要么集中到数据仓库,要么集中到分析可以执行的大型数据存储库中。
例如,当批发商想更好地了解和服务客户时,确保来自不同系统的数据(包括基于云的CRM系统、ERP系统和传递非结构化数据的网络服务)可以协同工作并将数据提供给中央数据仓库,这是实现这一目标的关键。这家制造商的信息战略办公室的高级管理者说:“为了维护所有与业务步调一致的系统,我们必须将松散的系统所产生的功能变化对其它系统的影响降至最低。因此,我们决定取消点对点的系统结构,并使用EAI/ETL(企业应用程序集成/提取转换加载工具)将数据和系统集成到一个集中式结构中。”
IT管理者可以从这个方法里得到两个启发。其一,用软件驱动的自动化来提取、转换和传输从数字化中积累的非结构化数据。其二,重新审视IT架构和作业流,趁用户用于分析的数据还没有在数据仓库或中央数据存储库还没有找到落脚点,尽快找到传输来自不同位置的数据的最有效的方法。
低劣的数据质量会使公司付出了沉重代价。数据准确性解决方案提供商Naveego的首席执行官Katie Horvath援引了IBM最近对财富一千强公司的一项调查。该调查得出的结论是,修复数据的费用为10美元/条,但组织会因为没有做出决策或做出了错误的决策而付出高达100美元/条的代价。Horvath说:“组织并不明白数据健康问题的严重性。”
有很多组织在不清理数据的情况下摄取海量数据,然后它们只能从垃圾堆里得到垃圾(即GIGO——输入的是垃圾,输出的也是垃圾)。新型的非结构化数据的扩散更是火上浇油。只要制定和数据质量有关的计划和方法就可以避免这样的尴尬。
人们应该处理或重新考虑数据保留的问题,不仅要针对交易数据,还要针对来自互联网、物联网和其它数据源的海量非结构化数据。哪些数据要保留(以及哪些数据由于从未使用或很少使用而必须丢弃或转用冷存储,这必须用公司的信息政策来做出相应的处理。
剩下的数据一馈送进来就必须立即进行清理和纠错。可用于发现和修复损坏、不完整或不一致的数据的工具通常包含在市售的ETL(提取/转换/加载)软件中。
Horvath说:“数据清理是很多公司都关注的重点。在石油和天然气行业,我们发现,有很多公司在油气田中清理数据,将数据标准化,使其可以在中央数据库中使用。它们想维持数据质量并获取在整个组织中保持高度一致的宝贵数据,并且不必因为基于劣质数据所做错误决策而付出代价。
Gartner在2017年底的调查报告指出,“半数首席数据官现在直接向首席执行官、首席运营官、首席财务官、总裁/所有人或董事会/股东等最高业务领导者汇报。到2021年,人们会认为首席数据官这一职能非常重要,可与75%的大型企业的IT、业务运营、人力资源和财务平起平坐。
随着公司将数据进行数字化的工作渐渐取得进展,这是一个好消息。
然而,如果数据科学和IT各自为政,这就不是什么好消息了——因为大多数非结构化的“大数据”需要通过与管理数据相同的思路进行处理。因此,如果公司不能对来自各种系统和来源的交易数据和非交易数据进行分析,它们可能无法从数据中得到洞察。为此,企业IT(负责交易数据)和数据科学(负责非结构化的数字化数据)必须协作。
数据科学平台提供商Domino Data Lab的首席执行官兼联合创始人Nick Elprin在一篇关于KDnuggets的文章中对这种合作需求作了解释。
Elprin:“有一家大型保险公司让数十名科学家用很不配合的方式处理同样的业务问题,结果投资亏本并错失机会。拥有一群能创建模型的人,拥有一个善于利用资源(如利用集体智慧、技能和以往的劳动成果,从而以更快的价值生成时间共同创建越来越好的模型)的活跃团队,这者是有区别的。
对首席信息官和IT决策者来说,数据科学、IT团队和最终用户只有紧密合作才能充分利用所有数据。人工智能公司fast.ai的创始人Rachel Thomas写道:“如果将全部数据科学家安排在一个独立的团队中,这几乎不可能使他们的工作与公司的部分进行适当的整合。垂直的产品团队必须知道什么是可能的,以及如何更好地利用数据科学。”