大数据项目失败的4个原因和成功的4个方法
几乎所有的大数据项目都以失败告终,尽管有各种成熟的技术。以下是如何让大数据工作真正成功的方法:
大数据项目通常在规模和范围上都很大,而且非常雄心勃勃,但往往都是彻底的失败。2016年,Gartner估计有60%的大数据项目失败。一年后,Gartner分析师Nick Heudecker说,他的公司是“过于保守的把失败率估计为60%,事实上接近85%。今天,他说一切都没有改变。
Gartner并不是唯一这样认为的公司。长期担任微软高管(直到最近)的Snowflake Computing首席执行官鲍勃•穆格里亚(Bob Muglia)告诉分析网站Datanami:“我找不到一个满意的Hadoop客户。就是这么简单。实际上成功驯服Hadoop的客户数量可能少于20个,甚至可能少于10个。考虑到该产品技术在市场上存在的时间,以及一般资源的投入,这简直是疯了。当然,Hadoop是引发大数据热的引擎。
其他熟悉大数据的人士也表示,这个问题仍然现实、严重,但不完全是技术问题。事实上,与真正的内因相比,技术是导致失败的次要原因。以下是大数据项目失败的四个关键原因,以及你成功的四个关键途径。
大数据问题1:整合性差
Heudecker说,大数据失败背后有一个主要的技术问题,那就是整合来自多个来源的孤立数据,以获得公司所需的见解,但是与孤立的旧系统建立连接本就不容易,集成成本是软件成本的5到10倍。“最大的问题是简单的集成将如何将多个数据源链接在一起以获得某种结果?”很多人走数据湖的路线,认为如果我把一切都联系起来,奇迹就会发生。事实并非如此,”他说。
孤立的数据是问题的一部分。客户告诉他,他们把数据从记录系统中提取出来,放到一个类似数据湖的通用环境中,却搞不清楚这些值的含义。“当你把数据放入数据湖,你怎么知道数字3是什么意思?””Heudecker问道。
如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群522189307,私信管理员即可免费领取开发工具以及入门学习资料
普华永道(PwC)高级研究员艾伦•莫里森(Alan Morrison)表示,由于他们是在silo中工作,或者创建只是数据沼泽的数据湖,因此他们只能触及到自己所能完成的工作的皮毛。“他们不理解数据中的所有关系,这些关系需要被挖掘或推断出来,并使之显式,这样机器才能充分解释这些数据。”他们需要创建一个知识图层,以便机器能够解释所有映射到底层的实例数据。否则,你只能得到一个数据湖,一个数据沼泽,”他说。
大数据问题之2:目标不明
你可能会认为大多数从事大数据项目的人心里都有一个目标,但令人惊讶的是,很多人没有。他们只是在事后才启动这个项目。
“你必须很好地审视问题。人们认为他们可以将结构化和非结构化数据连接起来,从而获得所需的洞察力。你必须提前很好地定义这个问题。你想要获得什么样的洞察力?数据集成软件公司Talend的产品营销经理雷·克里斯托弗(Ray Christopher)说。
企业应用咨询公司(Enterprise Application Consulting)的首席分析师乔舒亚·格林鲍姆(Joshua Greenbaum)表示,困扰大数据和数据仓库项目的部分原因是,主要的指导标准通常是积累大量数据,而不是解决离散的业务问题。
“如果你把大量的数据放在一起,你会得到一个数据转储。我称之为卫生填埋场。垃圾场不是一个寻找解决方案的好地方。“我总是告诉客户,先确定需要解决哪些离散业务问题,然后再着手解决,然后查看可用数据的质量,一旦确定了业务问题,就解决数据问题。”
“为什么大多数大数据项目会失败?”首先,大多数大数据项目的领导者缺乏远见,”普华永道的莫里森表示。“企业对大数据感到困惑。大多数只考虑数字数据或黑盒NLP和识别引擎,它们做简单的文本挖掘和其他类型的模式识别。”
大数据问题3:技能差距
很多时候,公司认为他们为数据仓库建立的内部技能将转化为大数据,但事实显然并非如此。首先,数据仓库和大数据以完全相反的方式处理数据:数据仓库采用写模式,这意味着数据在进入数据仓库之前就被清理、处理、结构化和组织。
在大数据中,数据是累积的,读取时应用模式,读取时处理数据。因此,如果数据处理从一种方法倒退到另一种方法,您可以打赌技能和工具也是如此。这只是一个例子。
“技能永远是一个挑战。如果我们谈论的是30年后的大数据,仍然会面临挑战,”Heudecker说。“很多人把他们的帽子挂在Hadoop上。我的客户在寻找Hadoop资源时遇到了挑战。Spark更好一些,因为栈更小,更容易训练。Hadoop是几十个软件组件。”
大数据问题4:技术代沟
大数据项目经常从旧的数据筒仓中提取数据,并试图将它们与新的数据源合并,比如传感器、网络流量或社交媒体。这并不完全是企业的错,他们在大数据分析出现之前就收集了这些数据,但这仍然是一个问题。
格林鲍姆说:“几乎最大的技能缺失是如何将这两个利益相关者融合起来,让他们共同努力解决复杂的问题。”“数据竖井可能成为大数据项目的障碍,因为没有任何标准。因此,当他们开始考虑规划时,他们发现这些系统没有以任何方式实现,这些数据没有得到重用。”
“对于不同的架构,你需要做不同的处理,”Talend的Christopher说。“技术技能和架构的差异是你不能将现有的工具用于本地数据仓库并将其与大数据项目集成的一个常见原因——因为这些技术处理新数据的成本太高了。”所以你需要的是‘火星家庭’,你需要学习新的语言。”
大数据解决方案1:提前计划
这是一个老生常谈的话题,但在这里是适用的:如果你计划失败了,那就计划失败吧。高德纳的Heudecker说:“成功的公司是那些有结果的公司。”选择一些小的、可实现的、新的事情。不要接受遗留用例,因为您会受到限制。”
“他们需要首先考虑数据,并以机器可读的方式为他们的组织建模,以便数据为组织服务,”普华永道的莫里森说。
大数据解决方案2:协同工作
通常情况下,利益相关者被排除在大数据项目之外,而正是这些人会利用这些结果。Heudecker说,如果所有的利益相关者合作,他们可以克服许多障碍。他表示:“如果有技能的人一起工作,并与业务部门合作,提供可操作的结果,那将有所帮助。”
Heudecker指出,在大数据领域取得成功的公司在必要的技能上投入了大量资金。他在数据驱动型公司(如金融服务公司、优步(Uber)、Lyft和Netflix)身上看到了最明显的这一点。
“让它成为一项团队运动,帮助管理和收集数据,净化它。这样做也可以提高数据的完整性。
大数据解决方案3:聚焦
人们似乎有这样一种心态,即大数据项目需要规模庞大且雄心勃勃。就像你第一次学习的东西一样,成功最好的方法是从小事开始,然后逐渐扩大自己的野心和范围。
“他们应该非常狭隘地定义他们在做什么,”Heudecker说。“他们应该选择一个有问题的领域,并拥有它,比如欺诈检测、细分客户,或者弄清楚在千禧一代的市场上应该推出什么新产品。”
“在一天结束的时候,你必须询问你想要的洞察力或者将业务流程数字化,”Christopher说。“你不只是把技术用于解决商业问题;你必须预先定义它。数据湖是必要的,但如果数据不会被商业上的任何人使用,你就不想收集数据。”
在很多情况下,这也意味着不要让自己的公司过度膨胀。“在我研究过的所有公司中,只有几百个关键概念和关系是整个企业赖以运行的。一旦你理解了这一点,你就会意识到,这数百万个区别只不过是这几百件重要事情的微小变化。”事实上,你会发现许多细微的变化根本不是变化。它们其实是一样的东西,只是名字不同,结构不同,或者标签不同。”
大数据解决方案4:抛弃传统
虽然您可能希望使用收集并存储在数据仓库中的那些tb级的数据,但事实是,如果您只关注为大数据设计的存储系统中新收集的数据,并将其设计为无竖井存储,那么您可能会得到更好的服务。
“我绝对建议,不要仅仅因为你的公司是现有技术基础设施的许可证,就一定要感激它,”咨询师Greenbaum说。通常,新的复杂问题可能需要新的复杂解决方案。回到公司的旧工具上工作十年不是正确的方法。许多公司使用旧的工具,这会扼杀项目。”
Morrison 指出:“企业需要停止纠缠于自己的内衣,而应该抛弃创造更多筒仓的传统架构。他还说,他们需要停止期望供应商为他们解决复杂的系统问题。几十年来,许多人似乎认为他们可以通过购买来解决大数据问题。任何大数据问题都是系统性问题。当涉及到任何复杂的系统变化时,你必须想办法解决,”他说。