目前大數據成了現代化企業的代名(míng)詞,很(hěn)多(duō)企業在推行大數據項目時往往把項目規模和範圍做得很(hěn)大,但是事實卻是,很(hěn)多(duō)大數據項目分(fēn)析都會失敗。2016年,Gartner估算約六成的大數據項目都會失敗。一年後,Gartner分(fēn)析師Nick Heudecker表示,這個數據“過于保守”,大數據項目失敗率應接近85%。直至現在他(tā)也是這樣認為(wèi)的。
并不隻有(yǒu)Gartner這樣認為(wèi)。前微軟高管Bob Muglia告訴分(fēn)析網站Datanami,“我找不到完全滿意的Hadoop客戶。實際上,成功應用(yòng)Hadoop的客戶數量可(kě)能(néng)少于20個,甚至可(kě)能(néng)少于10個。考慮到其存在時間以及行業投入,這個結果很(hěn)令人震驚。
熟悉大數據的人都知道,這個問題是真實且嚴重的,而不完全是技(jì )術問題。事實上,相對于本質(zhì)原因,技(jì )術是失敗的次要原因。以下是大數據項目失敗的四個主要原因,以及可(kě)以成功的四種方式。
Heudecker表示,大數據失敗背後存在着一個重要的技(jì )術問題,那就是整合多(duō)個來源的孤立數據,以實現企業所需的數據處理(lǐ)能(néng)力。建立與孤立傳統系統的連接并不容易。他(tā)說,整合成本是軟件成本的五到十倍。其中(zhōng)最大的問題是簡單集成:如何将多(duō)個數據源鏈接在一起?很(hěn)多(duō)人選擇數據湖(hú)路線(xiàn),認為(wèi)這個方式很(hěn)簡單,但事實并非如此。
孤立數據是問題的一部分(fēn)。客戶告訴他(tā),當他(tā)們将數據從系統提取到像數據湖(hú)這樣的公(gōng)共環境中(zhōng)後,卻無法弄清楚這些值的含義。“當你将數據輸入數據湖(hú)時,怎麽知道數字3意味着什麽?”Heudecker問道。
普華永道(PwC)高級研究員Alan Morrison表示:“由于是在孤島中(zhōng)工(gōng)作(zuò),或者創建的數據湖(hú)隻是數據沼澤,所以他(tā)們能(néng)完成的工(gōng)作(zuò)隻是冰山(shān)一角。”“他(tā)們不理(lǐ)解數據中(zhōng)的關系,這些關系需要挖掘或推斷,以便機器能(néng)夠充分(fēn)解釋這些數據。另外,他(tā)們需要創建一個知識圖層,以便機器能(néng)夠解釋下面映射的所有(yǒu)實例數據。否則,數據湖(hú)隻能(néng)是一個數據沼澤,”
大多(duō)數人以為(wèi)企業在進行大數據項目時會有(yǒu)明确的目标,但實際并不是這樣的。很(hěn)多(duō)公(gōng)司通常是先啓動項目,然後才去想目标。
數據集成軟件公(gōng)司Talend的産(chǎn)品營銷經理(lǐ)Ray Christopher表示,“你必須認真審視這個問題。人們認為(wèi)他(tā)們可(kě)以将結構化和非結構化數據連接起來,從而獲得所需的信息。然而這必須提前确定目标,你想要什麽樣的信息?”
企業應用(yòng)咨詢公(gōng)司的首席分(fēn)析師Joshua Greenbaum表示,困擾大數據和數據倉庫項目的部分(fēn)原因是指導标準通常是大量數據的積累,而不是解決業務(wù)問題。
Greenbaum說,“如果将大量數據彙總在一起,就會得到數據轉儲,可(kě)以稱之為(wèi)衛生垃圾填埋場。這不是尋找解決方案的好方法。我一般建議客戶先決定需要優先解決哪些業務(wù)問題,然後查看可(kě)用(yòng)數據的質(zhì)量,并在發現業務(wù)問題後解決數據問題。”
為(wèi)什麽大多(duō)大數據項目都失敗了?對于初學(xué)者來說,大數據項目領導者都缺乏遠(yuǎn)見。Morrison這樣認為(wèi)。大多(duō)數企業隻考慮數值數據或黑盒子NLP和識别引擎,并進行簡單的文(wén)本挖掘和其他(tā)類型的模式識别。
很(hěn)多(duō)時候,公(gōng)司認為(wèi)他(tā)們為(wèi)數據倉庫建立的内部技(jì )能(néng)将轉化為(wèi)大數據,而事實并非如此。 對于初學(xué)者來說,數據倉庫和大數據以完全相反的方式處理(lǐ)數據:數據倉庫在寫入時執行模式,這意味着數據在進入數據倉庫之前就會被處理(lǐ)和組織。
在大數據中(zhōng),積累數據并應用(yòng)讀取模式,數據在讀取時進行處理(lǐ)。因此,如果數據處理(lǐ)從一種方法轉向另一種方法,技(jì )能(néng)和工(gōng)具(jù)應該也是如此。
“技(jì )能(néng)永遠(yuǎn)是一個挑戰。如果我們30年後談論大數據,仍然會面臨挑戰。“很(hěn)多(duō)人都依賴Hadoop。但Spark更好一些,因為(wèi)棧更小(xiǎo)也更容易訓練。”
大數據項目經常從舊的數據豎井中(zhōng)提取數據,并試圖将它們與新(xīn)的數據源(如傳感器、網絡流量或社交媒體(tǐ))合并。這并不完全是企業的錯,企業在大數據分(fēn)析出現之前就收集了這些數據,但無論如何,這也是一個問題。
Greenbaum認為(wèi),企業缺少的最大技(jì )能(néng)是如何融合這兩個數據源,讓他(tā)們共同解決複雜問題。數據孤島可(kě)能(néng)成為(wèi)大數據項目的障礙,因為(wèi)它沒有(yǒu)任何标準。因此,當企業開始規劃時,發現這些系統尚未以任何方式實施,所以這些數據将被重複使用(yòng)。
Talend的Christopher認為(wèi),對于不同的架構需要以不同的方式進行處理(lǐ)。技(jì )術技(jì )能(néng)和架構差異是無法将當前工(gōng)具(jù)用(yòng)于本地數據倉庫并将其與大數據項目集成的主要原因。因為(wèi)這些技(jì )術處理(lǐ)新(xīn)數據的成本太高。所以需要Hadoop和Spark等新(xīn)的語言。
結合以上大數據問題分(fēn)析,創軟科(kē)技(jì )團隊提供了以下大數據分(fēn)析解決方案供參考
雖然是陳詞濫調,但适用(yòng)于大數據項目。成功的公(gōng)司必然是有(yǒu)結果的公(gōng)司,選擇一些小(xiǎo)而可(kě)實現的新(xīn)東西進行規劃和實現。
Morrison說:“他(tā)們需要首先考慮數據,并以機器可(kě)讀的方式為(wèi)企業建模,以便數據服務(wù)于該企業。”
股東往往被排除在大數據項目之外 。Heudecker說,如果所有(yǒu)股東合作(zuò),他(tā)們可(kě)以克服許多(duō)障礙。加上技(jì )術人員共同努力,并與業務(wù)部門合作(zuò)以提供可(kě)行的結果,這可(kě)能(néng)有(yǒu)所幫助。
Heudecker指出,在大數據方面取得成功的公(gōng)司大量投資于必需的技(jì )能(néng)。他(tā)認為(wèi)這是數據驅動型公(gōng)司普遍認可(kě)的,如金融服務(wù)公(gōng)司、優步、Lyft和Netflix。公(gōng)司的财富基于擁有(yǒu)可(kě)靠、可(kě)操作(zuò)的數據。
Christopher認為(wèi),應該讓大數據項目成為(wèi)一項團隊運動,所有(yǒu)人都幫助策劃和收集數據并處理(lǐ)它,提高數據的完整性。
人們似乎有(yǒu)一種心态,即大數據項目需要非常大的動作(zuò)。但就像你第一次學(xué)習任何東西一樣,成功的最好方法是從小(xiǎo)到小(xiǎo),然後逐漸擴大。
“他(tā)們應該仔細定義他(tā)們在做什麽,”Heudecker說,“應該選擇一個問題域并研究解決它,例如欺詐檢測、細分(fēn)客戶,或者弄清楚千禧一代市場中(zhōng)推出的新(xīn)産(chǎn)品。”
Christopher說:“說到底,你必須問問自己想要什麽,或者想要數字化的業務(wù)流程。不隻是把技(jì )術扔到商(shāng)業問題上,你必須預先定義它。數據湖(hú)是必要的,但如果數據湖(hú)不會被任何商(shāng)業人士使用(yòng),你就不會想要收集數據。”
在很(hěn)多(duō)情況下,這也意味着不要讓自己的公(gōng)司過度膨脹。 Morrison表示,在他(tā)研究過的每一家公(gōng)司中(zhōng),隻有(yǒu)幾百個關鍵概念和關系是整個企業賴以運作(zuò)的。一旦你理(lǐ)解了這一點,你就會意識到,所有(yǒu)這些數以百萬計的差别隻是那幾百件重要事情的微小(xiǎo)變化。事實上,你會發現許多(duō)細微的變化根本不是變化。它們其實本質(zhì)上是一樣的東西,雖然有(yǒu)不同的名(míng)字、不同的結構、不同的标簽。
雖然您可(kě)能(néng)希望使用(yòng)收集并存儲在數據倉庫中(zhōng)的那些TB級數據,但事實上您可(kě)能(néng)更好地服務(wù)于為(wèi)大數據設計的存儲系統中(zhōng)新(xīn)收集的數據,并且設計為(wèi)未經過處理(lǐ)的數據。
要避免因為(wèi)企業擁有(yǒu)一項基礎設施的許可(kě)證而隻對現有(yǒu)的基礎設施感興趣。通常,新(xīn)的複雜問題可(kě)能(néng)需要新(xīn)的複雜解決方案。使用(yòng)企業以往的就工(gōng)具(jù)并不是正确做法,甚至有(yǒu)可(kě)能(néng)導緻大數據項目失敗。
Morrison認為(wèi),企業應該停止故步自封。他(tā)還表示,企業不能(néng)再一味依賴供應商(shāng)為(wèi)他(tā)們解決複雜的系統問題。“幾十年來,許多(duō)人似乎都認為(wèi)任何大數據問題都是系統性問題。但當面對複雜的系統變化時,企業必須建立自己的解決方案。
創軟科(kē)技(jì )大數據分(fēn)析團隊,在多(duō)年軟件定制開發基礎之上,結合企業數據特性進行分(fēn)析,有(yǒu)效整合企業大數據,可(kě)以有(yǒu)效的提高企業大數據項目的成功機率。