什么是大數(shù)據(jù)?
我們可以將大數(shù)據(jù)描述為這樣一種數(shù)據(jù)管理難題,由于數(shù)據(jù)量、數(shù)據(jù)速度和數(shù)據(jù)多樣性方面的需求日益增加,人們無法使用傳統(tǒng)數(shù)據(jù)庫來解決這種難題。大數(shù)據(jù)的定義很多,但其中大部分定義都包含所謂大數(shù)據(jù)的“三個 V”的概念:
大量 (Volume):數(shù)據(jù)量從數(shù) TB 到數(shù) PB
多樣 (Variety):包括多種來源和格式(例如 Web 日志、社交媒體互動、電子商務(wù)與在線交易、財務(wù)交易,等等)的數(shù)據(jù)
高速 (Velocity):從生成數(shù)據(jù)的時間到向用戶提供可付諸行動的見解的時間,企業(yè)對速度的要求越來越高。因此,需要以相對較短的時間(從每天一次到實時)完成數(shù)據(jù)的收集、存儲、處理和分析
您為什么會需要大數(shù)據(jù)?
盡管關(guān)于大數(shù)據(jù)的宣傳無處不在,許多組織仍然沒有意識到他們正面臨大數(shù)據(jù)問題,或者根本沒有從大數(shù)據(jù)的角度思考自己面臨的問題。一般而言,如果組織現(xiàn)有的數(shù)據(jù)庫和應(yīng)用程序已無法再擴展以應(yīng)對數(shù)據(jù)量、數(shù)據(jù)多樣性和數(shù)據(jù)速度方面需求的激增,那么該組織很可能會通過采用大數(shù)據(jù)技術(shù)而獲益。
若未能正確解決大數(shù)據(jù)難題,則會導(dǎo)致成本不斷上升,工作效率和競爭力不斷下降。而合理的大數(shù)據(jù)策略則能夠遷移現(xiàn)有的繁重工作負載,交由大數(shù)據(jù)技術(shù)處理,并部署新應(yīng)用程序以利用新的商機,從而幫助組織降低成本并提高運營效率。
大數(shù)據(jù)的工作原理是什么?
大數(shù)據(jù)技術(shù)提供了可滿足整個數(shù)據(jù)管理周期需求的新工具,因此具有技術(shù)上和經(jīng)濟上的可行性,不僅能夠收集并存儲更大的數(shù)據(jù)集,還能對其進行分析,以發(fā)掘有價值的新見解。在大多數(shù)情況下,大數(shù)據(jù)處理包含一種常見的數(shù)據(jù)流 – 從收集原始數(shù)據(jù)到使用可付諸行動的信息。
收集。收集原始數(shù)據(jù)(事務(wù)、日志、移動設(shè)備等)是眾多組織在應(yīng)對大數(shù)據(jù)時所面臨的第一個難題。優(yōu)秀的大數(shù)據(jù)平臺可使這一步事半功倍,讓開發(fā)人員能夠以任意速度(從實時處理到批處理)攝取多種數(shù)據(jù)(從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù))。
存儲。任何大數(shù)據(jù)平臺都需要一個安全、可控制且持久耐用的存儲庫,用于在處理任務(wù)之前(甚至之后)存儲數(shù)據(jù)。根據(jù)具體需求,您可能還需要臨時存儲來存儲傳輸過程中的數(shù)據(jù)。
處理和分析。在這一步中,數(shù)據(jù)將從其原始狀態(tài)轉(zhuǎn)換為可使用的格式,實現(xiàn)的方法通常是排序、聚合、合并,甚至是執(zhí)行更高級的函數(shù)和算法。隨后,將存儲轉(zhuǎn)換后產(chǎn)生的數(shù)據(jù)集以供進一步處理,或者通過商業(yè)智能和數(shù)據(jù)可視化工具向用戶提供這些數(shù)據(jù)集。
使用和可視化。大數(shù)據(jù)解決方案的意義就在于從您的數(shù)據(jù)集中獲取高價值、可付諸行動的見解。理想情況下,您可通過自助式商業(yè)智能工具和靈活的數(shù)據(jù)可視化工具向相關(guān)人員提供數(shù)據(jù),他們可利用這些工具輕松快速地瀏覽這些數(shù)據(jù)集。根據(jù)分析的類型,最終用戶還可能以統(tǒng)計“預(yù)測”(預(yù)測分析)或建議行動(規(guī)范分析)的形式使用分析結(jié)果數(shù)據(jù)。
大數(shù)據(jù)處理的發(fā)展歷程
大數(shù)據(jù)生態(tài)系統(tǒng)一直在以驚人的速度向前發(fā)展。如今,有多種分析類型可滿足組織中眾多職能的需求。
描述分析可幫助用戶回答以下問題:“發(fā)生了什么事?為什么?”。示例包括帶有計分卡和儀表板的傳統(tǒng)的查詢和報告環(huán)境。
預(yù)測分析可幫助用戶估計某個給定事件在未來發(fā)生的幾率。示例包括早期的警報系統(tǒng)、欺詐檢測、預(yù)防性維護應(yīng)用程序和預(yù)測。
規(guī)范分析可為用戶提供具體(規(guī)范)建議。它們可回答用戶的以下問題:“如果發(fā)生‘x’,我該怎么做?”
最初,Hadoop 之類的大數(shù)據(jù)框架只支持批處理工作負載,它們在指定的時間段(通常為數(shù)小時乃至數(shù)天)內(nèi)批量處理大型數(shù)據(jù)集。然而,隨著“獲得見解的時間”變得越來越重要,大數(shù)據(jù)的“高速”特點已經(jīng)促使許多新的框架(例如 Apache Spark、Apache Kafka、Amazon Kinesis 等)做出改進以支持實時和流式數(shù)據(jù)處理。