隨著大數(shù)據(jù)與云原生的快速發(fā)展融匯交互,各技術(shù)領(lǐng)域又將來臨新一波迅雷之勢的挑戰(zhàn)和創(chuàng)變。利用云原生技術(shù)的簡便快捷、動態(tài)調(diào)度、按需伸縮等優(yōu)勢,如何加速大數(shù)據(jù)基礎(chǔ)軟件和系統(tǒng)的迭代更新頻率、確保整體環(huán)境的最終一致性,如何為數(shù)據(jù)庫提供極致的性能、彈性和無限擴(kuò)展能力,以及由此帶來的運(yùn)維模式轉(zhuǎn)型該如何應(yīng)對,以上種種,都是我們當(dāng)下需要率先突破的課題。
當(dāng)下來看,不僅僅是技術(shù)上面的難題,很多企業(yè)依舊是使用的老一套大數(shù)據(jù)處理方案,但數(shù)據(jù)量日益增大,需求增多。傳統(tǒng)的數(shù)據(jù)中心無論是在性能、效率,還是在投資收益、安全性,已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足新興應(yīng)用的需求,數(shù)據(jù)中心業(yè)務(wù)急需新型大數(shù)據(jù)處理中心來支撐。除了傳統(tǒng)的高可靠、高冗余、綠色節(jié)能之外,新型的大數(shù)據(jù)中心還需應(yīng)具備虛擬化、模塊化、彈性擴(kuò)展、自動化等一系列特征,才能滿足具備大數(shù)據(jù)特征的應(yīng)用需求。這些史無前例的需求,讓存儲系統(tǒng)的架構(gòu)和功能都發(fā)生了前所未有的變化。
對于企業(yè)來說,大數(shù)據(jù)方面的挑戰(zhàn)包括:
·業(yè)務(wù)部門無清晰的大數(shù)據(jù)需求
·企業(yè)內(nèi)部數(shù)據(jù)孤島嚴(yán)重
·數(shù)據(jù)可用性低、質(zhì)量差
·數(shù)據(jù)相關(guān)管理技術(shù)和架構(gòu)問題
·數(shù)據(jù)安全問題
·大數(shù)據(jù)人才缺乏
·數(shù)據(jù)開放和隱私的權(quán)衡
要更快速的釋放數(shù)據(jù)價值,一套完善的方案和系統(tǒng)是關(guān)鍵。而這一領(lǐng)域的佼佼者便是華為云一站式大數(shù)據(jù)解決方案,頗受業(yè)界認(rèn)可。本文就從傳統(tǒng)大數(shù)據(jù)解決方案和大數(shù)據(jù)的特點(diǎn)出發(fā),來剖析為什么要選擇華為云的大數(shù)據(jù)解決方案。
一、海量數(shù)據(jù)處理方案
1.1 大數(shù)據(jù)存儲
1.1.1 傳統(tǒng)數(shù)據(jù)存儲
通常業(yè)務(wù)系統(tǒng)產(chǎn)生的大量日志,傳統(tǒng)的處理方式是采用集中存儲。集中存儲就是指有一臺大型主機(jī)或多臺主機(jī)組成中心節(jié)點(diǎn),數(shù)據(jù)集中存儲于這個中心節(jié)點(diǎn)上,并且整個系統(tǒng)的所有業(yè)務(wù)單元都集中部署在這個中心節(jié)點(diǎn)上, 數(shù)據(jù)計(jì)算幾乎完全 依賴于一臺中、大型的中心計(jì)算機(jī)的處理能力。系統(tǒng)所有的功能均由其集中處理。在集中式系統(tǒng)中,每個終端或客戶端僅僅負(fù)責(zé)數(shù)據(jù)的錄入和輸出,而數(shù)據(jù)的存儲與控制處理完全交給主機(jī)來完成。集中式存儲最大的特點(diǎn)就是部署結(jié)構(gòu)簡單。放在現(xiàn)在整個環(huán)境中,需要面臨以下考驗(yàn):
·系統(tǒng)安全性:需要對抗DDoS攻擊,傳統(tǒng)自建數(shù)據(jù)庫需要自行實(shí)現(xiàn),且實(shí)現(xiàn)成本較高,同時也需自行修復(fù)數(shù)據(jù)庫安全漏洞。
·硬件成本:為了能部署數(shù)據(jù)庫,開發(fā)者需要購買費(fèi)用高昂的數(shù)據(jù)庫服務(wù)器。一次性的硬件成本很高。而且考慮到硬件損耗,后期還會有維修和更換硬件的成本。
·運(yùn)維成本:需要花費(fèi)大量的人力物力來維護(hù)硬件、維護(hù)操作系統(tǒng)、維護(hù)數(shù)據(jù)庫軟件。
·可擴(kuò)展性:傳統(tǒng)自建數(shù)據(jù)庫采用物理硬盤作為存儲空間,受單盤容量的限制,并不支持彈性升級,要增減節(jié)點(diǎn),也比較難實(shí)現(xiàn),如果某個數(shù)據(jù)庫超過了這個存儲的限制,需要運(yùn)維和開發(fā)的人員一起進(jìn)行數(shù)據(jù)歸檔,來降低數(shù)據(jù)庫容量。
·可靠性:單機(jī)實(shí)例,沒有數(shù)據(jù)災(zāi)備。需要額外成本建立異地的數(shù)據(jù)災(zāi)備。不管是主從架構(gòu)、還是負(fù)載均衡還是自動容災(zāi)方面,傳統(tǒng)自建數(shù)據(jù)庫都需要自行實(shí)現(xiàn)。
傳統(tǒng)數(shù)據(jù)庫或數(shù)倉產(chǎn)品面臨數(shù)據(jù)存不下、查不出、擴(kuò)容難、成本高的痛點(diǎn)。因此,如何對整個傳統(tǒng)數(shù)據(jù)庫升級躍遷,是企業(yè)面臨的關(guān)鍵問題之一。
一方面是傳統(tǒng)數(shù)據(jù)庫不能滿足互聯(lián)網(wǎng)企業(yè)新需求。互聯(lián)網(wǎng)企業(yè)因業(yè)務(wù)快速擴(kuò)展,需實(shí)時處理海量數(shù)據(jù),并發(fā)訪問量非常大。傳統(tǒng)數(shù)據(jù)庫基于專用服務(wù)器和高端存儲構(gòu)成共享存儲環(huán)境,設(shè)備造價昂貴,且性能和擴(kuò)展性極其有限,無法滿足互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)庫高并發(fā)、實(shí)時在線需求。
另一方面是傳統(tǒng)數(shù)據(jù)庫不能適應(yīng)云計(jì)算技術(shù)新需求。云計(jì)算公司依托技術(shù)積累,發(fā)起由IOE架構(gòu)向基于廉價PC服務(wù)器技術(shù)的變革,降低IT服務(wù)支出,倡導(dǎo)以軟件為中心的架構(gòu)演變,降低數(shù)據(jù)庫維護(hù)升級的風(fēng)險。傳統(tǒng)數(shù)據(jù)庫環(huán)境是集中在一個地點(diǎn)的高穩(wěn)定、高可靠、高可用的高端企業(yè)級設(shè)備,制約云計(jì)算企業(yè)未來業(yè)務(wù)發(fā)展,增加長期運(yùn)營成本。
傳統(tǒng)數(shù)據(jù)存儲面臨著以下四個問題:
·無法應(yīng)對每秒上萬次的讀寫請求,硬盤IO此時也將變?yōu)樾阅芷款i。
·表中存儲記錄數(shù)量有限,橫向可擴(kuò)展能力有限,縱向數(shù)據(jù)可承受能力也是有限的,面對海量數(shù)據(jù),勢必涉及到分庫分表,難以維護(hù)。大數(shù)據(jù)查詢SQL效率極低,數(shù)據(jù)量到達(dá)一定程度時,查詢時間會呈指數(shù)級別增長。
·難以橫向擴(kuò)展,無法簡單地通過增加硬件、服務(wù)節(jié)點(diǎn)來提高系統(tǒng)性能。
·對于需要24小時不間斷提供服務(wù)的網(wǎng)站來說,數(shù)據(jù)庫升級、擴(kuò)展將是一件十分麻煩的事,往往需要停機(jī)維護(hù)、數(shù)據(jù)遷移。為了避免服務(wù)間斷,如果網(wǎng)站使用服務(wù)器集群,則根據(jù)集群策略,需要相應(yīng)的考慮主從一致性、集群擴(kuò)展性等一系列問題。
那么結(jié)合現(xiàn)有的云原生技術(shù)和大數(shù)據(jù)技術(shù),數(shù)據(jù)倉庫又該是何種形式呢?
1.1.2 云大數(shù)據(jù)倉庫
以華為云數(shù)據(jù)倉庫 GaussDB(DWS)新一代云數(shù)倉為例,GaussDB(DWS)作為新一代全場景數(shù)據(jù)倉庫,具備極致性能、高擴(kuò)展、極簡易用、一站式分析等特性,滿足大數(shù)據(jù)時代企業(yè)構(gòu)建新型數(shù)倉的需求。融合分析能力是云原生數(shù)據(jù)倉庫GaussDB(DWS)核心亮點(diǎn)之一。GaussDB(DWS)采用一套SQL引擎,支持Oracle、Mysql、HDFS等多源數(shù)據(jù)融合分析,并通過算子下推、加速集群等技術(shù)對分析性能進(jìn)行了大幅優(yōu)化,在數(shù)據(jù)免搬遷的前提下,實(shí)現(xiàn)了跨源數(shù)據(jù)免搬遷、高效分析。
能夠在運(yùn)行時進(jìn)行按需擴(kuò)展的能力是任何企業(yè)成長的先決條件。因?yàn)檫@種能力讓企業(yè)可以專注于追求商業(yè)目標(biāo),而不用擔(dān)心存儲空間大小的限制。傳統(tǒng)數(shù)據(jù)庫將所有文件和資源都存儲在同一主機(jī)中,而云原生數(shù)據(jù)庫GaussDB則不同,它不僅允許你以不同的方式存儲,而且不受存儲空間問題的影響。
比如我們從MySQL數(shù)據(jù)庫數(shù)據(jù)遷移至GaussDB:
1、導(dǎo)出mysql數(shù)據(jù)
1、下載數(shù)據(jù)并上傳至GaussDB服務(wù)器
2、導(dǎo)入GaussDB
可見遷移十分便捷。GaussDB 提供配套的遷移工具,支持使用dump和load將數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)出成標(biāo)準(zhǔn)化通用文件,可使用GaussDB的 load導(dǎo)入Oracle、MySQL、SQLserver等數(shù)據(jù)庫導(dǎo)出的文件,同時也可以使用dump導(dǎo)出GaussDB的數(shù)據(jù),然后導(dǎo)入到其他數(shù)據(jù)庫或者其他GaussDB數(shù)據(jù)庫?芍С諸eradata、Oracle/Exadata、Greenplum等數(shù)據(jù)分析系統(tǒng)的平滑遷移,而且支持SQL 2003標(biāo)準(zhǔn),兼容Oracle/Teradata的部分語法和數(shù)據(jù)結(jié)構(gòu),支持全局事務(wù)、存儲過程、數(shù)據(jù)強(qiáng)一致性保證。且GaussDB庫倉一體,邏輯集群,支持一套集群容納數(shù)據(jù)集市、數(shù)據(jù)倉庫。
GaussDB(DWS)云原生數(shù)據(jù)倉庫支持冷熱數(shù)據(jù)多溫存儲,熱數(shù)據(jù)存儲于數(shù)倉內(nèi)部,以獲得良好的查詢分析性能,冷數(shù)據(jù)可分級存儲到更低成本的OBS中。不僅降低存儲成本,并且在OBS內(nèi),通過合法鑒權(quán),數(shù)據(jù)能夠共享開放,供其他引擎處理分析。GaussDB(DWS)當(dāng)前已經(jīng)支持表內(nèi)不同分區(qū)間的冷熱數(shù)據(jù)存儲,未來還將支持更細(xì)粒度、更加智能的冷熱數(shù)據(jù)管理。
企業(yè)積累的海量數(shù)據(jù)及各種數(shù)據(jù)資產(chǎn),體量龐大,需高性能大數(shù)據(jù)平臺支撐進(jìn)行全量數(shù)據(jù)分析和挖掘。企業(yè)可以依托DWS+BI工具打造全局的、直觀的、關(guān)聯(lián)性的、可視化的運(yùn)營數(shù)字化分析平臺 ,以數(shù)據(jù)分析來驅(qū)動業(yè)務(wù)價值提升及管理提升。
以國內(nèi)某知名保險客戶的商業(yè)數(shù)據(jù)庫遷移為例。首先是要求高性能,客戶上線業(yè)務(wù)為保險核心業(yè)務(wù),這塊業(yè)務(wù)需要數(shù)據(jù)庫具備高并發(fā)、大表查詢的能力,尤其是對接互聯(lián)網(wǎng)和渠道的業(yè)務(wù),對數(shù)據(jù)庫性能要求很高。在保單的批量下單場景方面,GaussDB(for MySQL)憑借其優(yōu)秀的性能完美支撐業(yè)務(wù)核心交易場景。
而且GaussDB跨AZ部署高可用,數(shù)據(jù)安全可靠。這個特性無論是在國內(nèi),還是與海外友商相比都是領(lǐng)先的,它能做到跨3AZ部署,任何一個節(jié)點(diǎn)故障都不會對業(yè)務(wù)帶來致命影響。故障切換速度做到10秒以內(nèi),做到數(shù)據(jù)零丟失,采用白名單、VPC網(wǎng)絡(luò)、數(shù)據(jù)多副本存儲等全方位的手段,對數(shù)據(jù)庫數(shù)據(jù)訪問、存儲、管理等各個環(huán)節(jié)提供安全保障。且GaussDB能夠快速備份恢復(fù),采用快照的方式,相比傳統(tǒng)MySQL物理備份,整個恢復(fù)時間加快了數(shù)倍;诘讓哟鎯ο到y(tǒng)的多時間點(diǎn)特性,不需增量日志回放,可直接實(shí)現(xiàn)按時間點(diǎn)回滾。備份及恢復(fù)邏輯下沉到各存儲節(jié)點(diǎn),本地訪問數(shù)據(jù)并直接與第三方存儲系統(tǒng)交互,實(shí)現(xiàn)高并發(fā)、高性能。
針對實(shí)時檢索、復(fù)雜BI SQL定制并行查詢功能,開啟后同樣多表關(guān)聯(lián)查詢速度提升10+ 倍。
1.2 大數(shù)據(jù)BI快速展示
既然談到了大數(shù)據(jù)BI這條業(yè)務(wù)線那就把他講到底。
1.2.1大數(shù)據(jù)BI產(chǎn)業(yè)鏈結(jié)構(gòu)分析
大數(shù)據(jù)BI產(chǎn)業(yè)鏈結(jié)構(gòu)總體上由數(shù)據(jù)源、數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析以及數(shù)據(jù)展現(xiàn)五個方面構(gòu)成。
第一、從數(shù)據(jù)來源角度
大數(shù)據(jù)應(yīng)用的數(shù)據(jù)來源,不僅僅包括非結(jié)構(gòu)化的數(shù)據(jù),還有各種系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)。其中非結(jié)構(gòu)化數(shù)據(jù)主要是集中在互聯(lián)網(wǎng)以及一些社交網(wǎng)站上的數(shù)據(jù)和一些機(jī)器設(shè)備的數(shù)據(jù),這些都構(gòu)成了大數(shù)據(jù)應(yīng)用的數(shù)據(jù)來源。對于大數(shù)據(jù)的分析工具來說,現(xiàn)階段對非結(jié)構(gòu)化的數(shù)據(jù)分析的比較多。
BI系統(tǒng)則是在數(shù)據(jù)集成方面的技術(shù)越來越成熟。對于數(shù)據(jù)的提取和各種數(shù)據(jù)挖掘來說,數(shù)據(jù)集成平臺會幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)的流通和交互使用,在企業(yè)內(nèi)部實(shí)施BI應(yīng)用就是為了可以更好地對數(shù)據(jù)進(jìn)行分享和使用。
其中數(shù)據(jù)源由企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)構(gòu)成。企業(yè)的內(nèi)部數(shù)據(jù)通常與具體業(yè)務(wù)緊密相關(guān),且多數(shù)來自我們可以掌控的軟件系統(tǒng),如CRM、ERP或者HR系統(tǒng)。ETL負(fù)責(zé)將數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。最后通過數(shù)據(jù)展現(xiàn)工具對數(shù)據(jù)進(jìn)行可視化分析,滿足各種應(yīng)用需求。多數(shù)企業(yè)對大數(shù)據(jù)BI平臺數(shù)據(jù)權(quán)限管控、探索式自主分析以及快速搭建業(yè)務(wù)數(shù)據(jù)模型等功能有著強(qiáng)烈需求,這幾種功能被選擇的比例高達(dá)90%以上;
第二、從發(fā)展方向角度
BI的發(fā)展要從傳統(tǒng)的商務(wù)智能模式開始轉(zhuǎn)換。對于企業(yè)來說,BI不僅僅是一個IT項(xiàng)目,更是一種管理和思維的方式,從技術(shù)的部署到業(yè)務(wù)的流程規(guī)劃,BI正在迎來新的發(fā)展。對于大數(shù)據(jù)來說,現(xiàn)階段更多的大數(shù)據(jù)關(guān)注在非結(jié)構(gòu)化數(shù)據(jù),不同的數(shù)據(jù)分析工具的出現(xiàn)和行業(yè)內(nèi)的應(yīng)用范圍不斷的加大。對于大數(shù)據(jù)應(yīng)用來說,怎么與應(yīng)用的行業(yè)進(jìn)行深層次的結(jié)合才是最重要的。
第三、從工具的角度
傳統(tǒng)BI使用的是ETL、數(shù)據(jù)倉庫、OLAP、可視化報表技術(shù),屬于應(yīng)用和展示層技術(shù),目前都處于淘汰的邊緣。因?yàn)樗鼈兘鉀Q不了海量數(shù)據(jù)(包括結(jié)構(gòu)化與非結(jié)構(gòu)化)的處理問題。而大數(shù)據(jù)應(yīng)用的是一個完整的技術(shù)體系,包括用Hadoop、流處理等技術(shù)解決海量的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的ETL問題,用Hadoop、MPP等技術(shù)解決海量數(shù)據(jù)的計(jì)算問題,用redis、HBASE等方式解決高效讀的問題,用Impala等技術(shù)解決在線分析等問題。
1.2.2 華為云一站式大數(shù)據(jù)BI方案
基于華為云數(shù)據(jù)倉庫服務(wù)GaussDB(DWS)及基礎(chǔ)服務(wù),華為云一站式大數(shù)據(jù)BI可以5分鐘完成自動化報表制作,可輕松打通多個業(yè)務(wù)系統(tǒng)數(shù)據(jù),整合多源數(shù)據(jù),構(gòu)建企業(yè)級可視化分析決策平臺。通過類Excel的設(shè)計(jì)器一鍵連接數(shù)據(jù)源,拖拽字段綁定單元格,報表即可完成制作。學(xué)習(xí)成本低,產(chǎn)品上手快,操作簡便、快速,總結(jié)起來就是“易學(xué)易用易集成”。
方案優(yōu)勢:
1、一站式
一站式大數(shù)據(jù)分析平臺,包括數(shù)據(jù)采集、清洗、整合、存儲、計(jì)算、建模、訓(xùn)練、展現(xiàn)、協(xié)作等,一個平臺上完成全流程數(shù)據(jù)分析任務(wù)。
2、高性能
利用列存儲和內(nèi)存計(jì)算,實(shí)現(xiàn)海量數(shù)據(jù)秒級響應(yīng)。AI深度分析集成多種算法,挖掘潛在價值關(guān)系、模式和趨勢,構(gòu)建數(shù)據(jù)模型,做出業(yè)務(wù)預(yù)測與洞察。
3、極致易用
上線周期以周為單位,平臺支持全部云端OS,支持公有云、私有云和混合云架構(gòu)。操作簡單,業(yè)務(wù)人員也能輕松、快速地制作并分析數(shù)據(jù)報告。
4、移動跨屏
無縫支持各種電腦和手機(jī)終端系統(tǒng),并在這些終端設(shè)備上保持一致、易用的用戶體驗(yàn),隨時隨地通過移動設(shè)備進(jìn)行數(shù)據(jù)分析。
數(shù)字化轉(zhuǎn)型的最終目的并非是獲得數(shù)據(jù),而是挖掘數(shù)據(jù)的價值,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務(wù)增長。華為云大數(shù)據(jù)BI解決方案定位于“面向業(yè)務(wù)人員的可視化分析”工具,讓零基礎(chǔ)的業(yè)務(wù)人員也能自主完成數(shù)據(jù)進(jìn)行分析、挖掘與洞察,讓數(shù)據(jù)真正走進(jìn)業(yè)務(wù),推動業(yè)務(wù)增長,實(shí)現(xiàn)降本增效。
華為云數(shù)據(jù)可視化DLV服務(wù)一站式適配云上云下多種數(shù)據(jù)源,提供豐富多樣的2D、3D可視化組件,采用拖拽式自由布局,旨在幫助快速定制和應(yīng)用屬于自己的數(shù)據(jù)大屏。目前華為云還提供數(shù)據(jù)可視化DLV的基礎(chǔ)版免費(fèi)試用機(jī)會,可在華為云官網(wǎng)申請體驗(yàn)。
華為云數(shù)據(jù)可視化DLV具備如下優(yōu)勢:
1.豐富多樣的可視化組件
提供豐富的可視化組件,包括常用的數(shù)據(jù)圖表、圖形、控件等
2.專業(yè)級地理信息可視化
支持繪制地理軌跡、地理飛線、熱力分布、地域區(qū)塊、3D地球等效果,支持地理數(shù)據(jù)多層疊加
3.可視化編輯器
拖拽即可完成組件自由配置與布局、所見即所得,無需編程就能輕松搭建可視化大屏,并且依據(jù)投放設(shè)備分辨率,自由定制大屏尺寸
4.多種數(shù)據(jù)源支持
無縫集成華為云數(shù)據(jù)倉庫服務(wù)、數(shù)據(jù)湖探索服務(wù)、關(guān)系型數(shù)據(jù)庫、對象存儲服務(wù)等,支持本地CSV、在線API及企業(yè)內(nèi)部私有云數(shù)據(jù)
通過以上案例,我們不難發(fā)現(xiàn),華為云大數(shù)據(jù)BI通過多維度的數(shù)據(jù)統(tǒng)計(jì)方式,能更加深入地了解到消費(fèi)者的消費(fèi)行為模式及趨勢。作為一種新興科技應(yīng)用場景,大數(shù)據(jù)BI正在成為未來智慧商業(yè)發(fā)展的重要方向之一,也將給傳統(tǒng)商業(yè)帶來革命性變革。
隨著新經(jīng)濟(jì)時代的到來,越來越多的人開始意識到“數(shù)字經(jīng)濟(jì)”所具有的巨大潛力,而大數(shù)據(jù)正是其中最關(guān)鍵的一環(huán),華為云以資源多與技術(shù)強(qiáng)的優(yōu)勢,能夠更好地為客戶提供差異化定制化服務(wù),提升企業(yè)市場競爭力,獲取更大市場份額。
剛好華為云的雙11活動還在繼續(xù),截止到11月30日,訪問華為云官網(wǎng)活動頁面就可領(lǐng)取10000元的滿減紅包:
還有數(shù)據(jù)庫、服務(wù)器、云安全等產(chǎn)品也有非常給力的優(yōu)惠,快點(diǎn)入手操作起來吧!