簡介:E-MapReduce 推出面向開源大數(shù)據(jù)集群的智能運(yùn)維診斷系統(tǒng) E-MapReduce Doctor,有效提升大數(shù)據(jù)集群運(yùn)維效率,輔助 EMR 用戶完善集群監(jiān)控體系。
大數(shù)據(jù)運(yùn)維的挑戰(zhàn)—如何保證集群穩(wěn)定與運(yùn)行效率
企業(yè)級大數(shù)據(jù)集群通常擁有海量的數(shù)據(jù)存儲、日常運(yùn)算成干上萬的計(jì)算任務(wù),需要滿足各類上層業(yè)務(wù)的計(jì)算需求。對于這類集群的運(yùn)維往往充滿著挑戰(zhàn):海量的數(shù)據(jù)、龐雜的組件以及組件之間復(fù)雜的依賴關(guān)系、對于時效要求的的運(yùn)算任務(wù),都會提升運(yùn)維難度。作為支撐平臺,大數(shù)據(jù)集群的穩(wěn)定性和運(yùn)行效率,會直接影響到公司業(yè)務(wù)的正常運(yùn)作和發(fā)展。
集群管理員往往對整體集群做好了監(jiān)控運(yùn)維體系,對于大數(shù)據(jù)集群,簡單的監(jiān)控運(yùn)維體系能夠幫助管理員在遇到故障的時候定位問題。但對于整體集群的運(yùn)行效率,集群的狀態(tài),通過單純的監(jiān)控指標(biāo)很難給出一個全面的解答。
對于大數(shù)據(jù)集群,管理員以及 CIO 等更關(guān)注以下的內(nèi)容:
● 集群內(nèi)的節(jié)點(diǎn)的運(yùn)行狀態(tài)和資源使用狀況;
● 運(yùn)行在集群上的服務(wù)組件的狀態(tài)監(jiān)控和異常處理,包括 YARN、HDFS、Hive 和 Spark 等;
● 計(jì)算任務(wù)運(yùn)行情況和執(zhí)行效率;
● 整體集群的健康程度和如何改進(jìn)。
面對運(yùn)維挑戰(zhàn),EMR重磅推出:智能運(yùn)維診斷系統(tǒng)(EMR Doctor)
為了提升大數(shù)據(jù)集群運(yùn)維效率,輔助 EMR 用戶完善集群監(jiān)控體系。E-MapReduce 推出面向開源大數(shù)據(jù)集群的智能運(yùn)維診斷系統(tǒng) E-MapReduce Doctor(簡稱EMR Doctor)。 EMR Doctor 作為開源大數(shù)據(jù)集群的管家,會自動每日巡檢集群。集群管理員只需要定期查看健康檢查報告,并且根據(jù)報告中的建議對集群做相應(yīng)的優(yōu)化調(diào)整,即可全局了解集群的健康狀況和動態(tài)走勢,并保持集群的健康度。
如何使用 EMR Doctor
進(jìn)入 EMR 控制臺健康檢查頁面。
登錄 EMR on ECS 控制臺。
在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
在集群管理頁面,單擊目標(biāo)集群的集群ID。
單擊上方的健康檢查頁簽。
在健康檢查頁面,您可以看到當(dāng)前集群的健康檢查報告(T+1)。健康狀態(tài)列顯示了該集群的健康度,您可以點(diǎn)擊查看報告進(jìn)入檢查報告頁面。
健康檢查報告中包含集群計(jì)算資源的總體分析
健康檢查報告中包含計(jì)算任務(wù)從各個維度的排名并給出任務(wù)調(diào)優(yōu)建議
健康檢查報告中包含對集群存儲的總體分析,以及大小文件和冷熱數(shù)據(jù)的詳細(xì)分析
健康檢查報告主要分析內(nèi)容如下,更詳細(xì)說明請參見查看健康檢查狀態(tài)和報告
計(jì)算資源分析
概述
狀態(tài)概述
需要關(guān)注的問題
計(jì)算基礎(chǔ)信息
集群計(jì)算評分
集群算力內(nèi)存時
集群算力CPU時
計(jì)算引擎內(nèi)存算力時
計(jì)算任務(wù)信息
計(jì)算任務(wù)算力內(nèi)存時分析
計(jì)算任務(wù)評分排行榜
Spark
Spark任務(wù)算力分析及調(diào)優(yōu)建議
Tez
Tez任務(wù)算力分析及調(diào)優(yōu)建議
MapReduce
MapReduce任務(wù)算力分析及調(diào)優(yōu)建議
HDFS存儲資源分析
(需開啟存儲資源信息采集開關(guān))
概述
狀態(tài)概述
需要關(guān)注的問題
HDFS基礎(chǔ)信息
HDFS存儲資源使用趨勢
文件總數(shù)隨時間變化趨勢
評分趨勢
HDFS文件大小分布
HDFS文件大小比例
一級目錄空文件個數(shù)Top10
一級目錄極小文件個數(shù)Top10
一級目錄小文件個數(shù)Top10
一級目錄中等文件個數(shù)Top10
一級目錄大文件個數(shù)Top10
HDFS冷熱數(shù)據(jù)分布
HDFS冷熱數(shù)據(jù)
一級目錄極冷數(shù)據(jù)大小Top10
一級目錄冷數(shù)據(jù)大小Top10
一級目錄溫數(shù)據(jù)大小Top10
一級目錄熱數(shù)據(jù)大小Top10
HIVE存儲資源分析
(需開啟存儲資源信息采集開關(guān))
概述
狀態(tài)概述
需要關(guān)注的問題
Hive基礎(chǔ)信息
存儲趨勢
文件數(shù)量趨勢
評分趨勢
Hive庫信息
庫存儲排名
庫文件總數(shù)排名
庫評分
Hive表文件大小分布
Hive表文件大小分布比例
Hive表空文件個數(shù)Top10
Hive表極小文件個數(shù)Top10
Hive表小文件個數(shù)Top10
Hive中等文件個數(shù)Top10
Hive大文件個數(shù)Top10
Hive冷熱數(shù)據(jù)分布
Hive冷熱數(shù)據(jù)分布
Hive表極冷數(shù)據(jù)大小Top10
Hive表冷數(shù)據(jù)大小Top10
Hive表溫數(shù)據(jù)大小Top10
Hive表熱數(shù)據(jù)大小Top10
Hive表存儲格式分布
Hive表存儲格式分布
Hive表TextFile/Parquet/ORC格式文件分析