2020-09-28
大數(shù)據(jù)培訓(xùn) Hadoop
好程序員大數(shù)據(jù)培訓(xùn)分享Hadoop常見問題解答,Hadoop的常見問題有很多,以前也曾給讀者們分享過一些,本篇文章小編繼續(xù)給讀者們分享一些Hadoop常見問題解答,感興趣的小伙伴就來了解一下吧。
1、100個(gè)以上hadoop節(jié)點(diǎn),一般怎么開發(fā),運(yùn)維?任務(wù)很多的情況下任務(wù)資源怎么分配,任務(wù)執(zhí)行順序是定時(shí)腳本還是別的什么方式控制?
a.首先大數(shù)據(jù)的應(yīng)用開發(fā)和hadoop集群的規(guī)模是沒有關(guān)系,你指的是集群的搭建和運(yùn)維嗎,對(duì)于商用的hadoop系統(tǒng)來說涉及到很多東西。
b.任務(wù)的分配是有hadoop的調(diào)度器的調(diào)度策略決定的,默認(rèn)為FIFO調(diào)度,商業(yè)集群一般使用多隊(duì)列多用戶調(diào)度器。
c.任務(wù)的執(zhí)行順序是有用戶控制的,你自然可以定時(shí)啟動(dòng),也可以手動(dòng)啟動(dòng)。
2、基于Hadoop做開發(fā),是否必須會(huì)使用Java,使用其他開發(fā)語言是否無法更好的融入整個(gè)Hadoop的開發(fā)體系?
基于Hadoop做開發(fā)可以使用任何語言,因?yàn)閔adoop提高了streaming編程框架和pipes編程接口,streaming框架下用戶可以使用任何可以操作標(biāo)準(zhǔn)輸入輸出的計(jì)算機(jī)語言來開發(fā)hadoop應(yīng)用。
3、在reduce階段老是卡在最后階段很長(zhǎng)時(shí)間,在網(wǎng)上查的說是有可能是數(shù)據(jù)傾斜,我想問這個(gè)有啥解決方法嗎?
a.你這個(gè)就是數(shù)據(jù)傾斜啊,好多數(shù)據(jù)都集中在一個(gè)reduce里其他reduce里分配的數(shù)據(jù)比較少。默認(rèn)情況下決定哪些數(shù)據(jù)分配到哪個(gè)reduce是由reduce個(gè)數(shù)和partiiton分區(qū)決定的默認(rèn)是對(duì)key進(jìn)行hash運(yùn)算,一般情況下用mapreuce傾斜很少除非你用的HIVE。
b.reduce分為3個(gè)子階段:shuffle、sort和reduce,如果reduce整個(gè)過程耗時(shí)較長(zhǎng),建議先看一下監(jiān)控界面是卡在哪個(gè)階段,如果是卡在shuffle階段往往是網(wǎng)絡(luò)阻塞問題,還有就是某reduce數(shù)據(jù)量太大,也就是你所說的數(shù)據(jù)傾斜問題,這種問題往往因?yàn)槟硞€(gè)key的value太多,解決方法是:diyi,默認(rèn)的partiiton可能不適合你的需求,你可以自定義partiiton;第二就是在map端截?cái)啵M量讓達(dá)到每個(gè)reduce端的數(shù)據(jù)分布均勻。
4、非大數(shù)據(jù)的項(xiàng)目能否用hadoop?
非大數(shù)據(jù)項(xiàng)目是否可以用Hadoop的關(guān)鍵問題在于是否有海量數(shù)據(jù)的存儲(chǔ),計(jì)算,以及分析挖掘等需求,如果現(xiàn)有系統(tǒng)已經(jīng)很好滿足當(dāng)前需求那么就沒有必要使用Hadoop,沒有必要使用并不意味這不能使用Hadoop,很多傳統(tǒng)系統(tǒng)能做的Hadoop也是可以做的。
例如使用HDFS來代替LINUX NFS,使用MapReduce來代替單服務(wù)器的統(tǒng)計(jì)分析相關(guān)任務(wù),使用Hbase代替Mysql等關(guān)系數(shù)據(jù)庫(kù)等,在數(shù)據(jù)量不大的情況下通常Hadoop集群肯定比傳統(tǒng)系統(tǒng)消耗更多的資源。
5、hadoopmapreduce和第三方資源管理調(diào)度系統(tǒng)如何集成?
Hadoop的調(diào)度器設(shè)計(jì)的一個(gè)原則就是可插拔式調(diào)度器框架,因此是很容易和第三方調(diào)度器集成的,例如公平調(diào)度器FairScheduler和容量調(diào)度器CapacityScheduler,并配置mapred-site.xml的mapreduce.jobtracker.taskscheduler以及調(diào)度器本身的配置參數(shù)。
開班時(shí)間:2021-04-12(深圳)
開班盛況開班時(shí)間:2021-05-17(北京)
開班盛況開班時(shí)間:2021-03-22(杭州)
開班盛況開班時(shí)間:2021-04-26(北京)
開班盛況開班時(shí)間:2021-05-10(北京)
開班盛況開班時(shí)間:2021-02-22(北京)
開班盛況開班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開班時(shí)間:2020-09-21(上海)
開班盛況開班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開班時(shí)間:2019-07-22(北京)
開班盛況Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號(hào)-5 京公網(wǎng)安備 11010802035720號(hào)