2022-11-11
數(shù)據(jù) 處理
大數(shù)據(jù)現(xiàn)在并不是一個(gè)陌生的名詞了,這個(gè)詞語(yǔ)已經(jīng)“出圈”了,不僅僅是相關(guān)的從業(yè)人員對(duì)它很了解,即便是完全不懂IT技術(shù)的人,也都能夠說(shuō)出點(diǎn)大數(shù)據(jù)的東西來(lái)。我們?cè)谡務(wù)摯髷?shù)據(jù)的時(shí)候,避不開(kāi)的其實(shí)是大數(shù)據(jù)的特征,有些地方會(huì)提到大數(shù)據(jù)有4V的特征,而有些地方會(huì)提到有5V的特征。那么這里所謂的4V、5V都是什么呢?
其實(shí)這里所謂的4V、5V,是幾個(gè)單詞的縮寫(xiě): Volume、Variety、Value、Velocity、Veracity,因?yàn)檫@幾個(gè)單詞的首字母都是V,因此被我們稱為4V、5V的特征。在這里,我們就來(lái)聊一聊這5個(gè)V都表示什么含義:
Volume
中文翻譯是“大量”的意思,顧名思義,就是數(shù)據(jù)量非常的龐大。而這也是大數(shù)據(jù)的字面含義。我們知道在表示數(shù)據(jù)大小的時(shí)候,生活中常見(jiàn)的計(jì)量單位有KB、MB、GB、TB等,但是在此之上還有其他的單位,例如: PB、EB、ZB、YB、BB、NB、DB等。這些單位之間的換算率都是1024,也正是因此,人們會(huì)把每年的10月24日定為程序員節(jié)。我們每一個(gè)人在互聯(lián)網(wǎng)上進(jìn)行各種各樣的行為,都會(huì)留下數(shù)據(jù),而這些數(shù)據(jù)量雖然不算大,但是在龐大的用戶基數(shù)下,累計(jì)起來(lái)的還是非常龐大的。在一個(gè)中大型企業(yè)中,需要處理的數(shù)據(jù)規(guī)模是很容易達(dá)到PB、EB的級(jí)別的,而這也正是大數(shù)據(jù)的第一個(gè)特征: 大量。
Variety
中文翻譯是“多樣化”的意思。我們知道學(xué)習(xí)大數(shù)據(jù)就是來(lái)處理龐大的數(shù)據(jù)集的,那么組成這個(gè)龐大的數(shù)據(jù)集的數(shù)據(jù)是可以分為不同的類型的。我們把這些數(shù)據(jù)大致分為三類:結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。
結(jié)構(gòu)化的數(shù)據(jù),一般指的是關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如MySQL、Oracle中的表中的數(shù)據(jù)。這些數(shù)據(jù)中,每一行的數(shù)據(jù)都保持著相同的數(shù)據(jù)格式,有規(guī)律可循,非常容易處理。
半結(jié)構(gòu)化的數(shù)據(jù),指的是有一定的結(jié)構(gòu)性,但是比起關(guān)系型數(shù)據(jù)庫(kù)表中的結(jié)構(gòu)化的數(shù)據(jù)來(lái)說(shuō),結(jié)構(gòu)不是那么清晰,處理起來(lái)也比結(jié)構(gòu)化的數(shù)據(jù)略微麻煩。常見(jiàn)的半結(jié)構(gòu)化的數(shù)據(jù)有json、xml、html等。
非結(jié)構(gòu)化的數(shù)據(jù),指的就是沒(méi)有絲毫結(jié)構(gòu)性可言的數(shù)據(jù)了。數(shù)據(jù)沒(méi)有固定的格式,通常需要我們單獨(dú)設(shè)計(jì)程序來(lái)處理這些數(shù)據(jù),從中提取出來(lái)有價(jià)值的信息。
而我們?cè)诠ぷ髦幸幚淼臄?shù)據(jù),往往都是以半結(jié)構(gòu)化和非結(jié)構(gòu)化的居多。
Value
中文翻譯是“價(jià)值”的意思。這里其實(shí)有兩點(diǎn)體現(xiàn):價(jià)值密度低、商業(yè)價(jià)值高。
大數(shù)據(jù)相關(guān)的技術(shù)體系,需要處理的數(shù)據(jù)量是非常龐大的,動(dòng)輒PB、EB規(guī)模的數(shù)據(jù),但是真正具有價(jià)值的數(shù)據(jù)卻非常稀少,只有100M,甚至更少。我們就需要從這么龐大的數(shù)據(jù)集中提取出來(lái)這些密度非常低的有價(jià)值的數(shù)據(jù)進(jìn)行處理。
但是,也就是這些密度非常低的數(shù)據(jù),能夠發(fā)揮出來(lái)巨大的商業(yè)價(jià)值。這點(diǎn)其實(shí)也是來(lái)推動(dòng)大數(shù)據(jù)發(fā)展的重要的特征之一,因?yàn)檫@些大數(shù)據(jù)相關(guān)的技術(shù)體系可以給商人帶來(lái)巨大的利益,老板才愿意培養(yǎng)人來(lái)從事這個(gè)行業(yè);越來(lái)越多的人涌入到這個(gè)行業(yè),才能夠推動(dòng)這門(mén)技術(shù)不斷的向前發(fā)展。
Velocity
中文翻譯是“速度”的意思。我們要處理的數(shù)據(jù)集在很多情況下,并不是一潭死水,而是在不斷增長(zhǎng)的。對(duì)于一個(gè)企業(yè)來(lái)說(shuō),每天都會(huì)新增龐大的數(shù)據(jù),這些數(shù)據(jù)可能來(lái)自于用戶的操作、可能來(lái)自于智能家居、可能來(lái)自于各種傳感器等,數(shù)據(jù)的來(lái)源非常多,而且數(shù)據(jù)量的增速也是非常可怕的。以淘寶、京東這類的電商來(lái)說(shuō),每日新增的數(shù)據(jù)量達(dá)到幾百個(gè)GB是很正常的事情。在這樣快速的數(shù)據(jù)增長(zhǎng)的情況下,也對(duì)我們處理數(shù)據(jù)的速度有了較高的要求了。我們一定要優(yōu)化我們的業(yè)務(wù)邏輯,提高處理的速度,才不會(huì)造成數(shù)據(jù)積壓。
Veracity
中文翻譯是“真實(shí)性”的意思。大規(guī)模的數(shù)據(jù)量,在處理的時(shí)候,對(duì)技術(shù)體系是有較高的要求的。在還沒(méi)有形成現(xiàn)有的技術(shù)體系的年代,人們?cè)谔幚睚嫶蟮臄?shù)據(jù)集的時(shí)候,往往束手無(wú)策,要么實(shí)效性非常差,要么干脆無(wú)法處理。那個(gè)時(shí)代甚至流行一種做法:隨機(jī)抽樣。隨機(jī)的從龐大的數(shù)據(jù)集中抽取一部分出來(lái)進(jìn)行處理,以這樣的處理結(jié)果,作為整個(gè)數(shù)據(jù)集的處理結(jié)果。追求真實(shí)性的,可能會(huì)多隨機(jī)幾次。但是這個(gè)結(jié)果其實(shí)是不準(zhǔn)確的,并不能夠體現(xiàn)出這些數(shù)據(jù)完整的價(jià)值,甚至還可能得到錯(cuò)誤的結(jié)論。但是現(xiàn)在大數(shù)據(jù)的技術(shù)體系相對(duì)成熟,我們不再使用這樣的隨機(jī)抽樣的方式了。我們就是要對(duì)所有的數(shù)據(jù)進(jìn)行高效的處理,得出的結(jié)論自然也是正確的。
以上就是大數(shù)據(jù)的特征,有人在聊特征的時(shí)候會(huì)提到4V的說(shuō)法,指的就是Volume、Variety、Value、Velocity。如果說(shuō)到5V特征的話,那就把Veracity加上就可以咯。
開(kāi)班時(shí)間:2021-04-12(深圳)
開(kāi)班盛況開(kāi)班時(shí)間:2021-05-17(北京)
開(kāi)班盛況開(kāi)班時(shí)間:2021-03-22(杭州)
開(kāi)班盛況開(kāi)班時(shí)間:2021-04-26(北京)
開(kāi)班盛況開(kāi)班時(shí)間:2021-05-10(北京)
開(kāi)班盛況開(kāi)班時(shí)間:2021-02-22(北京)
開(kāi)班盛況開(kāi)班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開(kāi)班時(shí)間:2020-09-21(上海)
開(kāi)班盛況開(kāi)班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開(kāi)班時(shí)間:2019-07-22(北京)
開(kāi)班盛況Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號(hào)-5 京公網(wǎng)安備 11010802035720號(hào)