隔着超薄肉丝进入小说_男女刺激性视频大片_女教师的诱波多野结衣_一级欧美过瘾大片

當(dāng)前位置: 首頁(yè) / 技術(shù)干貨 / 正文
大數(shù)據(jù)的5V特征

2022-11-11

數(shù)據(jù) 處理   

  大數(shù)據(jù)現(xiàn)在并不是一個(gè)陌生的名詞了,這個(gè)詞語(yǔ)已經(jīng)“出圈”了,不僅僅是相關(guān)的從業(yè)人員對(duì)它很了解,即便是完全不懂IT技術(shù)的人,也都能夠說(shuō)出點(diǎn)大數(shù)據(jù)的東西來(lái)。我們?cè)谡務(wù)摯髷?shù)據(jù)的時(shí)候,避不開(kāi)的其實(shí)是大數(shù)據(jù)的特征,有些地方會(huì)提到大數(shù)據(jù)有4V的特征,而有些地方會(huì)提到有5V的特征。那么這里所謂的4V、5V都是什么呢?

好程序員

  其實(shí)這里所謂的4V、5V,是幾個(gè)單詞的縮寫(xiě): Volume、Variety、Value、Velocity、Veracity,因?yàn)檫@幾個(gè)單詞的首字母都是V,因此被我們稱為4V、5V的特征。在這里,我們就來(lái)聊一聊這5個(gè)V都表示什么含義:

  Volume

  中文翻譯是“大量”的意思,顧名思義,就是數(shù)據(jù)量非常的龐大。而這也是大數(shù)據(jù)的字面含義。我們知道在表示數(shù)據(jù)大小的時(shí)候,生活中常見(jiàn)的計(jì)量單位有KB、MB、GB、TB等,但是在此之上還有其他的單位,例如: PB、EB、ZB、YB、BB、NB、DB等。這些單位之間的換算率都是1024,也正是因此,人們會(huì)把每年的10月24日定為程序員節(jié)。我們每一個(gè)人在互聯(lián)網(wǎng)上進(jìn)行各種各樣的行為,都會(huì)留下數(shù)據(jù),而這些數(shù)據(jù)量雖然不算大,但是在龐大的用戶基數(shù)下,累計(jì)起來(lái)的還是非常龐大的。在一個(gè)中大型企業(yè)中,需要處理的數(shù)據(jù)規(guī)模是很容易達(dá)到PB、EB的級(jí)別的,而這也正是大數(shù)據(jù)的第一個(gè)特征: 大量。

  Variety

  中文翻譯是“多樣化”的意思。我們知道學(xué)習(xí)大數(shù)據(jù)就是來(lái)處理龐大的數(shù)據(jù)集的,那么組成這個(gè)龐大的數(shù)據(jù)集的數(shù)據(jù)是可以分為不同的類型的。我們把這些數(shù)據(jù)大致分為三類:結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。

  結(jié)構(gòu)化的數(shù)據(jù),一般指的是關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如MySQL、Oracle中的表中的數(shù)據(jù)。這些數(shù)據(jù)中,每一行的數(shù)據(jù)都保持著相同的數(shù)據(jù)格式,有規(guī)律可循,非常容易處理。

  半結(jié)構(gòu)化的數(shù)據(jù),指的是有一定的結(jié)構(gòu)性,但是比起關(guān)系型數(shù)據(jù)庫(kù)表中的結(jié)構(gòu)化的數(shù)據(jù)來(lái)說(shuō),結(jié)構(gòu)不是那么清晰,處理起來(lái)也比結(jié)構(gòu)化的數(shù)據(jù)略微麻煩。常見(jiàn)的半結(jié)構(gòu)化的數(shù)據(jù)有json、xml、html等。

  非結(jié)構(gòu)化的數(shù)據(jù),指的就是沒(méi)有絲毫結(jié)構(gòu)性可言的數(shù)據(jù)了。數(shù)據(jù)沒(méi)有固定的格式,通常需要我們單獨(dú)設(shè)計(jì)程序來(lái)處理這些數(shù)據(jù),從中提取出來(lái)有價(jià)值的信息。

  而我們?cè)诠ぷ髦幸幚淼臄?shù)據(jù),往往都是以半結(jié)構(gòu)化和非結(jié)構(gòu)化的居多。

  Value

  中文翻譯是“價(jià)值”的意思。這里其實(shí)有兩點(diǎn)體現(xiàn):價(jià)值密度低、商業(yè)價(jià)值高。

  大數(shù)據(jù)相關(guān)的技術(shù)體系,需要處理的數(shù)據(jù)量是非常龐大的,動(dòng)輒PB、EB規(guī)模的數(shù)據(jù),但是真正具有價(jià)值的數(shù)據(jù)卻非常稀少,只有100M,甚至更少。我們就需要從這么龐大的數(shù)據(jù)集中提取出來(lái)這些密度非常低的有價(jià)值的數(shù)據(jù)進(jìn)行處理。

  但是,也就是這些密度非常低的數(shù)據(jù),能夠發(fā)揮出來(lái)巨大的商業(yè)價(jià)值。這點(diǎn)其實(shí)也是來(lái)推動(dòng)大數(shù)據(jù)發(fā)展的重要的特征之一,因?yàn)檫@些大數(shù)據(jù)相關(guān)的技術(shù)體系可以給商人帶來(lái)巨大的利益,老板才愿意培養(yǎng)人來(lái)從事這個(gè)行業(yè);越來(lái)越多的人涌入到這個(gè)行業(yè),才能夠推動(dòng)這門(mén)技術(shù)不斷的向前發(fā)展。

  Velocity

  中文翻譯是“速度”的意思。我們要處理的數(shù)據(jù)集在很多情況下,并不是一潭死水,而是在不斷增長(zhǎng)的。對(duì)于一個(gè)企業(yè)來(lái)說(shuō),每天都會(huì)新增龐大的數(shù)據(jù),這些數(shù)據(jù)可能來(lái)自于用戶的操作、可能來(lái)自于智能家居、可能來(lái)自于各種傳感器等,數(shù)據(jù)的來(lái)源非常多,而且數(shù)據(jù)量的增速也是非常可怕的。以淘寶、京東這類的電商來(lái)說(shuō),每日新增的數(shù)據(jù)量達(dá)到幾百個(gè)GB是很正常的事情。在這樣快速的數(shù)據(jù)增長(zhǎng)的情況下,也對(duì)我們處理數(shù)據(jù)的速度有了較高的要求了。我們一定要優(yōu)化我們的業(yè)務(wù)邏輯,提高處理的速度,才不會(huì)造成數(shù)據(jù)積壓。

  Veracity

  中文翻譯是“真實(shí)性”的意思。大規(guī)模的數(shù)據(jù)量,在處理的時(shí)候,對(duì)技術(shù)體系是有較高的要求的。在還沒(méi)有形成現(xiàn)有的技術(shù)體系的年代,人們?cè)谔幚睚嫶蟮臄?shù)據(jù)集的時(shí)候,往往束手無(wú)策,要么實(shí)效性非常差,要么干脆無(wú)法處理。那個(gè)時(shí)代甚至流行一種做法:隨機(jī)抽樣。隨機(jī)的從龐大的數(shù)據(jù)集中抽取一部分出來(lái)進(jìn)行處理,以這樣的處理結(jié)果,作為整個(gè)數(shù)據(jù)集的處理結(jié)果。追求真實(shí)性的,可能會(huì)多隨機(jī)幾次。但是這個(gè)結(jié)果其實(shí)是不準(zhǔn)確的,并不能夠體現(xiàn)出這些數(shù)據(jù)完整的價(jià)值,甚至還可能得到錯(cuò)誤的結(jié)論。但是現(xiàn)在大數(shù)據(jù)的技術(shù)體系相對(duì)成熟,我們不再使用這樣的隨機(jī)抽樣的方式了。我們就是要對(duì)所有的數(shù)據(jù)進(jìn)行高效的處理,得出的結(jié)論自然也是正確的。

  以上就是大數(shù)據(jù)的特征,有人在聊特征的時(shí)候會(huì)提到4V的說(shuō)法,指的就是Volume、Variety、Value、Velocity。如果說(shuō)到5V特征的話,那就把Veracity加上就可以咯。

好程序員公眾號(hào)

  • · 剖析行業(yè)發(fā)展趨勢(shì)
  • · 匯聚企業(yè)項(xiàng)目源碼

好程序員開(kāi)班動(dòng)態(tài)

More+
IT培訓(xùn)IT培訓(xùn)
在線咨詢
IT培訓(xùn)IT培訓(xùn)
試聽(tīng)
IT培訓(xùn)IT培訓(xùn)
入學(xué)教程
IT培訓(xùn)IT培訓(xùn)
立即報(bào)名
IT培訓(xùn)

Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號(hào)-5 京公網(wǎng)安備 11010802035720號(hào)