大數(shù)據相關技術 大數(shù)據技術包括哪些

來源:互聯(lián)網

1、大數(shù)據技術包括數(shù)據收集、數(shù)據存取、基礎架構、數(shù)據處理、統(tǒng)計分析、數(shù)據挖掘、模型預測、結果呈現(xiàn)。

2、數(shù)據收集:在大數(shù)據的生命周期中,數(shù)據采集處于第一個環(huán)節(jié)。


(資料圖)

3、根據MapReduce產生數(shù)據的應用系統(tǒng)分類,大數(shù)據的采集主要有4種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學實驗系統(tǒng)。

4、2、數(shù)據存取:大數(shù)據的存去采用不同的技術路線,大致可以分為3類。

5、第1類主要面對的是大規(guī)模的結構化數(shù)據。

6、第2類主要面對的是半結構化和非結構化數(shù)據。

7、第3類面對的是結構化和非結構化混合的大數(shù)據,3、基礎架構:云存儲、分布式文件存儲等。

8、4、數(shù)據處理:對于采集到的不同的數(shù)據集,可能存在不同的結構和模式,如文件、XML 樹、關系表等,表現(xiàn)為數(shù)據的異構性。

9、對多個異構的數(shù)據集,需要做進一步集成處理或整合處理,將來自不同數(shù)據集的數(shù)據收集、整理、清洗、轉換后,生成到一個新的數(shù)據集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據視圖。

10、5、統(tǒng)計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術等等。

11、6、數(shù)據挖掘:目前,還需要改進已有數(shù)據挖掘和機器學習技術;開發(fā)數(shù)據網絡挖掘、特異群組挖掘、圖挖掘等新型數(shù)據挖掘技術;突破基于對象的數(shù)據連接、相似性連接等大數(shù)據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數(shù)據挖掘技術。

12、7、模型預測:預測模型、機器學習、建模仿真。

13、8、結果呈現(xiàn):云計算、標簽云、關系圖等。

本文到此分享完畢,希望對大家有所幫助。

標簽:

推薦

財富更多》

動態(tài)更多》

熱點