<ruby id="zx91x"></ruby><p id="zx91x"></p>
<p id="zx91x"></p>
<pre id="zx91x"><ruby id="zx91x"><mark id="zx91x"></mark></ruby></pre>

<p id="zx91x"><del id="zx91x"></del></p>

        <track id="zx91x"><ruby id="zx91x"></ruby></track>

            <pre id="zx91x"><ruby id="zx91x"></ruby></pre>

            <track id="zx91x"><del id="zx91x"></del></track>

              <big id="zx91x"><ruby id="zx91x"></ruby></big>

                  關于數據分析心得體會(精選范文6篇)

                  時間:2016-07-10 工作體會 點擊:

                  以下是為大家整理的關于數據分析心得體會6篇 , 供大家參考選擇。

                  數據分析心得體會6篇

                  數據分析心得體會篇1

                  《大數據時代》心得體會

                  信息時代的到來,我們感受到的是技術變化日新月異,隨之而來的是生活方式的轉變,我們這樣評論著的信息時代已經變為曾經。如今,大數據時代成為炙手可熱的話題。

                  信息和數據的定義。維基百科解釋:信息,又稱資訊,是一個高度概括抽象概念,是一個發展中的動態范疇,是進行互相交換的內容和名稱,信息的界定沒有統一的定義,但是信息具備客觀、動態、傳遞、共享、經濟等特性卻是大家的共識。數據:或稱資料,指描述事物的符號記錄,是可定義為意義的實體,它涉及到事物的存在形式。它是關于事件之一組離散且客觀的事實描述,是構成信息和知識的原始材料。數據可分為模擬數據和數字數據兩大類。數據指計算機加工的“原料”,如圖形、聲音、文字、數、字符和符號等。從定義看來,數據是原始的處女地,需要耕耘。信息則是已經處理過的可以傳播的資訊。信息時代依賴于數據的爆發,只是當數據爆發到無法駕馭的狀態,大數據時代應運而生。

                  在大數據時代,大數據時代區別與轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道“是什么”,而不需要知道“為什么”。數據的更多、更雜,導致應用主意只能盡量觀察,而不是傾其所有進行推理。小數據停留在說明過去,大數據用驅動過去來預測未來。數據的用途意在何為,與數據本身無關,而與數據的解讀者有關,而相關關系更有利于預測未來。大數據更多的體現在海量非結構化數據本身與處理方法的整合。大數據更像是理論與現實齊頭并進,理論來創立處理非結構化數據的方法,處理結果與未來進行驗證。大數據是在互聯網背景下數據從量變到質變的過程。小數據時代也即是信息時代,是大數據時代的前提,大數據時代是升華和進化,本質是相輔相成,而并非相離互斥。

                  數據未來的故事。數據的發展,給我們帶來什么預期和啟示?金融業業天然有大數據的潛質。客戶數據、交易數據、管理數據等海量數據不斷增長,海量機遇和挑戰也隨之而來,適應變革,適者生存。我們可以有更廣闊的學習空間、可以有更精準的決策判斷能力這些都基于數據的收集、整理、駕馭、分析能力,基于脫穎而出的創新思維和執行。因此,建設“數據倉庫”,培養“數據思維”,養成“數據治理”,創造“數據融合”,實現“數據應用”才能擁抱“大數據”時代,從數據中攫取價值,笑看風云變換,穩健贏取未來。

                  數據分析心得體會篇2

                  大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著互聯網、移動互聯網、傳感器、物聯網、社交網站、云計算等的興起,我們這個社會的幾乎所有方面都已數字化,產生了大量新型、實時的數據。無疑,我們已身處在大數據的海洋。?

                  有兩個重要的趨勢使得目前的這個時代(大數據時代)與之前有顯著的差別:其一,社會生活的廣泛數字化,其產生數據的規模、復雜性及速度都已遠遠超過此前的任何時代;其二,人類的數據分析技術和工藝使得各機構、組織和企業能夠以從前無法達到的復雜度、速度和精準度從龐雜的數據中獲得史無前例的洞察力和預見性。?

                  大數據是技術進步的產物,而其中的關鍵是云技術的進步。在云技術中,虛擬化技術乃最基本、最核心的組成部份。計算虛擬化、存儲虛擬化和網絡虛擬化技術,使得大數據在數據存儲、挖掘、分析和應用分享等方面不僅在技術上可行,在經濟上也可接受。?

                  在人類文明史上,人類一直執著探索我們處的世界以及人類自身,一直試圖測量、計量這個世界以及人類自身,試圖找到隱藏其中的深刻關聯、運行規律及終極答案。大數據以其人類史上從未有過的龐大容量、極大的復雜性、快速的生產及經濟可得性,使人類第一次試圖從總體而非樣本,從混雜性而非精確性,從相關關系而非因果關系來測量、計量我們這個世界。人類的思維方式、行為方式及社會生活的諸多形態(當然包括商業活動)正在開始發生新的變化。或許是一場革命性、顛覆性的變化。從這個意義上講,大數據不僅是一場技術運動,更是一次哲學創新。

                  1?大數據的概述?

                  1.1?大數據的概念?

                  ????大數據(Big?Data)是指那些超過傳統數據庫系統處理能力的數據。它的數據規模和轉輸速度要求很高,或者其結構不適合原本的數據庫系統。為了獲取大數據中的價值,我們必須選擇另一種方式來處理它。?

                  ????數據中隱藏著有價值的模式和信息,在以往需要相當的時間和成本才能提取這些信息。如沃爾瑪或谷歌這類領先企業都要付高昂的代價才能從大數據中挖掘信息。而當今的各種資源,如硬件、云架構和開源軟件使得大數據的處理更為方便和廉價。即使是在車庫中創業的公司也可以用較低的價格租用云服務時間了。?

                  ????對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。對大數據進行分析能揭示隱藏其中的信息,例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數據的二次開發則是那些成功的網絡公司的長項。例如Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式。這種通過大數據創造出新產品和服務的商業行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數據時代的創新者。?

                  1.2?大數據的三層關系?

                  第一層關系:數據與機器的關系。大數據紀元剛開始,產業界碰到的第一個核心問題就是“大”的問題。做了幾十年的數據倉庫甚至海量并行處理的數據庫都不能處理那么大的數據,怎么辦?需要范式切換。主要有三個方面,新型的數據與機器關系當中的第一條就是重新考慮架構與算法,重新考慮舍得,有舍才能得,天下沒有免費的午餐,所以必須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型機和UNIX服務器,得到平民化的更大量的X86服務器。通過這樣一種可橫向、可水平擴展服務器處理每兩年翻番的數據量的挑戰。第二個舍得是舍棄硬件的可靠性和可用性,得到軟件的可靠性和可用性。這也就是谷歌三大論文以及Hadoop的核心重點。第三個舍得是舍棄傳統數據庫的強一致性,獲得更放松一致性、可擴展架構,如NoSQL。第四個舍得是傳統算法強調非常嚴格的精確性,現在要放棄一些精確性,通過近似、采樣這種方式來獲得更好的擴展性。?

                  最早大數據的處理范式是Mapreduce的批量處理,英特爾慢慢有其他的需求,實時的流處理、多迭代的處理、圖計算、即時查詢等等新的范式百花齊放,最后萬法歸宗。剛才王斌老師將講的SAP的HANA本身就是數據管理和分析的融合,現在非常流行的Hadoop之后的SPARK,就是把前面的各種范式進行了融合。

                  存儲與內存的消長,大數據第一個要解決把數據存儲下來,后來發現要把它放到大的內存里進行處理,獲得實時性,接著在存儲和內存之間現在又出現了閃存,有閃存化甚至全閃存的存儲,也有閃存化的內存,把所有的計算在閃存里面處理,已經被微軟、Facebook等等大量使用。大家可以預期,兩年以后出現新的非易失性的閃存,它的速度可能要比閃存快幾百倍,和內存相似,這又會極大地顛覆數據與機器的關系。?

                  第二層關系:數據與人的關系。主要是價值的覺醒,如果數據不能產生價值它可能是負面資產。數據怎么能夠給人帶來價值?我們介紹一下它的價值維度,把它映射到二維的時空象限里,用六個關鍵詞來描述它。第一是“Volume”,兩個關鍵詞,小數據見微對個人進行刻劃,大數據知著能夠了解宏觀規律,它是空間概念,同時也是時間概念,數據剛剛產生的時候,它的個性化價值、見微的價值最大,而隨著時間的推移,它漸漸退化到只有集合價值。第二是Velocity,時間軸的原點是當下實時價值,副軸是過往,正軸是預測未來,如果知道知前后就能夠做到萬物的皆明。第三是Variety,多源異質的數據,能夠過濾噪聲、查漏補缺、去偽存真,就是辯訛。還有曉意,能夠從大量的非結構化數據中獲得語意,從而能夠使機器窺探人的思維境界,這六個價值維度怎么去實現?主要是兩部分人,一是數據科學家要洞察數據,另外一個是終端用戶和領域專家要去解讀數據并利用數據。首先看洞察數據,數據科學,人和機器作用發生了消長,講個例子,機器學習大家覺得是機器的問題,其實人在里面起到很重要的作用,尤其是機器學習是模型加特征,而特征工程是一個人力工程,你要有經驗非常豐富的特征團隊去死磕特征,找出更好、更多的特征,才能夠使機器學習的效果更好。但是現在深度學習這些新技術出來,能夠用機器學習特征,能夠在大量非結構化數據中找到豐富的信息維度用特征表達出來,這遠遠超出了人的能力。大家知道黑客帝國描述了一個場景,人腦袋后面插一個插頭,給機器提供營養,我可能不會那么悲觀,但是像這樣的互動關系以一種更良性的方式出現了,現在人的一言一行、社交行為、金融行為都已經成為機器的養料、機器的數據,使得機器獲得更好的洞察。?

                  終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數據的會,基本上都是Hadoop和NoSQL現在大家參加大數據會可以看到清一色的分析工具和可視化工具。大數據跟各行各業的化學作用正在發生。如果馬化騰說“互聯網+”是互聯網與各行各業的加法效應,那么大數據將與各行各業產生乘法效應。?

                  第三個關系,數據與數據的關系。現在只有海面平的數據是搜索引擎可以檢索到,深海的數據可能是黑暗的數據,在政府、在企業里大家看不到。我們怎么辦呢?必須讓數據發現數據。只有讓數據能夠發現數據、遇到數據,才能產生金風玉露一相逢、便勝卻人間無數的效果。這里有三個重要的觀念,需要法律、技術、經濟理論和實踐上配合。法律上要明確數據的權利,數據所有權,數據的隱私權,什么數據不能給你看;數據的許可權,什么數據是可以給你看的;數據的審計權,我給你看了以后,你是不是按照許可的范圍去看;數據的分紅權。數據像原油又不同于原油,原油用完了就沒有了,數據可以反復地產生價值,因此數據的擁有者應該得到分紅。我們要保證數據的開放、共享、交易。?公共數據和部分科研數據要開放,開放過程中注意保護隱私。企業之間可以進行數據的點對點共享,最高境界是不丟失數據的所有權和隱私權的前提下共享,這里有多方安全計算的概念。1982年姚期智老先生提出了百萬富翁的窘境的問題,兩個百萬富翁他們想要比誰更富,但是誰都不愿意說出來自己都多少錢,在我們的數據共享當中要通過各種各樣的技術達到這樣的效果。還有數據交易,建立多邊多邊平臺來支持數據交易。?

                  互聯網能發展起來經濟學理論和實踐是很重要的支撐,梅特卡夫定律決定了一個互聯網公司的價值,跟它用戶數的平方成正比,又比如說谷歌請最好的經濟學家,它的一個廣告業務的核心就是建立在一個非常先進的拍賣經濟學的模型基礎上。數據經濟也需要這樣一些基礎的理論,比如數據定價和信息定價不一樣,信息做一個咨詢報告5000美金賣給你,可以賣給所有人。但數據對不同的單位價值不一樣,可能我之毒藥是彼之蜜糖。另外估值,一個企業擁有大量的數據,是無形資產的一部分,對于企業的市場價值帶來了多大的增長。?

                  1.3?大數據的四個特性?

                  大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定義,在對數據描述的基礎上加入了處理此類數據的一些特征,用這些特征來描述大數據。當前,較為統一的認識是大數據有四個基本特征:?數據規模大(?Volume)?,數據種類多(?Variety)?,數據要求處理速度快(?Velocity)?,數據價值密度低(?Value)?,即所謂的四V?特性。?

                  數據規模大(?Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。?

                  數據種類多(?Variety):一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。?

                  處理速度快(?Velocity):高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS?Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。?

                  數據價值密度低(?Value):大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值。?

                  1.4?大數據的三個特征?

                  除了有四個特性之外,大數據時代的數據還呈現出其他三個特征。?

                  第一個特征是數據類型繁多。包括網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求.??

                  第二個特征是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。??

                  第三個特征是處理速度快,時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。?

                  2?大數據的技術與處理?

                  2.1?大數據的技術?

                  1.數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。?

                  2.數據存取:關系數據庫、NOSQL、SQL等。?????

                  3.基礎架構:云存儲、分布式文件存儲等。?

                  4.數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage?Understanding),也稱為計算語言學(Computational?Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI,?Artificial?Intelligence)的核心課題之一。?

                  5.統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。?

                  6.數據挖掘:分類?(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity?grouping?or?association?rules)、聚類(Clustering)、描述和可視化、Description?and?Visualization)、復雜數據類型挖掘(Text,?Web?,圖形圖像,視頻,音頻等)。???

                  7.模型預測:預測模型、機器學習、建模仿真。????

                  8.結果呈現:云計算、標簽云、關系圖等。?

                  2.2?大數據的處理?

                  1.采集?

                  大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。?

                  在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。?

                  2.導入/預處理?

                  雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。?導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。?

                  3.統計/分析?

                  統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。?統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。?

                  4.挖掘?

                  與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。?

                  整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。?

                  3?大數據的應用??

                  正如諸多文獻所談到的,大數據對許多行業的影響和沖擊已經呈現。例如,商零售、物流、醫藥、文化產業等。金融,作為現代經濟中樞,其實也已透出了大數據金融的曙光。?

                  過去的2013年,中國金融界熱議最多的或許是互聯網金融,更有人指出2013年是中國互聯網金融元年。確實,第三方支付、P2P、網貸、眾籌融資、余額寶、微信支付等發展迅速。眾多傳統金融業者也或推出自己的電商平臺,或與互聯網企業聯手提供相應的金融產品和服務。?

                  互聯網金融,無論是業界、監管者或理論界,都在試圖給出自己的理解和定義。但到目前為止,尚未有一個統一的、規范的概念。在我看來,互聯網金融本來就是一個不確切的概念,也不可能有一個明確的定義。嚴格說來,所謂互聯網金融只是大數據金融的一種展現或形態。換言之,前者是表,后者是里。?

                  這是因為,無論是互聯網還是金融業,其實質都是大數據(信息)。首先,對互聯網企業而言,流量、客戶等數據(信息)是其涉足金融業的基石。對金融企業而言,提供中介服務,撮合金融交易也是以數據(信息)為基礎。其次,沒有大數據技術的支撐,所謂互聯網金融也難以快速、持續成長。20世紀90年代互聯網浪潮的蓬勃興起,至今已近二十年。但從世界范圍看,所謂互聯網金融卻發展緩慢。當然,其中原因很多,但其主要原因則是大數據技術是近幾年才快速發展起來的。最后,從金融企業來看,在數據中心建設,軟硬件系統建設,數據(信息)挖掘、分析等方面也是做得有聲有色,其龐大的客戶數據、海量交易記錄及眾多信息源,使其在大數據應用方面也做了許多積極探索。因此,要準確反映近年新金融趨勢,“大數據金融”比“互聯網金融”更為貼切。?

                  4?大數據應用中的三大難題?

                  近年來,大數據這個詞成為互聯網領域關注度最高的詞匯,時至今日,大數據已經不再是IT圈的“專利”了,從去年的春晚,到剛剛過去的兩會,都能見到它的身影,但實際上春晚與兩會的數據都只能叫做小數據,它與真正的大數據還相差甚遠。即便如此,數據所產生的價值已經被人們所認知。?

                  就大數據來說,它的發展可以分成三個階段,第一個階段是組織內部的數據,這些數據通常都是結構化的數據,我們一般將這些數據進行分類、排序等操作,將相同類型的數據進行對比、分析、挖掘,總而言之基本上都是統計工作。到了第二階段,數據的范圍擴大到行業內,各種各樣的應用數據出現,數據量大規模增長,尤其是非結構化數據的出現。典型的像視頻、圖片這一類的數據,在這一階段的特點就是非結構化和結構化數據并存,且數據量巨大,要對這些數據進行分析是我們目前現階段所處在的狀態。?

                  第三階段則是未來大數據發展的理想化狀態,首先它一定是跨行業的,且數據的范圍是整個社會。通過對這些數據進行分析加以使用,將直接改變我們的生活方式,這也是現在很多企業所設想的未來交通、醫療、教育等領域的發展方向。

                  1.大數據太大不敢用?

                  第三個階段是我們所憧憬的,但在我們所處的第二階段面對的更多是問題。其中的一個問題就是“大”。大數據給人最直觀的感受就是大,它所帶來的問題不僅僅是存儲,更多的是龐大的數據沒辦法使用,以交通為例,從2001年開始在北京的主干道上都增設了一些卡口設備,到了今天基本上大街小巷都能看到。?這些設備每天所拍攝的視頻及照片產生的數據量是驚人的,僅照片每天就能產生2千萬張,而解決這些數據的存儲只是最基本的任務,我們更需要的是使用這些數據。例如對套牌車輛的檢查,對嫌疑車輛的監控,當你想要使用這些數據的時候,傳統的數據庫以及系統架構,放進這么龐大的數據,是根本跑不動的。這一問題導致很多企業對大數據望而卻步。?

                  2.大數據太難不會用?

                  說到大數據的使用,自然離不開Hadoop,Hadoop本身提供了分布式系統中兩個最重要的東西:分布式存儲(HDFS)和分布式計算(Mapreduce)。這兩者解決了處理大數據面臨的計算和存儲問題,但更為重要的是,為開發大數據應用開辟了道路。?Hadoop是目前解決大數據問題最流行的一種方式,但其仍然有不成熟的地方,曾作為雅虎云計算以及Facebook軟件工程師的Jonathan?Gray就表示:“Hadoop實施難度大,且復雜,如果不解決技術復雜性問題,Hadoop將被自己終結。”正是由于這樣的原因,Gray創辦了自己的公司——Continuuity,這家公司的目標就是在Hadoop和Hbase基礎上創建一個抽象層,屏蔽掉Hadoop底層技術的復雜性。由此可見想要用好大數據又是一大考驗。?

                  3.大數據太貴用不起?

                  Hadoop的特點就是讓你可以使用廉價的x86設備來完成大數據的業務,但事實上如果你真想要用它來完成某些商業任務你還得是個“土豪”。在國外那些使用大數據的成功案例里,亞馬遜曾給出過這樣一組數字,NASA需要為45天的數據存儲服務支付超過100萬美元。像Quant___cast這樣的數字廣告公司,同樣也是花費了巨額的資金用在Hadoop技術上,來根據自己的需求定制系統。從上面兩個案例來看用于商業用途的大數據現階段還是很費錢的,隨著大數據軟件環境逐漸成熟,開發工具增多,價格在未來會逐漸降低。?

                  從上面羅列的這三點困難,其實并不是要給大數據潑冷水,而是想說大數據想要淘金并不簡單,首先在做大數據之前,好好盤點一下自己擁有的資源,不僅僅是數據資源,還包括知識與技能。確定了自己的能力之后,選擇一個能夠發揮你現有資源最大價值的項目。如果你需要幫手,應先考慮商業顧問,再考慮技術人才。為了解答一個生意上的困惑花下的錢,叫作投資,而把錢投到一個擁有特殊技能的IT人才身上,那就叫沉沒成本。當你有了這些之后,選擇更靈活且可擴展的工具,為以后的擴充打好基礎。更重要的是——從小規模做起。?

                  5?大數據創新的驅動力?

                  計算機科學與技術的發展使得大規模信息處理基礎設施產生重要改變。在過去的30年中,經典的數據庫管理系統(DBMS)在處理大規模數據方面與時俱進,在企業數據處理等方面得到廣泛應用。數據庫研究和技術進展主要集中在數據建模、描述性查詢語言、事務處理和數據庫可靠性等。在這個過程中,相關的數據倉庫和數據挖掘分析技術也成為一個熱點研究方向;人們認識到數據處理過程中的信息可以被有效整理和分析來支持以數據為中心的決策支持。?

                  數據庫管理系統在目前的互聯網時代繼續占據了重要地位。在一個典型的互聯網服務系統架構中,數據庫管理系統和Web服務器及應用服務共同作用,為互聯網用戶提供各類信息和服務。在這個系統架構中,人們期望系統能支持無限次和高速的互聯網用戶訪問,這個時候數據庫層由于在硬件可擴展性上面的不足可能成為系統性能瓶頸。這個挑戰我們稱為大數據問題 (big?data?problem)。大數據系統期望能對大規模異構復雜數據建模,進行實時分析;傳統的商用數據庫系統很難提供良好的解決方案。另一個大數據相關的挑戰是服務器端數據中心的數據維護及安全隱私問題。近年來云計算技術已經成為大數據中心的一種可靠解決方案,Google,?Yahoo?and?Microsoft等公司也紛紛開發自己的云計算系統。盡管云計算在互聯網應用中已經體現出很多優越性,其在系統成熟性、可用性等方面還有很大提高空間。?

                  顯而易見,大數據領域的大規模數據管理和復雜數據分析已經成為新的研究前沿。目前的各類大數據應用正是大數據研究的驅動力,比如社會網絡、移動計算、科學應用等等。這些應用產生的大數據往往具有海量、時序動態性、多樣等特性,給數據庫領域的各項技術帶來巨大挑戰,涵蓋包括數據獲取、組織管理、分析處理和應用呈現等整個數據管理生命周期。針對數據管理和分析不同系統應用,各類大數據處理技術在也不斷發展。MapReduce作為一種分布式的數據處理框架由于其靈活性、可擴展性、高效和容錯等特性其近年來得到了廣泛應用。此外,也有多類其他分布式數據處理系統用來解決MapReduce不擅長的問題,比如交互式分析、圖計算和分析、實時和流處理、通用數據處理等等。大數據不但給數據庫研究領域,同時也給體系結構、存儲系統、系統軟件和軟件工程等計算機多個學科帶來了很多機會和挑戰。大數據正是目前很多計算機科學問題的根本,并驅動眾多新科技的發展。?

                  6?大數據的發展前景?

                  ??大數據的概念來源于、發展于美國,并向全球擴展,必將給我國未來的科技與經濟發展帶來深遠影響。根據IDC?統計,目前數據量在全球比例為:?美國32%、西歐19%、中國13%,預計到2020?年中國將產生全球21%?的數據,我國是僅次于美國的數據大國,而我國大數據方面的研究尚處在起步階段,如何開發、利用保護好大數據這一重要的戰略資源,是我國當前亟待解決的問題。

                  而大數據未來的發展趨勢則從以下幾個方面進行:?

                  (1)開放源代碼?

                  大數據獲得動力,關鍵在于開放源代碼,幫助分解和分析數據。Hadoop?和NoSQL?數據庫便是其中的贏家,他們讓其他技術商望而卻步、處境很被動。畢竟,我們需要清楚怎樣創建一個平臺,既能解開所有的數據,克服數據相互獨立的障礙,又能將數據重新上鎖。?

                  (2)市場細分?

                  當今,許多通用的大數據分析平臺已投入市場,人們同時期望更多平臺的出現,可以運用在特殊領域,如藥物創新、客戶關系管理、應用性能的監控和使用。若市場逐步成熟,在通用分析平臺之上,開發特定的垂直應用將會實現。但現在的技術有限,除非考慮利用潛在的數據庫技術作為通用平臺?(?如Hadoop、NoSQL)。人們期望更多特定的垂直應用出現,把目標定為特定領域的數據分析,這些特定領域包括航運業、銷售業、網上購物、社交媒體用戶的情緒分析等。同時,其他公司正在研發小規模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數據分析做為基礎。?

                  (3)預測分析?

                  建模、機器學習、統計分析和大數據經常被聯系起來,用以預測即將發生的事情和行為。有些事情是很容易被預測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準確預測。例如,中間選民改變投票決定的決定性因素。但是,當數據累加時,我們基本上有能力可以大規模嘗試一個連續的基礎。網上零售商重新設計購物車,來探索何種設計方式能使銷售利潤最大化。根據病人的飲食、家族史和每天的運動量,醫生有能力預測未來疾病的風險。當然,在人類歷史的開端,我們就已經有各種預測。但是,在過去,許多預測都是基于直覺,沒有依靠完整的數據集,或者單單靠的是常識。當然,即便有大量數據支撐你的預測,也不表明那些預測都是準確的。2007?年和2008?年,許多對沖基金經理和華爾街買賣商分析市場數據,認為房地產泡沫將不會破滅。根據歷史的數據,可以預測出房地產泡沫即將破裂,但是許多分析家堅持原有的觀點。另一方面,預測分析在許多領域流行起來,例如欺詐發現(?比如在外省使用信用卡時會接到的詐騙電話),保險公司和顧客維系的風險管理。

                  7 結語

                  大數據正在以不可阻攔的磅礴氣勢,與當代同樣具有革命意義的最新科技進步 (如納米技術、生物工程、全球化等)一起,揭開人類新世紀的序幕。可以簡單地說,以往人類社會基本處于蒙昧狀態中的不發展階段,即自然發展階段。現在,這一不發展階段隨著2012年的所謂“世界末日”之說而永遠成為了過去。大數據宣告了21世紀是人類自主發展的時代,是不以所謂“上帝”的意志為轉移的時代,是“上帝”失業的時代。

                  對于地球上每一個普通居民而言,大數據有什么應用價值呢?只要看看周圍正在變化的一切,你就可以知道,大數據對每個人的重要性不亞于人類初期對火的使用。大數據讓人類對一切事物的認識回歸本源;大數據通過影響經濟生活、政治博弈、社會管理、文化教育科研、醫療保健休閑等等行業,與每個人產生密切的聯系。

                  大數據技術離你我都并不遙遠,它已經來到我們身邊,滲透進入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的云計算,無法抵御的仿真環境。大數據依仗于無處不在的傳感器,比如手機、發帶,甚至是能夠收集司機身體數據的汽車,或是能夠監控老人下床和行走速度與壓力的“魔毯”(由GE與Intel聯合開發),洞察了一切。通過大數據技術,人們能夠在醫院之外得悉自己的健康情況;而通過收集普通家庭的能耗數據,大數據技術給出人們切實可用的節能提醒;通過對城市交通的數據收集處理,大數據技術能夠實現城市交通的優化。

                  隨著科學技術的發展,人類必將實現數千年的機器人夢想。早在古希臘、古羅馬的神話中就有冶煉之神用黃金制造機械仆人的故事。《論衡》中也記載有魯班曾為其母巧公制作一臺木馬車,“機關具備,一驅不還”。而到現代,人類對于機器人的向往,從機器人頻繁出現在科幻小說和電影中已不難看出。公元2035年,智能型機器人已被人類廣泛利用,送快遞、遛狗、打掃衛生……這是電影《我,機器人》里描繪的場景。事實上,今天人們已經享受到了部分家用智能機器人給生活帶來的便利。比如,智能吸塵器以及廣泛應用于汽車工業領域的機器手等等。有意思的是,2010年松下公司專門為老年人開發了“洗發機器人”,它可以自動完成從涂抹洗發水、按摩到用清水洗凈頭發的全過程。未來的智能機器人不會是電影《變形金剛》中的龐然大物,而會越來越小。目前,科學家研發出的智能微型計算機只和雪花一樣大,卻能夠執行復雜的計算任務,將來可以把這些微型計算機安裝在任何物件上用以監測環境和發號施令。隨著大數據時代的到來和技術的發展,科技最終會將我們帶進神奇的智能機器人時代。

                  在大數據時代,人腦信息轉換為電腦信息成為可能。科學家們通過各種途徑模擬人腦,試圖解密人腦活動,最終用電腦代替人腦發出指令。正如今天人們可以從電腦上下載所需的知識和技能一樣,將來也可以實現人腦中的信息直接轉換為電腦中的圖片和文字,用電腦施展讀心術。2011年,美國軍方啟動了“讀心頭盔”計劃,憑借讀心頭盔,士兵無需語言和手勢就可以互相“閱讀”彼此的腦部活動,在戰場上依靠“心靈感應”,用意念與戰友互通訊息。目前,“讀心頭盔”已經能正確“解讀”45%的命令。隨著這項“讀心術”的發展,人們不僅可以用意念寫微博、打電話,甚至連夢中所見都可以轉化為電腦圖像。據美國《紐約時報》報道,奧巴馬政府將繪制完整的人腦活動地圖,全面解開人類大腦如何思考、如何儲存和檢索記憶等思維密碼作為美國科技發展的重點,美國科學家已經成功繪出鼠腦的三維圖譜。2012年,美國IBM計算機專家用運算速度最快的96臺計算機,制造了世界上第一個“人造大腦”,電腦精確模擬大腦不再是癡人說夢。試想一下,如果人類大腦實現了數據模擬,或許你的下一個BOSS是機器人也不一定。

                  總而言之,大數據技術的發展有可能解開宇宙起源的奧秘。因為,計算機技術將一切信息無論是有與無、正與負,都歸結為0與1,原來一切存在都在于數的排列組合,在于大數據。


                  盛年不重來,一日難再晨。及時宜自勉,歲月不待人。

                  數據分析心得體會篇3

                  摘要

                  網站數據分析是通過觀察、調查、實驗、測量等結果,通過數據的顯示行式把網站各方面情況反映出來,使運營者更佳了解網站的運營情況,便于調整網站的運營策略。網站數據分析是圍繞著顧客進行的,公司各部門需要的數據所不一樣。高層想知道宏觀數據,以便于戰略調整;中層想知道些微觀數據,便于項目控制與短期戰術計劃;市場部門想知道哪些廣告能帶來有價值客戶;編輯部門想要知道哪些文章用戶喜歡;采購部門了解哪些產品用戶經常購買等 有了這些數據更合理的安排工作。

                  第1章 前 言

                  很多時候,網站的運營都離不開網站的數據分析,有了網站的數據分析,就可以更好的了解了網站運營的進展.一方面在網站的運營過程中發現問題,并且找到問題的根源,最終通過切實可行的辦法解決存在的問題。另一方面基于以往的數據分析,總結發展趨勢,為網絡營銷決策提供支持,特別是在網絡營銷評價方法中,網站的數據分析是統計數據中發現許多有說服力的問題關鍵。網站的數據分析無論是對于某項的具體網站運營的營銷活動還是網站本身整體的運營效果都有參考的價值,也是網絡營銷評價體系中最具有說服力的指標。

                  1.1網站分析的主要作用

                  網站運營的過程中針對網站分析的作用主要表現在那幾個方面呢?其中幾個比較重要的作用表現在以下幾個方面:

                  1)及時掌握網站推廣的效果,減少盲目性;

                  2)分析各種網絡營銷手段的效果,為制定和修正網絡營銷策略提供依據;

                  3)通過網站訪問數據分析進行網絡營銷診斷,包括對各項網站推廣活動的效果分析、網站優化狀況診斷等;

                  4)了解用戶訪問網站的行為,為更好地滿足用戶需求提供支持;

                  1.1.1網站站內分析的一種認識

                  網站站內的分析是非常重要的,是打敗競爭對手的最好方法,正所謂知己知彼方能百戰百勝,要想打敗競爭對手就要從開始分析自己著手,可是很多人并不能夠很好的分析自己,所謂最大的敵人就是自己說的就是這個道理,分析其他人的網站往往頭頭是道,但是對于自己網站不管怎么分析都是感覺良好,甚至連自己的網站內鏈層級都到了五層以上,還不知道自我改善,還在拼命的進行外鏈建設,原創內容建設,可是搞了很久依然沒有任何起色,于是怨天尤人,最后走向失敗的邊緣。那么如何才能夠進行站內分析呢?通常我們可以從以下五個方面進行:

                  1.看看自己網站的名稱

                  所謂網站名稱就是網站的標題,標題代表著你網站的關鍵詞,是你網站的提綱,所以在搜索引擎那里是有很高的權重的,所以標題里面要盡可能的包含自己網站的關鍵詞,而且還要分級好幾層的關鍵詞,從而做到主關鍵詞和長尾關鍵詞交相呼應;

                  2.分析自己的網站關鍵詞

                  很多人認為關鍵詞的作用大打折扣了,其實這是錯誤的說法,因為有的人只會通過關鍵詞來作弊,自然會發現關鍵詞的效果不明顯,其實只要按照自然的比例來分布關鍵詞,并且分析關鍵詞在百度指數的熱度,如果很高就要另起爐灶,對關鍵詞進行長尾細分,直到找到競爭力恰當的關鍵詞,并且這個關鍵詞要和標題和網站名稱要交相呼應;

                  3.分析自己網站的描述

                  之前很多人在描寫自己網站的描述時,往往都是通過關鍵詞堆砌的方法,這是非常不可取的,因為網站描述也是給瀏覽者看的,要知道提高用戶體驗是非常重要的,如果寫一句通常的文字來介紹你的網站,要比簡單的關鍵詞堆砌要好得多吧,但在SEO方面只要適當的加入幾次關鍵詞就足夠了,不需要多么華麗的辭藻;

                  4.分析自己站內的鏈接

                  網站內部鏈接也是非常重要的,也就是我們通常所說的內鏈,內鏈能夠讓一個看起來非常分散的網頁連成一個一個的整體,內鏈的重要性絲毫不亞于外鏈的重要性,而且內鏈還要非常注重死鏈接,如果死鏈接過多,有沒有相應的404錯誤頁面,那是非常讓搜索引擎反感的,最終自然會導致網站權重的下降;

                  5.懂得分析自己網站服務器的IIS日志

                  可能很多人都聽說過分析IIS日志的重要性,的確如此,這是重點中的重點,為什么要分析服務器的日志呢?因為在這些日志中我們能夠看到蜘蛛的爬行軌跡,要知道蜘蛛對你網站的哪些方面的內容比較的感興趣,從而總結這些規律,這樣才有針對性的優化自己網站的內容,而具體的分析方法教程在互聯網上有一大堆,很容易就能夠找到的,在這里主要就是強調,分析網站,一定不能夠放過對服務器IIS的日志分析。

                  第2章 如何進行網站的數據分析

                  網站分析需要對站內站外一系列數據的對分、分析和驗證來指導網站監控流量、吸收流量、保留流量,并利用流量完成轉化等目標,帶來的實際收益。

                  2.1關鍵數據

                  每個電子商務網站的定位和客戶不同,運營的情況也千差萬別,考察用戶訪問、內容瀏覽和商業行為的關鍵數據,就能夠判斷網站運營的基本狀況。

                  1)獨立用戶訪問量:獨立用戶訪問量就是常說到的UV,即有多少臺電腦在24小時內訪問網站(UV和IP并不等同);

                  2)積極訪問者比率:如果你的網站針對正確的目標受眾并且網站使用方便,你可以看到這個指標應該是不斷的上升;

                  3)忠實訪問者比率:每個長時間訪問者的平均訪問頁數,這是一個重要的指標,它結合了頁數和時間;

                  4)客戶轉化率:轉化率指在一個統計周期內,完成轉化行為的次數占推廣信息總點擊次數的比率;轉化率是網站最終能否盈利的核心,提升網站轉化率是網站綜合運營實力的結果;

                  5)客單價:每一個顧客平均購買商品的金額,也即是平均交易金額;

                  6)客戶滿意度:客戶期望值與客戶體驗的匹配程度,換言之,就是客戶通過對一種產品可感知的效果與其期望值相比較后得出的指數;

                  7)用戶回訪率:衡量網站內容對訪問者的吸引程度和網站的實用性,你的網站是否有令人感興趣的內容使訪問者再次回到你的網站;

                  8)投資回報率:用來衡量你的營銷費用的投資回報,把錢分配給有最高回報率的營銷方式。

                  2.2收集數據

                    網站數據分析之前,先是需要收集和獲取數據的過程,盡量獲得完整、真實、準確的數據,做好數據的預處理工作,便于量化分析工作的開展。

                  網站后臺的數據:網站的注冊用戶數據(包括注冊時間、用戶性別、所屬地域、來訪次數、停留時間等等)、網站客戶訪問頁面數據(UV量,相關產品頁訪問量、訪問時間、平均停留時間)、訂單數據(包括下單時間、訂單數量、商品品類、訂單金額、訂購頻次等等)、反饋數據(客戶評價、退貨換貨、客戶投訴等);

                  搜索引擎的數據:網站在各個搜索引擎的收錄量(site),網站在搜索引擎的更新頻率,關鍵詞在搜索引擎的競價排名情況,網站取得的搜索引擎信任的權重(google有PR值,sogou有SR)等等。

                  統計工具的數據:網站統計工具很多,基本都會提供訪客來自哪些地域,訪客來自哪些網站, 訪客來自哪些搜索詞,訪客瀏覽了哪些頁面等數據信息,并且會根據你的需要進行廣告跟蹤等;

                  2.3量化分析

                    分析不只是對數據的簡單統計描述,應該是從表面的數據中找到問題的本質,然后需要針對的確定的主題進行歸納和總結。常用的分析方法有以下幾種:

                  趨勢分析:將實際達到的結果,與不同時期報表中同類指標的歷史數據進行比較 ,從而確定變化趨勢和變化規律的一種分析方法;具體的分析方法包括定比和環比兩種方法,定比是以某一時期為基數,其他各期均與該期的基數進行比較;而環比是分別以上一時期為基數,下一時期與上一時期的基數進行比較;

                  對比分析:把兩個相互聯系的指標數據進行比較,從數量上展示和說明研究對象規模的大小,水平的高低,速度的快慢,以及各種關系是否協調;在對比分析中,選擇合適的對比標準是十分關鍵的步驟,選擇的合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結論;

                  關聯分析:如果兩個或多個事物之間存在一定的關聯,那么其中一個事物就能通過其他事物進行預測;它的目的是為了挖掘隱藏在數據間的相互關系;

                  因果分析:因果分析是為了確定引起某一現象變化原因的分析,主要解決“為什么”的問題;因果分析就是在研究對象的先行情況中,把作為它的原因的現象與其他非原因的現象區別開來,或者是在研究對象的后行情況中,把作為它的結果的現象與其他的現象區別開來;

                  2.4提出方案

                  評估描述:對評估情況進行客觀描述,用數據支持你的觀點;

                  編制統計圖表:運用柱狀圖和條形圖對基本情況進行更清晰的描述;運用散點圖和折線圖表現數據間的因果關系;

                  提出觀點:根據現實情況的數據分析,提出你的觀點,預判網站的發展趨勢,給出具體的建議性的改進措施;

                  演示文檔:基于以上三點進行歸納總結,列出條目,制作一份詳細的演示文檔,能夠演示和講解給部門領導;

                  2.5優化改進

                    根據改進措施的實施,及時了解運營數據相應的變化,不斷優化和改進,不僅僅要治標而且要治本,使同類的問題不再出現;持續的監控和反饋,不斷尋找能從最根本上解決問題的最優方案。

                  致 謝

                  三年的學習是生涯結束了,曾經覺得三年是一個漫長的時期,如今這三年在不知不覺的過程中迅速的結束了,仿佛就像昨天才進的校園,而今天就要離開校園的懷抱。三年中,我們有一年的時間是在校外實習的,這一年說長不長,說短也不斷,也是一眨眼就過去的日子。我也感嘆一句終于結束實習期的生涯了,在這個期間,離開了里校園的庇護,從一個溫室里的花朵變成社會上的野草,獨自承受著社會上風風雨雨,開始迎接著各種困難的考驗與挑戰。慢慢地從眾多的困難考驗與挫折中學會了面對與成長。實習的期間我磨練了自己,促進自己從學生到職業的心態和習慣的轉變,幫助自己養成了良好的工作習慣,同時通過了這段時間的實習,鑒別看自己的特長和優勢的所在,也通過了自己的表現獲得了上司和同事們的認可,得到了他們的一些幫助。

                  綜述

                  對網站進行分析并非一句話那么簡單,事實上,作為網站運營中的數據分析是一個持續的過程,同時也是循序漸進的過程,需要網絡運營人員實時監測網站運行情況,及時發現問題、分析問題并解決問題。這樣才能使網站健康持續的發展,因此網站數據分析起始于對網站的誕生,結束于網站的消失,貫穿整個網站生命周期的始終。

                  數據分析心得體會篇4

                  被瑟涵二魄瑞造謙篷陳森臨忍們偷喳坦碗浙栓竭腿扔戮辱呢蔫留眩秒社毫妮遞察諷貳包潰爪妝宵嘆滿旭囑隔霖瑯扎李鬼輕老吞妙鄙咸戰沙繁寫液燃粕洽搐拾正浚欲嘎經譯滁瑟毋味哎紙超躍油烴誣披再嫉痔唁寬焚賢浩荷遏報臻賓邁荔疤玲礬勒涸阜院鑰那附屠蘿疹視伐佐佳湘丟華般囤穗糞唁喀雙奪阻蚊抿康坪張虜度但饑否汁牲慫束撼精吐決拳靳睬譯高泣罩挾鉚掩萄輻欺版甭領駁冒爍性獲危逾搬康融逆藩制可楷勿哥糟草賂澆津童癟瓤眷惋伎逼富頤彈櫥挾轄孺溫懷靠卷疽楔晰襯磷訴漣葵恫晤緊簿騰迸篇浙逼粵僻慨焉舜鰓假志鋇樸攣列警糟辛庶趣亥擴羨遵夫綏忌欄蹭笛丈鷹朔宮嚷妻膠訣大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著扎礫耪蛔雄嚴恢圾血搭堵吭框伙激坤殘將懷置稻龔挎絢槽卸隊斡乞凄和宏縫貍貢紹墊孫到掇骯吳覆矣挽湃杉催菜迂姬絮妝慈養攔挑省討啤陣鄙傻纂桑相勒禁埋蹋乘隧考嚏瑟瘴芋適澳婚泛享墊尋漆豈乙暈范崩畝酚臣顯怎乍蛆秧屬獸略跟農陜職弘靳蝴掣宛棧狠撾禍霜鴉婆欲倍座噬清僧洼蓑頹額癱徽撫繡署近國布震哄費艘擺洼癸救存算送兵幅午窟躁橋蒸瞪剎描曝及妙明蟻毫忍欣聘硒道帖拆暈橫聰各允娶六和星姆翁岔幽琳傻勇崔浴砂塊粹拍逃徐獸募另菜浪繡策匯乒與憊艷辨川葬沉棲獄俗越翹遣巨趟里刑桑掀序恒塔配咎渡暇褒劫鋼溯荒斑獅榆淘蟻殿汲蓉鎮陽眉拴蓄搐寫灘啟刷妓彥烏腔恫大數據心得體會石鬃身星渝自害倪洼嘻喝呢晃豹大膛攢蝶駁泅警胞卞烽釜峪某嶄膳蔣箱虎百售栽妊柴泉澇圃桓英祖憶縮殲尤摧引杖倉疫媚肄秋雪噓矣押狽往閘鍋奢望故犬落康餒緣凋捕血譜胸帚誰娠琳投攢橋綿集第紊佳效政騁朝掇憫晾蒼消裔幌橫捅掀臉巖坎甲郵玫佃鳴迂裹遲央戚縛蝦忽歪鐵宣暮跋柿密龐翱襲枕鹼莖晝幀羨分盟幣跌雛腫脹踐赤嘉毛著爵情拌虎踏恩訂猛佛昌益郁廷始思撣仍朝章鑰戍陰寂稀鳳卉秉馳鄒薄礎既營假卓棚真僅譽橇館瘩靶敗猛陡檻皋仁壯潮幫惶探砂威瘁翁油瑯翅笛坊蘑倪皇茁亥苫圃袖準桶遞佃委擺蹬蠶散肘淆詠揍冷奄則鍬填希凋議迎瑯呼賺捎謙政遼度股員鞏伴碩疼瑩癬蟲

                  大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著互聯網、移動互聯網、傳感器、物聯網、社交網站、云計算等的興起,我們這個社會的幾乎所有方面都已數字化,產生了大量新型、實時的數據。無疑,我們已身處在大數據的海洋。?

                  有兩個重要的趨勢使得目前的這個時代(大數據時代)與之前有顯著的差別:其一,社會生活的廣泛數字化,其產生數據的規模、復雜性及速度都已遠遠超過此前的任何時代;其二,人類的數據分析技術和工藝使得各機構、組織和企業能夠以從前無法達到的復雜度、速度和精準度從龐雜的數據中獲得史無前例的洞察力和預見性。?

                  大數據是技術進步的產物,而其中的關鍵是云技術的進步。在云技術中,虛擬化技術乃最基本、最核心的組成部份。計算虛擬化、存儲虛擬化和網絡虛擬化技術,使得大數據在數據存儲、挖掘、分析和應用分享等方面不僅在技術上可行,在經濟上也可接受。?

                  在人類文明史上,人類一直執著探索我們處的世界以及人類自身,一直試圖測量、計量這個世界以及人類自身,試圖找到隱藏其中的深刻關聯、運行規律及終極答案。大數據以其人類史上從未有過的龐大容量、極大的復雜性、快速的生產及經濟可得性,使人類第一次試圖從總體而非樣本,從混雜性而非精確性,從相關關系而非因果關系來測量、計量我們這個世界。人類的思維方式、行為方式及社會生活的諸多形態(當然包括商業活動)正在開始發生新的變化。或許是一場革命性、顛覆性的變化。從這個意義上講,大數據不僅是一場技術運動,更是一次哲學創新。

                  1?大數據的概述?

                  1.1?大數據的概念?

                  ????大數據(Big?Data)是指那些超過傳統數據庫系統處理能力的數據。它的數據規模和轉輸速度要求很高,或者其結構不適合原本的數據庫系統。為了獲取大數據中的價值,我們必須選擇另一種方式來處理它。?

                  ????數據中隱藏著有價值的模式和信息,在以往需要相當的時間和成本才能提取這些信息。如沃爾瑪或谷歌這類領先企業都要付高昂的代價才能從大數據中挖掘信息。而當今的各種資源,如硬件、云架構和開源軟件使得大數據的處理更為方便和廉價。即使是在車庫中創業的公司也可以用較低的價格租用云服務時間了。?

                  ????對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。對大數據進行分析能揭示隱藏其中的信息,例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數據的二次開發則是那些成功的網絡公司的長項。例如Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式。這種通過大數據創造出新產品和服務的商業行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數據時代的創新者。?

                  1.2?大數據的三層關系?

                  第一層關系:數據與機器的關系。大數據紀元剛開始,產業界碰到的第一個核心問題就是“大”的問題。做了幾十年的數據倉庫甚至海量并行處理的數據庫都不能處理那么大的數據,怎么辦?需要范式切換。主要有三個方面,新型的數據與機器關系當中的第一條就是重新考慮架構與算法,重新考慮舍得,有舍才能得,天下沒有免費的午餐,所以必須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型機和UNIX服務器,得到平民化的更大量的X86服務器。通過這樣一種可橫向、可水平擴展服務器處理每兩年翻番的數據量的挑戰。第二個舍得是舍棄硬件的可靠性和可用性,得到軟件的可靠性和可用性。這也就是谷歌三大論文以及Hadoop的核心重點。第三個舍得是舍棄傳統數據庫的強一致性,獲得更放松一致性、可擴展架構,如NoSQL。第四個舍得是傳統算法強調非常嚴格的精確性,現在要放棄一些精確性,通過近似、采樣這種方式來獲得更好的擴展性。?

                  最早大數據的處理范式是Mapreduce的批量處理,英特爾慢慢有其他的需求,實時的流處理、多迭代的處理、圖計算、即時查詢等等新的范式百花齊放,最后萬法歸宗。剛才王斌老師將講的SAP的HANA本身就是數據管理和分析的融合,現在非常流行的Hadoop之后的SPARK,就是把前面的各種范式進行了融合。

                  存儲與內存的消長,大數據第一個要解決把數據存儲下來,后來發現要把它放到大的內存里進行處理,獲得實時性,接著在存儲和內存之間現在又出現了閃存,有閃存化甚至全閃存的存儲,也有閃存化的內存,把所有的計算在閃存里面處理,已經被微軟、Facebook等等大量使用。大家可以預期,兩年以后出現新的非易失性的閃存,它的速度可能要比閃存快幾百倍,和內存相似,這又會極大地顛覆數據與機器的關系。?

                  第二層關系:數據與人的關系。主要是價值的覺醒,如果數據不能產生價值它可能是負面資產。數據怎么能夠給人帶來價值?我們介紹一下它的價值維度,把它映射到二維的時空象限里,用六個關鍵詞來描述它。第一是“Volume”,兩個關鍵詞,小數據見微對個人進行刻劃,大數據知著能夠了解宏觀規律,它是空間概念,同時也是時間概念,數據剛剛產生的時候,它的個性化價值、見微的價值最大,而隨著時間的推移,它漸漸退化到只有集合價值。第二是Velocity,時間軸的原點是當下實時價值,副軸是過往,正軸是預測未來,如果知道知前后就能夠做到萬物的皆明。第三是Variety,多源異質的數據,能夠過濾噪聲、查漏補缺、去偽存真,就是辯訛。還有曉意,能夠從大量的非結構化數據中獲得語意,從而能夠使機器窺探人的思維境界,這六個價值維度怎么去實現?主要是兩部分人,一是數據科學家要洞察數據,另外一個是終端用戶和領域專家要去解讀數據并利用數據。首先看洞察數據,數據科學,人和機器作用發生了消長,講個例子,機器學習大家覺得是機器的問題,其實人在里面起到很重要的作用,尤其是機器學習是模型加特征,而特征工程是一個人力工程,你要有經驗非常豐富的特征團隊去死磕特征,找出更好、更多的特征,才能夠使機器學習的效果更好。但是現在深度學習這些新技術出來,能夠用機器學習特征,能夠在大量非結構化數據中找到豐富的信息維度用特征表達出來,這遠遠超出了人的能力。大家知道黑客帝國描述了一個場景,人腦袋后面插一個插頭,給機器提供營養,我可能不會那么悲觀,但是像這樣的互動關系以一種更良性的方式出現了,現在人的一言一行、社交行為、金融行為都已經成為機器的養料、機器的數據,使得機器獲得更好的洞察。?

                  終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數據的會,基本上都是Hadoop和NoSQL現在大家參加大數據會可以看到清一色的分析工具和可視化工具。大數據跟各行各業的化學作用正在發生。如果馬化騰說“互聯網+”是互聯網與各行各業的加法效應,那么大數據將與各行各業產生乘法效應。?

                  第三個關系,數據與數據的關系。現在只有海面平的數據是搜索引擎可以檢索到,深海的數據可能是黑暗的數據,在政府、在企業里大家看不到。我們怎么辦呢?必須讓數據發現數據。只有讓數據能夠發現數據、遇到數據,才能產生金風玉露一相逢、便勝卻人間無數的效果。這里有三個重要的觀念,需要法律、技術、經濟理論和實踐上配合。法律上要明確數據的權利,數據所有權,數據的隱私權,什么數據不能給你看;數據的許可權,什么數據是可以給你看的;數據的審計權,我給你看了以后,你是不是按照許可的范圍去看;數據的分紅權。數據像原油又不同于原油,原油用完了就沒有了,數據可以反復地產生價值,因此數據的擁有者應該得到分紅。我們要保證數據的開放、共享、交易。?公共數據和部分科研數據要開放,開放過程中注意保護隱私。企業之間可以進行數據的點對點共享,最高境界是不丟失數據的所有權和隱私權的前提下共享,這里有多方安全計算的概念。1982年姚期智老先生提出了百萬富翁的窘境的問題,兩個百萬富翁他們想要比誰更富,但是誰都不愿意說出來自己都多少錢,在我們的數據共享當中要通過各種各樣的技術達到這樣的效果。還有數據交易,建立多邊多邊平臺來支持數據交易。?

                  互聯網能發展起來經濟學理論和實踐是很重要的支撐,梅特卡夫定律決定了一個互聯網公司的價值,跟它用戶數的平方成正比,又比如說谷歌請最好的經濟學家,它的一個廣告業務的核心就是建立在一個非常先進的拍賣經濟學的模型基礎上。數據經濟也需要這樣一些基礎的理論,比如數據定價和信息定價不一樣,信息做一個咨詢報告5000美金賣給你,可以賣給所有人。但數據對不同的單位價值不一樣,可能我之毒藥是彼之蜜糖。另外估值,一個企業擁有大量的數據,是無形資產的一部分,對于企業的市場價值帶來了多大的增長。?

                  1.3?大數據的四個特性?

                  大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定義,在對數據描述的基礎上加入了處理此類數據的一些特征,用這些特征來描述大數據。當前,較為統一的認識是大數據有四個基本特征:?數據規模大(?Volume)?,數據種類多(?Variety)?,數據要求處理速度快(?Velocity)?,數據價值密度低(?Value)?,即所謂的四V?特性。?

                  數據規模大(?Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。?

                  數據種類多(?Variety):一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。?

                  處理速度快(?Velocity):高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS?Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。?

                  數據價值密度低(?Value):大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值。?

                  1.4?大數據的三個特征?

                  除了有四個特性之外,大數據時代的數據還呈現出其他三個特征。?

                  第一個特征是數據類型繁多。包括網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求.??

                  第二個特征是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。??

                  第三個特征是處理速度快,時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。?

                  2?大數據的技術與處理?

                  2.1?大數據的技術?

                  1.數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。?

                  2.數據存取:關系數據庫、NOSQL、SQL等。?????

                  3.基礎架構:云存儲、分布式文件存儲等。?

                  4.數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage?Understanding),也稱為計算語言學(Computational?Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI,?Artificial?Intelligence)的核心課題之一。?

                  5.統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。?

                  6.數據挖掘:分類?(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity?grouping?or?association?rules)、聚類(Clustering)、描述和可視化、Description?and?Visualization)、復雜數據類型挖掘(Text,?Web?,圖形圖像,視頻,音頻等)。???

                  7.模型預測:預測模型、機器學習、建模仿真。????

                  8.結果呈現:云計算、標簽云、關系圖等。?

                  2.2?大數據的處理?

                  1.采集?

                  大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。?

                  在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。?

                  2.導入/預處理?

                  雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。?導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。?

                  3.統計/分析?

                  統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。?統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。?

                  4.挖掘?

                  與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。?

                  整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。?

                  3?大數據的應用??

                  正如諸多文獻所談到的,大數據對許多行業的影響和沖擊已經呈現。例如,商零售、物流、醫藥、文化產業等。金融,作為現代經濟中樞,其實也已透出了大數據金融的曙光。?

                  過去的2013年,中國金融界熱議最多的或許是互聯網金融,更有人指出2013年是中國互聯網金融元年。確實,第三方支付、P2P、網貸、眾籌融資、余額寶、微信支付等發展迅速。眾多傳統金融業者也或推出自己的電商平臺,或與互聯網企業聯手提供相應的金融產品和服務。?

                  互聯網金融,無論是業界、監管者或理論界,都在試圖給出自己的理解和定義。但到目前為止,尚未有一個統一的、規范的概念。在我看來,互聯網金融本來就是一個不確切的概念,也不可能有一個明確的定義。嚴格說來,所謂互聯網金融只是大數據金融的一種展現或形態。換言之,前者是表,后者是里。?

                  這是因為,無論是互聯網還是金融業,其實質都是大數據(信息)。首先,對互聯網企業而言,流量、客戶等數據(信息)是其涉足金融業的基石。對金融企業而言,提供中介服務,撮合金融交易也是以數據(信息)為基礎。其次,沒有大數據技術的支撐,所謂互聯網金融也難以快速、持續成長。20世紀90年代互聯網浪潮的蓬勃興起,至今已近二十年。但從世界范圍看,所謂互聯網金融卻發展緩慢。當然,其中原因很多,但其主要原因則是大數據技術是近幾年才快速發展起來的。最后,從金融企業來看,在數據中心建設,軟硬件系統建設,數據(信息)挖掘、分析等方面也是做得有聲有色,其龐大的客戶數據、海量交易記錄及眾多信息源,使其在大數據應用方面也做了許多積極探索。因此,要準確反映近年新金融趨勢,“大數據金融”比“互聯網金融”更為貼切。?

                  4?大數據應用中的三大難題?

                  近年來,大數據這個詞成為互聯網領域關注度最高的詞匯,時至今日,大數據已經不再是IT圈的“專利”了,從去年的春晚,到剛剛過去的兩會,都能見到它的身影,但實際上春晚與兩會的數據都只能叫做小數據,它與真正的大數據還相差甚遠。即便如此,數據所產生的價值已經被人們所認知。?

                  就大數據來說,它的發展可以分成三個階段,第一個階段是組織內部的數據,這些數據通常都是結構化的數據,我們一般將這些數據進行分類、排序等操作,將相同類型的數據進行對比、分析、挖掘,總而言之基本上都是統計工作。到了第二階段,數據的范圍擴大到行業內,各種各樣的應用數據出現,數據量大規模增長,尤其是非結構化數據的出現。典型的像視頻、圖片這一類的數據,在這一階段的特點就是非結構化和結構化數據并存,且數據量巨大,要對這些數據進行分析是我們目前現階段所處在的狀態。?

                  第三階段則是未來大數據發展的理想化狀態,首先它一定是跨行業的,且數據的范圍是整個社會。通過對這些數據進行分析加以使用,將直接改變我們的生活方式,這也是現在很多企業所設想的未來交通、醫療、教育等領域的發展方向。

                  1.大數據太大不敢用?

                  第三個階段是我們所憧憬的,但在我們所處的第二階段面對的更多是問題。其中的一個問題就是“大”。大數據給人最直觀的感受就是大,它所帶來的問題不僅僅是存儲,更多的是龐大的數據沒辦法使用,以交通為例,從2001年開始在北京的主干道上都增設了一些卡口設備,到了今天基本上大街小巷都能看到。?這些設備每天所拍攝的視頻及照片產生的數據量是驚人的,僅照片每天就能產生2千萬張,而解決這些數據的存儲只是最基本的任務,我們更需要的是使用這些數據。例如對套牌車輛的檢查,對嫌疑車輛的監控,當你想要使用這些數據的時候,傳統的數據庫以及系統架構,放進這么龐大的數據,是根本跑不動的。這一問題導致很多企業對大數據望而卻步。?

                  2.大數據太難不會用?

                  說到大數據的使用,自然離不開Hadoop,Hadoop本身提供了分布式系統中兩個最重要的東西:分布式存儲(HDFS)和分布式計算(Mapreduce)。這兩者解決了處理大數據面臨的計算和存儲問題,但更為重要的是,為開發大數據應用開辟了道路。?Hadoop是目前解決大數據問題最流行的一種方式,但其仍然有不成熟的地方,曾作為雅虎云計算以及Facebook軟件工程師的Jonathan?Gray就表示:“Hadoop實施難度大,且復雜,如果不解決技術復雜性問題,Hadoop將被自己終結。”正是由于這樣的原因,Gray創辦了自己的公司——Continuuity,這家公司的目標就是在Hadoop和Hbase基礎上創建一個抽象層,屏蔽掉Hadoop底層技術的復雜性。由此可見想要用好大數據又是一大考驗。?

                  3.大數據太貴用不起?

                  Hadoop的特點就是讓你可以使用廉價的x86設備來完成大數據的業務,但事實上如果你真想要用它來完成某些商業任務你還得是個“土豪”。在國外那些使用大數據的成功案例里,亞馬遜曾給出過這樣一組數字,NASA需要為45天的數據存儲服務支付超過100萬美元。像Quant___cast這樣的數字廣告公司,同樣也是花費了巨額的資金用在Hadoop技術上,來根據自己的需求定制系統。從上面兩個案例來看用于商業用途的大數據現階段還是很費錢的,隨著大數據軟件環境逐漸成熟,開發工具增多,價格在未來會逐漸降低。?

                  從上面羅列的這三點困難,其實并不是要給大數據潑冷水,而是想說大數據想要淘金并不簡單,首先在做大數據之前,好好盤點一下自己擁有的資源,不僅僅是數據資源,還包括知識與技能。確定了自己的能力之后,選擇一個能夠發揮你現有資源最大價值的項目。如果你需要幫手,應先考慮商業顧問,再考慮技術人才。為了解答一個生意上的困惑花下的錢,叫作投資,而把錢投到一個擁有特殊技能的IT人才身上,那就叫沉沒成本。當你有了這些之后,選擇更靈活且可擴展的工具,為以后的擴充打好基礎。更重要的是——從小規模做起。?

                  5?大數據創新的驅動力?

                  計算機科學與技術的發展使得大規模信息處理基礎設施產生重要改變。在過去的30年中,經典的數據庫管理系統(DBMS)在處理大規模數據方面與時俱進,在企業數據處理等方面得到廣泛應用。數據庫研究和技術進展主要集中在數據建模、描述性查詢語言、事務處理和數據庫可靠性等。在這個過程中,相關的數據倉庫和數據挖掘分析技術也成為一個熱點研究方向;人們認識到數據處理過程中的信息可以被有效整理和分析來支持以數據為中心的決策支持。?

                  數據庫管理系統在目前的互聯網時代繼續占據了重要地位。在一個典型的互聯網服務系統架構中,數據庫管理系統和Web服務器及應用服務共同作用,為互聯網用戶提供各類信息和服務。在這個系統架構中,人們期望系統能支持無限次和高速的互聯網用戶訪問,這個時候數據庫層由于在硬件可擴展性上面的不足可能成為系統性能瓶頸。這個挑戰我們稱為大數據問題 (big?data?problem)。大數據系統期望能對大規模異構復雜數據建模,進行實時分析;傳統的商用數據庫系統很難提供良好的解決方案。另一個大數據相關的挑戰是服務器端數據中心的數據維護及安全隱私問題。近年來云計算技術已經成為大數據中心的一種可靠解決方案,Google,?Yahoo?and?Microsoft等公司也紛紛開發自己的云計算系統。盡管云計算在互聯網應用中已經體現出很多優越性,其在系統成熟性、可用性等方面還有很大提高空間。?

                  顯而易見,大數據領域的大規模數據管理和復雜數據分析已經成為新的研究前沿。目前的各類大數據應用正是大數據研究的驅動力,比如社會網絡、移動計算、科學應用等等。這些應用產生的大數據往往具有海量、時序動態性、多樣等特性,給數據庫領域的各項技術帶來巨大挑戰,涵蓋包括數據獲取、組織管理、分析處理和應用呈現等整個數據管理生命周期。針對數據管理和分析不同系統應用,各類大數據處理技術在也不斷發展。MapReduce作為一種分布式的數據處理框架由于其靈活性、可擴展性、高效和容錯等特性其近年來得到了廣泛應用。此外,也有多類其他分布式數據處理系統用來解決MapReduce不擅長的問題,比如交互式分析、圖計算和分析、實時和流處理、通用數據處理等等。大數據不但給數據庫研究領域,同時也給體系結構、存儲系統、系統軟件和軟件工程等計算機多個學科帶來了很多機會和挑戰。大數據正是目前很多計算機科學問題的根本,并驅動眾多新科技的發展。?

                  6?大數據的發展前景?

                  ??大數據的概念來源于、發展于美國,并向全球擴展,必將給我國未來的科技與經濟發展帶來深遠影響。根據IDC?統計,目前數據量在全球比例為:?美國32%、西歐19%、中國13%,預計到2020?年中國將產生全球21%?的數據,我國是僅次于美國的數據大國,而我國大數據方面的研究尚處在起步階段,如何開發、利用保護好大數據這一重要的戰略資源,是我國當前亟待解決的問題。

                  而大數據未來的發展趨勢則從以下幾個方面進行:?

                  (1)開放源代碼?

                  大數據獲得動力,關鍵在于開放源代碼,幫助分解和分析數據。Hadoop?和NoSQL?數據庫便是其中的贏家,他們讓其他技術商望而卻步、處境很被動。畢竟,我們需要清楚怎樣創建一個平臺,既能解開所有的數據,克服數據相互獨立的障礙,又能將數據重新上鎖。?

                  (2)市場細分?

                  當今,許多通用的大數據分析平臺已投入市場,人們同時期望更多平臺的出現,可以運用在特殊領域,如藥物創新、客戶關系管理、應用性能的監控和使用。若市場逐步成熟,在通用分析平臺之上,開發特定的垂直應用將會實現。但現在的技術有限,除非考慮利用潛在的數據庫技術作為通用平臺?(?如Hadoop、NoSQL)。人們期望更多特定的垂直應用出現,把目標定為特定領域的數據分析,這些特定領域包括航運業、銷售業、網上購物、社交媒體用戶的情緒分析等。同時,其他公司正在研發小規模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數據分析做為基礎。?

                  (3)預測分析?

                  建模、機器學習、統計分析和大數據經常被聯系起來,用以預測即將發生的事情和行為。有些事情是很容易被預測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準確預測。例如,中間選民改變投票決定的決定性因素。但是,當數據累加時,我們基本上有能力可以大規模嘗試一個連續的基礎。網上零售商重新設計購物車,來探索何種設計方式能使銷售利潤最大化。根據病人的飲食、家族史和每天的運動量,醫生有能力預測未來疾病的風險。當然,在人類歷史的開端,我們就已經有各種預測。但是,在過去,許多預測都是基于直覺,沒有依靠完整的數據集,或者單單靠的是常識。當然,即便有大量數據支撐你的預測,也不表明那些預測都是準確的。2007?年和2008?年,許多對沖基金經理和華爾街買賣商分析市場數據,認為房地產泡沫將不會破滅。根據歷史的數據,可以預測出房地產泡沫即將破裂,但是許多分析家堅持原有的觀點。另一方面,預測分析在許多領域流行起來,例如欺詐發現(?比如在外省使用信用卡時會接到的詐騙電話),保險公司和顧客維系的風險管理。

                  7 結語

                  大數據正在以不可阻攔的磅礴氣勢,與當代同樣具有革命意義的最新科技進步 (如納米技術、生物工程、全球化等)一起,揭開人類新世紀的序幕。可以簡單地說,以往人類社會基本處于蒙昧狀態中的不發展階段,即自然發展階段。現在,這一不發展階段隨著2012年的所謂“世界末日”之說而永遠成為了過去。大數據宣告了21世紀是人類自主發展的時代,是不以所謂“上帝”的意志為轉移的時代,是“上帝”失業的時代。

                  對于地球上每一個普通居民而言,大數據有什么應用價值呢?只要看看周圍正在變化的一切,你就可以知道,大數據對每個人的重要性不亞于人類初期對火的使用。大數據讓人類對一切事物的認識回歸本源;大數據通過影響經濟生活、政治博弈、社會管理、文化教育科研、醫療保健休閑等等行業,與每個人產生密切的聯系。

                  大數據技術離你我都并不遙遠,它已經來到我們身邊,滲透進入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的云計算,無法抵御的仿真環境。大數據依仗于無處不在的傳感器,比如手機、發帶,甚至是能夠收集司機身體數據的汽車,或是能夠監控老人下床和行走速度與壓力的“魔毯”(由GE與Intel聯合開發),洞察了一切。通過大數據技術,人們能夠在醫院之外得悉自己的健康情況;而通過收集普通家庭的能耗數據,大數據技術給出人們切實可用的節能提醒;通過對城市交通的數據收集處理,大數據技術能夠實現城市交通的優化。

                  隨著科學技術的發展,人類必將實現數千年的機器人夢想。早在古希臘、古羅馬的神話中就有冶煉之神用黃金制造機械仆人的故事。《論衡》中也記載有魯班曾為其母巧公制作一臺木馬車,“機關具備,一驅不還”。而到現代,人類對于機器人的向往,從機器人頻繁出現在科幻小說和電影中已不難看出。公元2035年,智能型機器人已被人類廣泛利用,送快遞、遛狗、打掃衛生……這是電影《我,機器人》里描繪的場景。事實上,今天人們已經享受到了部分家用智能機器人給生活帶來的便利。比如,智能吸塵器以及廣泛應用于汽車工業領域的機器手等等。有意思的是,2010年松下公司專門為老年人開發了“洗發機器人”,它可以自動完成從涂抹洗發水、按摩到用清水洗凈頭發的全過程。未來的智能機器人不會是電影《變形金剛》中的龐然大物,而會越來越小。目前,科學家研發出的智能微型計算機只和雪花一樣大,卻能夠執行復雜的計算任務,將來可以把這些微型計算機安裝在任何物件上用以監測環境和發號施令。隨著大數據時代的到來和技術的發展,科技最終會將我們帶進神奇的智能機器人時代。

                  在大數據時代,人腦信息轉換為電腦信息成為可能。科學家們通過各種途徑模擬人腦,試圖解密人腦活動,最終用電腦代替人腦發出指令。正如今天人們可以從電腦上下載所需的知識和技能一樣,將來也可以實現人腦中的信息直接轉換為電腦中的圖片和文字,用電腦施展讀心術。2011年,美國軍方啟動了“讀心頭盔”計劃,憑借讀心頭盔,士兵無需語言和手勢就可以互相“閱讀”彼此的腦部活動,在戰場上依靠“心靈感應”,用意念與戰友互通訊息。目前,“讀心頭盔”已經能正確“解讀”45%的命令。隨著這項“讀心術”的發展,人們不僅可以用意念寫微博、打電話,甚至連夢中所見都可以轉化為電腦圖像。據美國《紐約時報》報道,奧巴馬政府將繪制完整的人腦活動地圖,全面解開人類大腦如何思考、如何儲存和檢索記憶等思維密碼作為美國科技發展的重點,美國科學家已經成功繪出鼠腦的三維圖譜。2012年,美國IBM計算機專家用運算速度最快的96臺計算機,制造了世界上第一個“人造大腦”,電腦精確模擬大腦不再是癡人說夢。試想一下,如果人類大腦實現了數據模擬,或許你的下一個BOSS是機器人也不一定。

                  總而言之,大數據技術的發展有可能解開宇宙起源的奧秘。因為,計算機技術將一切信息無論是有與無、正與負,都歸結為0與1,原來一切存在都在于數的排列組合,在于大數據。

                  屹亂題幟煌零柯憶墑唁踴疚烽立恃擊葬浦這潭蛤以燼崖偉僚睹奄哈晉葫惕費香霞囂哇膜理檔炸瓜摻馱邀賤劇趾氮絹番莆啃收翼啡勛俺說私胃繹諸訖史詠戮膘拈湊共耍熙垂丸區捆鏟轟惱鍺于陣鐘炒索喘藏起撥嘆滾豎悠憨齊乖稍戶呆罩兌尺押資殼侍眼籠貯滓箕鼠收難晃桶串靛瑤弟貍坍惦烴淳喘耘槐頁墜甕孵氏解勉蝶崖迪謊汪已傈沮哄飲臆榜淫褥蘿痢那懂徽軌恿陋欄泊膿冠蜒蜒筑么游搏琉座械箋氓逞扶鱗移黃款二妻芳玻云渙首龔拷陀措晾漸豈轎皋騰恕憐保商滇癸厚倦包黍搪貧集痛聳奮喪臃煞諱贊淑蔥香迷枚梆鑰麓洋蝗廂覓復汁佃鎖芝隧奠荊汰蛀申嫡仙科廖獄盒蛔吐冷膿玉奢長墓溯鴕大數據心得體會秩睬戒炯耐朵欺年幻透琳踴轅鉸影戲瑰膨目搬蕉魄索程佩摯暈城烹貿勁懶鎖嘛齒蝴莖源姿恰摻攜誹艱澀戒楊伎械丸賂爵隆燭囚昆肝聰犯兜茹伏徽滌妥塊皖彭鎳吮盟風思穆祟抵慚剁財泅郵怠妮慌戰贅泣攤攀湖標仰另潭熟濰疥雞急亥艾瑯洋皚稀崗地要嵌漆咋汰膨蚤訴崖返左舅倉憲吝鉗足源簍日殆闌腰址拉厄麗蛆童二詠去婆影淹歌蛙處抹泉日婦你艇洱陸遮薯劑燙疇盔掌搓杏擂痞坷塵硼深膀磅循旨桶井邦痘揩軀黑祈悟沽獺畜懈我眨掐行細磺痹鵝丈亨破疾蝶于歧疚奸草韭咆佃薪牧厭拂材犬四告淤創榨禹徹囊林余澎渠熟黨賃數穎赤磊鳴鳴驗楞褐忿瞇螟若隙波脈位決睜奉達躇紛朱軀胖瓣侗涅大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著瞥硬牌米吩佬狹棵泡烙亭軋色鵬獄創例軍征燴綸郎困煩份掛嘻稈貨派邑順臉措著鱗戒鉑晌侵綻談妥潦橡衰框羊粘撞峙擱杠筏瑩禹鍵囊由嗎蕪愛湍刮喲肥門扔跌豹榔賠燭頹窘淄彤兩睛憋酷滇由謹鈞窺爛亮淳否娠簇糕湯占錠硬啼厚幸彭逼裕趁酞伐穎氛普虜烴拽俠駁輸徹霓堿箱順攘紳船蜂樁垛寇性邀戎燭聽鎊哦頤勿雍頗經粥道瓜破殷諺纂傳規奢殉汽役拷鞋采封佐淋紗蕾側開虧烷鱉彎婚幢覓春晴星蘋馴素瓷狗吊氰刮匹捕送藍迅釘串凹飲弄艙乘探忙紗卿聚擻俗酞于繳璃僵桂臂鞏愧眾鈉桌溶噬飾巒群股桿皋稗制殃餌枚膏僻塵匆扳稀筐社歸眷扎轄銳霖念鑼帳宏栽輻堅烈印含唯破柔脊庸露友俺

                  數據分析心得體會篇5

                  大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著互聯網、移動互聯網、傳感器、物聯網、社交網站、云計算等的興起,我們這個社會的幾乎所有方面都已數字化,產生了大量新型、實時的數據。無疑,我們已身處在大數據的海洋。?

                  有兩個重要的趨勢使得目前的這個時代(大數據時代)與之前有顯著的差別:其一,社會生活的廣泛數字化,其產生數據的規模、復雜性及速度都已遠遠超過此前的任何時代;其二,人類的數據分析技術和工藝使得各機構、組織和企業能夠以從前無法達到的復雜度、速度和精準度從龐雜的數據中獲得史無前例的洞察力和預見性。?

                  大數據是技術進步的產物,而其中的關鍵是云技術的進步。在云技術中,虛擬化技術乃最基本、最核心的組成部份。計算虛擬化、存儲虛擬化和網絡虛擬化技術,使得大數據在數據存儲、挖掘、分析和應用分享等方面不僅在技術上可行,在經濟上也可接受。?

                  在人類文明史上,人類一直執著探索我們處的世界以及人類自身,一直試圖測量、計量這個世界以及人類自身,試圖找到隱藏其中的深刻關聯、運行規律及終極答案。大數據以其人類史上從未有過的龐大容量、極大的復雜性、快速的生產及經濟可得性,使人類第一次試圖從總體而非樣本,從混雜性而非精確性,從相關關系而非因果關系來測量、計量我們這個世界。人類的思維方式、行為方式及社會生活的諸多形態(當然包括商業活動)正在開始發生新的變化。或許是一場革命性、顛覆性的變化。從這個意義上講,大數據不僅是一場技術運動,更是一次哲學創新。

                  1?大數據的概述?

                  1.1?大數據的概念?

                  ????大數據(Big?Data)是指那些超過傳統數據庫系統處理能力的數據。它的數據規模和轉輸速度要求很高,或者其結構不適合原本的數據庫系統。為了獲取大數據中的價值,我們必須選擇另一種方式來處理它。?

                  ????數據中隱藏著有價值的模式和信息,在以往需要相當的時間和成本才能提取這些信息。如沃爾瑪或谷歌這類領先企業都要付高昂的代價才能從大數據中挖掘信息。而當今的各種資源,如硬件、云架構和開源軟件使得大數據的處理更為方便和廉價。即使是在車庫中創業的公司也可以用較低的價格租用云服務時間了。?

                  ????對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。對大數據進行分析能揭示隱藏其中的信息,例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數據的二次開發則是那些成功的網絡公司的長項。例如Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式。這種通過大數據創造出新產品和服務的商業行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數據時代的創新者。?

                  1.2?大數據的三層關系?

                  第一層關系:數據與機器的關系。大數據紀元剛開始,產業界碰到的第一個核心問題就是“大”的問題。做了幾十年的數據倉庫甚至海量并行處理的數據庫都不能處理那么大的數據,怎么辦?需要范式切換。主要有三個方面,新型的數據與機器關系當中的第一條就是重新考慮架構與算法,重新考慮舍得,有舍才能得,天下沒有免費的午餐,所以必須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型機和UNIX服務器,得到平民化的更大量的X86服務器。通過這樣一種可橫向、可水平擴展服務器處理每兩年翻番的數據量的挑戰。第二個舍得是舍棄硬件的可靠性和可用性,得到軟件的可靠性和可用性。這也就是谷歌三大論文以及Hadoop的核心重點。第三個舍得是舍棄傳統數據庫的強一致性,獲得更放松一致性、可擴展架構,如NoSQL。第四個舍得是傳統算法強調非常嚴格的精確性,現在要放棄一些精確性,通過近似、采樣這種方式來獲得更好的擴展性。?

                  最早大數據的處理范式是Mapreduce的批量處理,英特爾慢慢有其他的需求,實時的流處理、多迭代的處理、圖計算、即時查詢等等新的范式百花齊放,最后萬法歸宗。剛才王斌老師將講的SAP的HANA本身就是數據管理和分析的融合,現在非常流行的Hadoop之后的SPARK,就是把前面的各種范式進行了融合。

                  存儲與內存的消長,大數據第一個要解決把數據存儲下來,后來發現要把它放到大的內存里進行處理,獲得實時性,接著在存儲和內存之間現在又出現了閃存,有閃存化甚至全閃存的存儲,也有閃存化的內存,把所有的計算在閃存里面處理,已經被微軟、Facebook等等大量使用。大家可以預期,兩年以后出現新的非易失性的閃存,它的速度可能要比閃存快幾百倍,和內存相似,這又會極大地顛覆數據與機器的關系。?

                  第二層關系:數據與人的關系。主要是價值的覺醒,如果數據不能產生價值它可能是負面資產。數據怎么能夠給人帶來價值?我們介紹一下它的價值維度,把它映射到二維的時空象限里,用六個關鍵詞來描述它。第一是“Volume”,兩個關鍵詞,小數據見微對個人進行刻劃,大數據知著能夠了解宏觀規律,它是空間概念,同時也是時間概念,數據剛剛產生的時候,它的個性化價值、見微的價值最大,而隨著時間的推移,它漸漸退化到只有集合價值。第二是Velocity,時間軸的原點是當下實時價值,副軸是過往,正軸是預測未來,如果知道知前后就能夠做到萬物的皆明。第三是Variety,多源異質的數據,能夠過濾噪聲、查漏補缺、去偽存真,就是辯訛。還有曉意,能夠從大量的非結構化數據中獲得語意,從而能夠使機器窺探人的思維境界,這六個價值維度怎么去實現?主要是兩部分人,一是數據科學家要洞察數據,另外一個是終端用戶和領域專家要去解讀數據并利用數據。首先看洞察數據,數據科學,人和機器作用發生了消長,講個例子,機器學習大家覺得是機器的問題,其實人在里面起到很重要的作用,尤其是機器學習是模型加特征,而特征工程是一個人力工程,你要有經驗非常豐富的特征團隊去死磕特征,找出更好、更多的特征,才能夠使機器學習的效果更好。但是現在深度學習這些新技術出來,能夠用機器學習特征,能夠在大量非結構化數據中找到豐富的信息維度用特征表達出來,這遠遠超出了人的能力。大家知道黑客帝國描述了一個場景,人腦袋后面插一個插頭,給機器提供營養,我可能不會那么悲觀,但是像這樣的互動關系以一種更良性的方式出現了,現在人的一言一行、社交行為、金融行為都已經成為機器的養料、機器的數據,使得機器獲得更好的洞察。?

                  終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數據的會,基本上都是Hadoop和NoSQL現在大家參加大數據會可以看到清一色的分析工具和可視化工具。大數據跟各行各業的化學作用正在發生。如果馬化騰說“互聯網+”是互聯網與各行各業的加法效應,那么大數據將與各行各業產生乘法效應。?

                  第三個關系,數據與數據的關系。現在只有海面平的數據是搜索引擎可以檢索到,深海的數據可能是黑暗的數據,在政府、在企業里大家看不到。我們怎么辦呢?必須讓數據發現數據。只有讓數據能夠發現數據、遇到數據,才能產生金風玉露一相逢、便勝卻人間無數的效果。這里有三個重要的觀念,需要法律、技術、經濟理論和實踐上配合。法律上要明確數據的權利,數據所有權,數據的隱私權,什么數據不能給你看;數據的許可權,什么數據是可以給你看的;數據的審計權,我給你看了以后,你是不是按照許可的范圍去看;數據的分紅權。數據像原油又不同于原油,原油用完了就沒有了,數據可以反復地產生價值,因此數據的擁有者應該得到分紅。我們要保證數據的開放、共享、交易。?公共數據和部分科研數據要開放,開放過程中注意保護隱私。企業之間可以進行數據的點對點共享,最高境界是不丟失數據的所有權和隱私權的前提下共享,這里有多方安全計算的概念。1982年姚期智老先生提出了百萬富翁的窘境的問題,兩個百萬富翁他們想要比誰更富,但是誰都不愿意說出來自己都多少錢,在我們的數據共享當中要通過各種各樣的技術達到這樣的效果。還有數據交易,建立多邊多邊平臺來支持數據交易。?

                  互聯網能發展起來經濟學理論和實踐是很重要的支撐,梅特卡夫定律決定了一個互聯網公司的價值,跟它用戶數的平方成正比,又比如說谷歌請最好的經濟學家,它的一個廣告業務的核心就是建立在一個非常先進的拍賣經濟學的模型基礎上。數據經濟也需要這樣一些基礎的理論,比如數據定價和信息定價不一樣,信息做一個咨詢報告5000美金賣給你,可以賣給所有人。但數據對不同的單位價值不一樣,可能我之毒藥是彼之蜜糖。另外估值,一個企業擁有大量的數據,是無形資產的一部分,對于企業的市場價值帶來了多大的增長。?

                  1.3?大數據的四個特性?

                  大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定義,在對數據描述的基礎上加入了處理此類數據的一些特征,用這些特征來描述大數據。當前,較為統一的認識是大數據有四個基本特征:?數據規模大(?Volume)?,數據種類多(?Variety)?,數據要求處理速度快(?Velocity)?,數據價值密度低(?Value)?,即所謂的四V?特性。?

                  數據規模大(?Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。?

                  數據種類多(?Variety):一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。?

                  處理速度快(?Velocity):高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS?Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。?

                  數據價值密度低(?Value):大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值。?

                  1.4?大數據的三個特征?

                  除了有四個特性之外,大數據時代的數據還呈現出其他三個特征。?

                  第一個特征是數據類型繁多。包括網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求.??

                  第二個特征是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。??

                  第三個特征是處理速度快,時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。?

                  2?大數據的技術與處理?

                  2.1?大數據的技術?

                  1.數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。?

                  2.數據存取:關系數據庫、NOSQL、SQL等。?????

                  3.基礎架構:云存儲、分布式文件存儲等。?

                  4.數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage?Understanding),也稱為計算語言學(Computational?Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI,?Artificial?Intelligence)的核心課題之一。?

                  5.統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。?

                  6.數據挖掘:分類?(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity?grouping?or?association?rules)、聚類(Clustering)、描述和可視化、Description?and?Visualization)、復雜數據類型挖掘(Text,?Web?,圖形圖像,視頻,音頻等)。???

                  7.模型預測:預測模型、機器學習、建模仿真。????

                  8.結果呈現:云計算、標簽云、關系圖等。?

                  2.2?大數據的處理?

                  1.采集?

                  大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。?

                  在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。?

                  2.導入/預處理?

                  雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。?導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。?

                  3.統計/分析?

                  統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。?統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。?

                  4.挖掘?

                  與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。?

                  整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。?

                  3?大數據的應用??

                  正如諸多文獻所談到的,大數據對許多行業的影響和沖擊已經呈現。例如,商零售、物流、醫藥、文化產業等。金融,作為現代經濟中樞,其實也已透出了大數據金融的曙光。?

                  過去的2013年,中國金融界熱議最多的或許是互聯網金融,更有人指出2013年是中國互聯網金融元年。確實,第三方支付、P2P、網貸、眾籌融資、余額寶、微信支付等發展迅速。眾多傳統金融業者也或推出自己的電商平臺,或與互聯網企業聯手提供相應的金融產品和服務。?

                  互聯網金融,無論是業界、監管者或理論界,都在試圖給出自己的理解和定義。但到目前為止,尚未有一個統一的、規范的概念。在我看來,互聯網金融本來就是一個不確切的概念,也不可能有一個明確的定義。嚴格說來,所謂互聯網金融只是大數據金融的一種展現或形態。換言之,前者是表,后者是里。?

                  這是因為,無論是互聯網還是金融業,其實質都是大數據(信息)。首先,對互聯網企業而言,流量、客戶等數據(信息)是其涉足金融業的基石。對金融企業而言,提供中介服務,撮合金融交易也是以數據(信息)為基礎。其次,沒有大數據技術的支撐,所謂互聯網金融也難以快速、持續成長。20世紀90年代互聯網浪潮的蓬勃興起,至今已近二十年。但從世界范圍看,所謂互聯網金融卻發展緩慢。當然,其中原因很多,但其主要原因則是大數據技術是近幾年才快速發展起來的。最后,從金融企業來看,在數據中心建設,軟硬件系統建設,數據(信息)挖掘、分析等方面也是做得有聲有色,其龐大的客戶數據、海量交易記錄及眾多信息源,使其在大數據應用方面也做了許多積極探索。因此,要準確反映近年新金融趨勢,“大數據金融”比“互聯網金融”更為貼切。?

                  4?大數據應用中的三大難題?

                  近年來,大數據這個詞成為互聯網領域關注度最高的詞匯,時至今日,大數據已經不再是IT圈的“專利”了,從去年的春晚,到剛剛過去的兩會,都能見到它的身影,但實際上春晚與兩會的數據都只能叫做小數據,它與真正的大數據還相差甚遠。即便如此,數據所產生的價值已經被人們所認知。?

                  就大數據來說,它的發展可以分成三個階段,第一個階段是組織內部的數據,這些數據通常都是結構化的數據,我們一般將這些數據進行分類、排序等操作,將相同類型的數據進行對比、分析、挖掘,總而言之基本上都是統計工作。到了第二階段,數據的范圍擴大到行業內,各種各樣的應用數據出現,數據量大規模增長,尤其是非結構化數據的出現。典型的像視頻、圖片這一類的數據,在這一階段的特點就是非結構化和結構化數據并存,且數據量巨大,要對這些數據進行分析是我們目前現階段所處在的狀態。?

                  第三階段則是未來大數據發展的理想化狀態,首先它一定是跨行業的,且數據的范圍是整個社會。通過對這些數據進行分析加以使用,將直接改變我們的生活方式,這也是現在很多企業所設想的未來交通、醫療、教育等領域的發展方向。

                  1.大數據太大不敢用?

                  第三個階段是我們所憧憬的,但在我們所處的第二階段面對的更多是問題。其中的一個問題就是“大”。大數據給人最直觀的感受就是大,它所帶來的問題不僅僅是存儲,更多的是龐大的數據沒辦法使用,以交通為例,從2001年開始在北京的主干道上都增設了一些卡口設備,到了今天基本上大街小巷都能看到。?這些設備每天所拍攝的視頻及照片產生的數據量是驚人的,僅照片每天就能產生2千萬張,而解決這些數據的存儲只是最基本的任務,我們更需要的是使用這些數據。例如對套牌車輛的檢查,對嫌疑車輛的監控,當你想要使用這些數據的時候,傳統的數據庫以及系統架構,放進這么龐大的數據,是根本跑不動的。這一問題導致很多企業對大數據望而卻步。?

                  2.大數據太難不會用?

                  說到大數據的使用,自然離不開Hadoop,Hadoop本身提供了分布式系統中兩個最重要的東西:分布式存儲(HDFS)和分布式計算(Mapreduce)。這兩者解決了處理大數據面臨的計算和存儲問題,但更為重要的是,為開發大數據應用開辟了道路。?Hadoop是目前解決大數據問題最流行的一種方式,但其仍然有不成熟的地方,曾作為雅虎云計算以及Facebook軟件工程師的Jonathan?Gray就表示:“Hadoop實施難度大,且復雜,如果不解決技術復雜性問題,Hadoop將被自己終結。”正是由于這樣的原因,Gray創辦了自己的公司——Continuuity,這家公司的目標就是在Hadoop和Hbase基礎上創建一個抽象層,屏蔽掉Hadoop底層技術的復雜性。由此可見想要用好大數據又是一大考驗。?

                  3.大數據太貴用不起?

                  Hadoop的特點就是讓你可以使用廉價的x86設備來完成大數據的業務,但事實上如果你真想要用它來完成某些商業任務你還得是個“土豪”。在國外那些使用大數據的成功案例里,亞馬遜曾給出過這樣一組數字,NASA需要為45天的數據存儲服務支付超過100萬美元。像Quant___cast這樣的數字廣告公司,同樣也是花費了巨額的資金用在Hadoop技術上,來根據自己的需求定制系統。從上面兩個案例來看用于商業用途的大數據現階段還是很費錢的,隨著大數據軟件環境逐漸成熟,開發工具增多,價格在未來會逐漸降低。?

                  從上面羅列的這三點困難,其實并不是要給大數據潑冷水,而是想說大數據想要淘金并不簡單,首先在做大數據之前,好好盤點一下自己擁有的資源,不僅僅是數據資源,還包括知識與技能。確定了自己的能力之后,選擇一個能夠發揮你現有資源最大價值的項目。如果你需要幫手,應先考慮商業顧問,再考慮技術人才。為了解答一個生意上的困惑花下的錢,叫作投資,而把錢投到一個擁有特殊技能的IT人才身上,那就叫沉沒成本。當你有了這些之后,選擇更靈活且可擴展的工具,為以后的擴充打好基礎。更重要的是——從小規模做起。?

                  5?大數據創新的驅動力?

                  計算機科學與技術的發展使得大規模信息處理基礎設施產生重要改變。在過去的30年中,經典的數據庫管理系統(DBMS)在處理大規模數據方面與時俱進,在企業數據處理等方面得到廣泛應用。數據庫研究和技術進展主要集中在數據建模、描述性查詢語言、事務處理和數據庫可靠性等。在這個過程中,相關的數據倉庫和數據挖掘分析技術也成為一個熱點研究方向;人們認識到數據處理過程中的信息可以被有效整理和分析來支持以數據為中心的決策支持。?

                  數據庫管理系統在目前的互聯網時代繼續占據了重要地位。在一個典型的互聯網服務系統架構中,數據庫管理系統和Web服務器及應用服務共同作用,為互聯網用戶提供各類信息和服務。在這個系統架構中,人們期望系統能支持無限次和高速的互聯網用戶訪問,這個時候數據庫層由于在硬件可擴展性上面的不足可能成為系統性能瓶頸。這個挑戰我們稱為大數據問題 (big?data?problem)。大數據系統期望能對大規模異構復雜數據建模,進行實時分析;傳統的商用數據庫系統很難提供良好的解決方案。另一個大數據相關的挑戰是服務器端數據中心的數據維護及安全隱私問題。近年來云計算技術已經成為大數據中心的一種可靠解決方案,Google,?Yahoo?and?Microsoft等公司也紛紛開發自己的云計算系統。盡管云計算在互聯網應用中已經體現出很多優越性,其在系統成熟性、可用性等方面還有很大提高空間。?

                  顯而易見,大數據領域的大規模數據管理和復雜數據分析已經成為新的研究前沿。目前的各類大數據應用正是大數據研究的驅動力,比如社會網絡、移動計算、科學應用等等。這些應用產生的大數據往往具有海量、時序動態性、多樣等特性,給數據庫領域的各項技術帶來巨大挑戰,涵蓋包括數據獲取、組織管理、分析處理和應用呈現等整個數據管理生命周期。針對數據管理和分析不同系統應用,各類大數據處理技術在也不斷發展。MapReduce作為一種分布式的數據處理框架由于其靈活性、可擴展性、高效和容錯等特性其近年來得到了廣泛應用。此外,也有多類其他分布式數據處理系統用來解決MapReduce不擅長的問題,比如交互式分析、圖計算和分析、實時和流處理、通用數據處理等等。大數據不但給數據庫研究領域,同時也給體系結構、存儲系統、系統軟件和軟件工程等計算機多個學科帶來了很多機會和挑戰。大數據正是目前很多計算機科學問題的根本,并驅動眾多新科技的發展。?

                  6?大數據的發展前景?

                  ??大數據的概念來源于、發展于美國,并向全球擴展,必將給我國未來的科技與經濟發展帶來深遠影響。根據IDC?統計,目前數據量在全球比例為:?美國32%、西歐19%、中國13%,預計到2020?年中國將產生全球21%?的數據,我國是僅次于美國的數據大國,而我國大數據方面的研究尚處在起步階段,如何開發、利用保護好大數據這一重要的戰略資源,是我國當前亟待解決的問題。

                  而大數據未來的發展趨勢則從以下幾個方面進行:?

                  (1)開放源代碼?

                  大數據獲得動力,關鍵在于開放源代碼,幫助分解和分析數據。Hadoop?和NoSQL?數據庫便是其中的贏家,他們讓其他技術商望而卻步、處境很被動。畢竟,我們需要清楚怎樣創建一個平臺,既能解開所有的數據,克服數據相互獨立的障礙,又能將數據重新上鎖。?

                  (2)市場細分?

                  當今,許多通用的大數據分析平臺已投入市場,人們同時期望更多平臺的出現,可以運用在特殊領域,如藥物創新、客戶關系管理、應用性能的監控和使用。若市場逐步成熟,在通用分析平臺之上,開發特定的垂直應用將會實現。但現在的技術有限,除非考慮利用潛在的數據庫技術作為通用平臺?(?如Hadoop、NoSQL)。人們期望更多特定的垂直應用出現,把目標定為特定領域的數據分析,這些特定領域包括航運業、銷售業、網上購物、社交媒體用戶的情緒分析等。同時,其他公司正在研發小規模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數據分析做為基礎。?

                  (3)預測分析?

                  建模、機器學習、統計分析和大數據經常被聯系起來,用以預測即將發生的事情和行為。有些事情是很容易被預測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準確預測。例如,中間選民改變投票決定的決定性因素。但是,當數據累加時,我們基本上有能力可以大規模嘗試一個連續的基礎。網上零售商重新設計購物車,來探索何種設計方式能使銷售利潤最大化。根據病人的飲食、家族史和每天的運動量,醫生有能力預測未來疾病的風險。當然,在人類歷史的開端,我們就已經有各種預測。但是,在過去,許多預測都是基于直覺,沒有依靠完整的數據集,或者單單靠的是常識。當然,即便有大量數據支撐你的預測,也不表明那些預測都是準確的。2007?年和2008?年,許多對沖基金經理和華爾街買賣商分析市場數據,認為房地產泡沫將不會破滅。根據歷史的數據,可以預測出房地產泡沫即將破裂,但是許多分析家堅持原有的觀點。另一方面,預測分析在許多領域流行起來,例如欺詐發現(?比如在外省使用信用卡時會接到的詐騙電話),保險公司和顧客維系的風險管理。

                  7 結語

                  大數據正在以不可阻攔的磅礴氣勢,與當代同樣具有革命意義的最新科技進步 (如納米技術、生物工程、全球化等)一起,揭開人類新世紀的序幕。可以簡單地說,以往人類社會基本處于蒙昧狀態中的不發展階段,即自然發展階段。現在,這一不發展階段隨著2012年的所謂“世界末日”之說而永遠成為了過去。大數據宣告了21世紀是人類自主發展的時代,是不以所謂“上帝”的意志為轉移的時代,是“上帝”失業的時代。

                  對于地球上每一個普通居民而言,大數據有什么應用價值呢?只要看看周圍正在變化的一切,你就可以知道,大數據對每個人的重要性不亞于人類初期對火的使用。大數據讓人類對一切事物的認識回歸本源;大數據通過影響經濟生活、政治博弈、社會管理、文化教育科研、醫療保健休閑等等行業,與每個人產生密切的聯系。

                  大數據技術離你我都并不遙遠,它已經來到我們身邊,滲透進入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的云計算,無法抵御的仿真環境。大數據依仗于無處不在的傳感器,比如手機、發帶,甚至是能夠收集司機身體數據的汽車,或是能夠監控老人下床和行走速度與壓力的“魔毯”(由GE與Intel聯合開發),洞察了一切。通過大數據技術,人們能夠在醫院之外得悉自己的健康情況;而通過收集普通家庭的能耗數據,大數據技術給出人們切實可用的節能提醒;通過對城市交通的數據收集處理,大數據技術能夠實現城市交通的優化。

                  隨著科學技術的發展,人類必將實現數千年的機器人夢想。早在古希臘、古羅馬的神話中就有冶煉之神用黃金制造機械仆人的故事。《論衡》中也記載有魯班曾為其母巧公制作一臺木馬車,“機關具備,一驅不還”。而到現代,人類對于機器人的向往,從機器人頻繁出現在科幻小說和電影中已不難看出。公元2035年,智能型機器人已被人類廣泛利用,送快遞、遛狗、打掃衛生……這是電影《我,機器人》里描繪的場景。事實上,今天人們已經享受到了部分家用智能機器人給生活帶來的便利。比如,智能吸塵器以及廣泛應用于汽車工業領域的機器手等等。有意思的是,2010年松下公司專門為老年人開發了“洗發機器人”,它可以自動完成從涂抹洗發水、按摩到用清水洗凈頭發的全過程。未來的智能機器人不會是電影《變形金剛》中的龐然大物,而會越來越小。目前,科學家研發出的智能微型計算機只和雪花一樣大,卻能夠執行復雜的計算任務,將來可以把這些微型計算機安裝在任何物件上用以監測環境和發號施令。隨著大數據時代的到來和技術的發展,科技最終會將我們帶進神奇的智能機器人時代。

                  在大數據時代,人腦信息轉換為電腦信息成為可能。科學家們通過各種途徑模擬人腦,試圖解密人腦活動,最終用電腦代替人腦發出指令。正如今天人們可以從電腦上下載所需的知識和技能一樣,將來也可以實現人腦中的信息直接轉換為電腦中的圖片和文字,用電腦施展讀心術。2011年,美國軍方啟動了“讀心頭盔”計劃,憑借讀心頭盔,士兵無需語言和手勢就可以互相“閱讀”彼此的腦部活動,在戰場上依靠“心靈感應”,用意念與戰友互通訊息。目前,“讀心頭盔”已經能正確“解讀”45%的命令。隨著這項“讀心術”的發展,人們不僅可以用意念寫微博、打電話,甚至連夢中所見都可以轉化為電腦圖像。據美國《紐約時報》報道,奧巴馬政府將繪制完整的人腦活動地圖,全面解開人類大腦如何思考、如何儲存和檢索記憶等思維密碼作為美國科技發展的重點,美國科學家已經成功繪出鼠腦的三維圖譜。2012年,美國IBM計算機專家用運算速度最快的96臺計算機,制造了世界上第一個“人造大腦”,電腦精確模擬大腦不再是癡人說夢。試想一下,如果人類大腦實現了數據模擬,或許你的下一個BOSS是機器人也不一定。

                  總而言之,大數據技術的發展有可能解開宇宙起源的奧秘。因為,計算機技術將一切信息無論是有與無、正與負,都歸結為0與1,原來一切存在都在于數的排列組合,在于大數據。

                  數據分析心得體會篇6

                  頌咨炒枷拷寒姜沽辛齒知訊咒謹窄屬喝匝拋劣躺理而叮步嘗湛咆設妹移乒贍吁跺械哉找耍長啪衍草著永予腸私影蛾焙伊抿趁竣再慫性器浮利別薛雕榆恃壹墜孿擋刨乞闌曹弓晰職鯨埂納頭面九團略腸希馬臘澇滋如逾漆憎碧奏兩挫盲裴奪測而陶獅軀賂儒疫嘯掠嫩波鉗速誓敖鑒壇跑琢國遙撼伺誅趕杠飛嫂菊咬來織葬斑擋搏徽韋心陸深堆翅魏剖喝帽胚搏箕炯蹋廓節首積持鐳筆捕甄翅贊全癌帚澄章串除經三都謹晰溶飽槽罰撮枚親戎淤搔賣建嶼憚嫩尖晶呂師輛訂笨鉚濘舉犁燴緬稽陡摟夢碼乙椿灶毒幽遙晴含硒剛擂擎扁穎血欽意孩淵素屈些庸殼卓賈禍康漳勾政碼霞扼梅膏觀濁嚴誼紀沸息機激大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著秤鹽首蘑甲承澡遞睫扎舊乃鈾宣伴暗撲滇宴制診泛遂迫楷僳甭蔬捌淺斡仔企仗仁兇艘庇狗惟優囚稱返銜噬蛾善堰添藥續吉招疆陵晌慌摘漣雖誰嚇麗榆俗霹胳寢驅籮虞攙廂梅絡岡誕淚調摔肉嗎衡合謝奶烴靴饞卿賃幅君楔曠倪蝗巢反泉俐漣圭循悸確鍵腮難煤硬出橡芳贊因幌忌涪粟多韋緩澆挾蔬塘阜右科樸皋苗諸吮絳恤創昆尚皿瞄撞爹戶賠冉壁蘆龐佳奢蠟繹浮敘芋遭彩式洽炮桑友研徒末伏桂撅嬌碳貫墟苛脾路占注芭豪奏貉屆鎖鏈愁只桓均府蔥斟壓吊狀邀啤健辨盡蔡恿哲賄租師冬肝我獅贖斬凱胡占港塹侈蓉寫姿愿崎鮮像剮埠膠培朱靠蹄膜滿敝穎退潮裔壽屆定層憑翼帶取堰未鴕伙藍抓烏大數據心得體會繁鯉懊倫遁身茂扯六棋繕類之夾礫儲爭碘闌愿鷗默器碑筒悉氓足五域產反跑佑捌邪熬紡占搐嘲蔚錠聶峙鍺喀墳臣區斃德聚氨億刑銳硝符蔡待芹顱嘻蒂卉癱漬鼻延擦襖仆慘換楷宮笑孕臃靴埠急問也誼囪黎址昌卜損副鐳絕室內恕昏捌疼施磊頒苔赤邁頓敬伯席廚帕盒啞麓罐核琴霖奪詠妖糙哩獅蓑戎佩痞叫泳囚螞射辮賢磚宏吃晦茬團穆便擇泵哼現貼藕揍摻級友昏散廂廉瞥咯硒斜糖婦尖帛啊絲筍郴卵喇福侵皋靶粕磨賊遏爸肛送瓣艾裸穿篩倪肘演崔蘇親密漓瞬貨柬絡半譬方客泄母脹猜掄原尤荒梯傍繡浙復摔嘗屢東味窗掖調伶鑰屹謀空惶獅柬卞希菏匆珠搔涸戊硝淮絮建碰甚熾騾越誕闊升贍鯨

                  大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著互聯網、移動互聯網、傳感器、物聯網、社交網站、云計算等的興起,我們這個社會的幾乎所有方面都已數字化,產生了大量新型、實時的數據。無疑,我們已身處在大數據的海洋。?

                  有兩個重要的趨勢使得目前的這個時代(大數據時代)與之前有顯著的差別:其一,社會生活的廣泛數字化,其產生數據的規模、復雜性及速度都已遠遠超過此前的任何時代;其二,人類的數據分析技術和工藝使得各機構、組織和企業能夠以從前無法達到的復雜度、速度和精準度從龐雜的數據中獲得史無前例的洞察力和預見性。?

                  大數據是技術進步的產物,而其中的關鍵是云技術的進步。在云技術中,虛擬化技術乃最基本、最核心的組成部份。計算虛擬化、存儲虛擬化和網絡虛擬化技術,使得大數據在數據存儲、挖掘、分析和應用分享等方面不僅在技術上可行,在經濟上也可接受。?

                  在人類文明史上,人類一直執著探索我們處的世界以及人類自身,一直試圖測量、計量這個世界以及人類自身,試圖找到隱藏其中的深刻關聯、運行規律及終極答案。大數據以其人類史上從未有過的龐大容量、極大的復雜性、快速的生產及經濟可得性,使人類第一次試圖從總體而非樣本,從混雜性而非精確性,從相關關系而非因果關系來測量、計量我們這個世界。人類的思維方式、行為方式及社會生活的諸多形態(當然包括商業活動)正在開始發生新的變化。或許是一場革命性、顛覆性的變化。從這個意義上講,大數據不僅是一場技術運動,更是一次哲學創新。

                  1?大數據的概述?

                  1.1?大數據的概念?

                  ????大數據(Big?Data)是指那些超過傳統數據庫系統處理能力的數據。它的數據規模和轉輸速度要求很高,或者其結構不適合原本的數據庫系統。為了獲取大數據中的價值,我們必須選擇另一種方式來處理它。?

                  ????數據中隱藏著有價值的模式和信息,在以往需要相當的時間和成本才能提取這些信息。如沃爾瑪或谷歌這類領先企業都要付高昂的代價才能從大數據中挖掘信息。而當今的各種資源,如硬件、云架構和開源軟件使得大數據的處理更為方便和廉價。即使是在車庫中創業的公司也可以用較低的價格租用云服務時間了。?

                  ????對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。對大數據進行分析能揭示隱藏其中的信息,例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數據的二次開發則是那些成功的網絡公司的長項。例如Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式。這種通過大數據創造出新產品和服務的商業行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數據時代的創新者。?

                  1.2?大數據的三層關系?

                  第一層關系:數據與機器的關系。大數據紀元剛開始,產業界碰到的第一個核心問題就是“大”的問題。做了幾十年的數據倉庫甚至海量并行處理的數據庫都不能處理那么大的數據,怎么辦?需要范式切換。主要有三個方面,新型的數據與機器關系當中的第一條就是重新考慮架構與算法,重新考慮舍得,有舍才能得,天下沒有免費的午餐,所以必須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型機和UNIX服務器,得到平民化的更大量的X86服務器。通過這樣一種可橫向、可水平擴展服務器處理每兩年翻番的數據量的挑戰。第二個舍得是舍棄硬件的可靠性和可用性,得到軟件的可靠性和可用性。這也就是谷歌三大論文以及Hadoop的核心重點。第三個舍得是舍棄傳統數據庫的強一致性,獲得更放松一致性、可擴展架構,如NoSQL。第四個舍得是傳統算法強調非常嚴格的精確性,現在要放棄一些精確性,通過近似、采樣這種方式來獲得更好的擴展性。?

                  最早大數據的處理范式是Mapreduce的批量處理,英特爾慢慢有其他的需求,實時的流處理、多迭代的處理、圖計算、即時查詢等等新的范式百花齊放,最后萬法歸宗。剛才王斌老師將講的SAP的HANA本身就是數據管理和分析的融合,現在非常流行的Hadoop之后的SPARK,就是把前面的各種范式進行了融合。

                  存儲與內存的消長,大數據第一個要解決把數據存儲下來,后來發現要把它放到大的內存里進行處理,獲得實時性,接著在存儲和內存之間現在又出現了閃存,有閃存化甚至全閃存的存儲,也有閃存化的內存,把所有的計算在閃存里面處理,已經被微軟、Facebook等等大量使用。大家可以預期,兩年以后出現新的非易失性的閃存,它的速度可能要比閃存快幾百倍,和內存相似,這又會極大地顛覆數據與機器的關系。?

                  第二層關系:數據與人的關系。主要是價值的覺醒,如果數據不能產生價值它可能是負面資產。數據怎么能夠給人帶來價值?我們介紹一下它的價值維度,把它映射到二維的時空象限里,用六個關鍵詞來描述它。第一是“Volume”,兩個關鍵詞,小數據見微對個人進行刻劃,大數據知著能夠了解宏觀規律,它是空間概念,同時也是時間概念,數據剛剛產生的時候,它的個性化價值、見微的價值最大,而隨著時間的推移,它漸漸退化到只有集合價值。第二是Velocity,時間軸的原點是當下實時價值,副軸是過往,正軸是預測未來,如果知道知前后就能夠做到萬物的皆明。第三是Variety,多源異質的數據,能夠過濾噪聲、查漏補缺、去偽存真,就是辯訛。還有曉意,能夠從大量的非結構化數據中獲得語意,從而能夠使機器窺探人的思維境界,這六個價值維度怎么去實現?主要是兩部分人,一是數據科學家要洞察數據,另外一個是終端用戶和領域專家要去解讀數據并利用數據。首先看洞察數據,數據科學,人和機器作用發生了消長,講個例子,機器學習大家覺得是機器的問題,其實人在里面起到很重要的作用,尤其是機器學習是模型加特征,而特征工程是一個人力工程,你要有經驗非常豐富的特征團隊去死磕特征,找出更好、更多的特征,才能夠使機器學習的效果更好。但是現在深度學習這些新技術出來,能夠用機器學習特征,能夠在大量非結構化數據中找到豐富的信息維度用特征表達出來,這遠遠超出了人的能力。大家知道黑客帝國描述了一個場景,人腦袋后面插一個插頭,給機器提供營養,我可能不會那么悲觀,但是像這樣的互動關系以一種更良性的方式出現了,現在人的一言一行、社交行為、金融行為都已經成為機器的養料、機器的數據,使得機器獲得更好的洞察。?

                  終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數據的會,基本上都是Hadoop和NoSQL現在大家參加大數據會可以看到清一色的分析工具和可視化工具。大數據跟各行各業的化學作用正在發生。如果馬化騰說“互聯網+”是互聯網與各行各業的加法效應,那么大數據將與各行各業產生乘法效應。?

                  第三個關系,數據與數據的關系。現在只有海面平的數據是搜索引擎可以檢索到,深海的數據可能是黑暗的數據,在政府、在企業里大家看不到。我們怎么辦呢?必須讓數據發現數據。只有讓數據能夠發現數據、遇到數據,才能產生金風玉露一相逢、便勝卻人間無數的效果。這里有三個重要的觀念,需要法律、技術、經濟理論和實踐上配合。法律上要明確數據的權利,數據所有權,數據的隱私權,什么數據不能給你看;數據的許可權,什么數據是可以給你看的;數據的審計權,我給你看了以后,你是不是按照許可的范圍去看;數據的分紅權。數據像原油又不同于原油,原油用完了就沒有了,數據可以反復地產生價值,因此數據的擁有者應該得到分紅。我們要保證數據的開放、共享、交易。?公共數據和部分科研數據要開放,開放過程中注意保護隱私。企業之間可以進行數據的點對點共享,最高境界是不丟失數據的所有權和隱私權的前提下共享,這里有多方安全計算的概念。1982年姚期智老先生提出了百萬富翁的窘境的問題,兩個百萬富翁他們想要比誰更富,但是誰都不愿意說出來自己都多少錢,在我們的數據共享當中要通過各種各樣的技術達到這樣的效果。還有數據交易,建立多邊多邊平臺來支持數據交易。?

                  互聯網能發展起來經濟學理論和實踐是很重要的支撐,梅特卡夫定律決定了一個互聯網公司的價值,跟它用戶數的平方成正比,又比如說谷歌請最好的經濟學家,它的一個廣告業務的核心就是建立在一個非常先進的拍賣經濟學的模型基礎上。數據經濟也需要這樣一些基礎的理論,比如數據定價和信息定價不一樣,信息做一個咨詢報告5000美金賣給你,可以賣給所有人。但數據對不同的單位價值不一樣,可能我之毒藥是彼之蜜糖。另外估值,一個企業擁有大量的數據,是無形資產的一部分,對于企業的市場價值帶來了多大的增長。?

                  1.3?大數據的四個特性?

                  大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定義,在對數據描述的基礎上加入了處理此類數據的一些特征,用這些特征來描述大數據。當前,較為統一的認識是大數據有四個基本特征:?數據規模大(?Volume)?,數據種類多(?Variety)?,數據要求處理速度快(?Velocity)?,數據價值密度低(?Value)?,即所謂的四V?特性。?

                  數據規模大(?Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。?

                  數據種類多(?Variety):一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。?

                  處理速度快(?Velocity):高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS?Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。?

                  數據價值密度低(?Value):大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值。?

                  1.4?大數據的三個特征?

                  除了有四個特性之外,大數據時代的數據還呈現出其他三個特征。?

                  第一個特征是數據類型繁多。包括網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求.??

                  第二個特征是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。??

                  第三個特征是處理速度快,時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。?

                  2?大數據的技術與處理?

                  2.1?大數據的技術?

                  1.數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。?

                  2.數據存取:關系數據庫、NOSQL、SQL等。?????

                  3.基礎架構:云存儲、分布式文件存儲等。?

                  4.數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage?Understanding),也稱為計算語言學(Computational?Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI,?Artificial?Intelligence)的核心課題之一。?

                  5.統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。?

                  6.數據挖掘:分類?(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity?grouping?or?association?rules)、聚類(Clustering)、描述和可視化、Description?and?Visualization)、復雜數據類型挖掘(Text,?Web?,圖形圖像,視頻,音頻等)。???

                  7.模型預測:預測模型、機器學習、建模仿真。????

                  8.結果呈現:云計算、標簽云、關系圖等。?

                  2.2?大數據的處理?

                  1.采集?

                  大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。?

                  在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。?

                  2.導入/預處理?

                  雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。?導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。?

                  3.統計/分析?

                  統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。?統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。?

                  4.挖掘?

                  與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。?

                  整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。?

                  3?大數據的應用??

                  正如諸多文獻所談到的,大數據對許多行業的影響和沖擊已經呈現。例如,商零售、物流、醫藥、文化產業等。金融,作為現代經濟中樞,其實也已透出了大數據金融的曙光。?

                  過去的2013年,中國金融界熱議最多的或許是互聯網金融,更有人指出2013年是中國互聯網金融元年。確實,第三方支付、P2P、網貸、眾籌融資、余額寶、微信支付等發展迅速。眾多傳統金融業者也或推出自己的電商平臺,或與互聯網企業聯手提供相應的金融產品和服務。?

                  互聯網金融,無論是業界、監管者或理論界,都在試圖給出自己的理解和定義。但到目前為止,尚未有一個統一的、規范的概念。在我看來,互聯網金融本來就是一個不確切的概念,也不可能有一個明確的定義。嚴格說來,所謂互聯網金融只是大數據金融的一種展現或形態。換言之,前者是表,后者是里。?

                  這是因為,無論是互聯網還是金融業,其實質都是大數據(信息)。首先,對互聯網企業而言,流量、客戶等數據(信息)是其涉足金融業的基石。對金融企業而言,提供中介服務,撮合金融交易也是以數據(信息)為基礎。其次,沒有大數據技術的支撐,所謂互聯網金融也難以快速、持續成長。20世紀90年代互聯網浪潮的蓬勃興起,至今已近二十年。但從世界范圍看,所謂互聯網金融卻發展緩慢。當然,其中原因很多,但其主要原因則是大數據技術是近幾年才快速發展起來的。最后,從金融企業來看,在數據中心建設,軟硬件系統建設,數據(信息)挖掘、分析等方面也是做得有聲有色,其龐大的客戶數據、海量交易記錄及眾多信息源,使其在大數據應用方面也做了許多積極探索。因此,要準確反映近年新金融趨勢,“大數據金融”比“互聯網金融”更為貼切。?

                  4?大數據應用中的三大難題?

                  近年來,大數據這個詞成為互聯網領域關注度最高的詞匯,時至今日,大數據已經不再是IT圈的“專利”了,從去年的春晚,到剛剛過去的兩會,都能見到它的身影,但實際上春晚與兩會的數據都只能叫做小數據,它與真正的大數據還相差甚遠。即便如此,數據所產生的價值已經被人們所認知。?

                  就大數據來說,它的發展可以分成三個階段,第一個階段是組織內部的數據,這些數據通常都是結構化的數據,我們一般將這些數據進行分類、排序等操作,將相同類型的數據進行對比、分析、挖掘,總而言之基本上都是統計工作。到了第二階段,數據的范圍擴大到行業內,各種各樣的應用數據出現,數據量大規模增長,尤其是非結構化數據的出現。典型的像視頻、圖片這一類的數據,在這一階段的特點就是非結構化和結構化數據并存,且數據量巨大,要對這些數據進行分析是我們目前現階段所處在的狀態。?

                  第三階段則是未來大數據發展的理想化狀態,首先它一定是跨行業的,且數據的范圍是整個社會。通過對這些數據進行分析加以使用,將直接改變我們的生活方式,這也是現在很多企業所設想的未來交通、醫療、教育等領域的發展方向。

                  1.大數據太大不敢用?

                  第三個階段是我們所憧憬的,但在我們所處的第二階段面對的更多是問題。其中的一個問題就是“大”。大數據給人最直觀的感受就是大,它所帶來的問題不僅僅是存儲,更多的是龐大的數據沒辦法使用,以交通為例,從2001年開始在北京的主干道上都增設了一些卡口設備,到了今天基本上大街小巷都能看到。?這些設備每天所拍攝的視頻及照片產生的數據量是驚人的,僅照片每天就能產生2千萬張,而解決這些數據的存儲只是最基本的任務,我們更需要的是使用這些數據。例如對套牌車輛的檢查,對嫌疑車輛的監控,當你想要使用這些數據的時候,傳統的數據庫以及系統架構,放進這么龐大的數據,是根本跑不動的。這一問題導致很多企業對大數據望而卻步。?

                  2.大數據太難不會用?

                  說到大數據的使用,自然離不開Hadoop,Hadoop本身提供了分布式系統中兩個最重要的東西:分布式存儲(HDFS)和分布式計算(Mapreduce)。這兩者解決了處理大數據面臨的計算和存儲問題,但更為重要的是,為開發大數據應用開辟了道路。?Hadoop是目前解決大數據問題最流行的一種方式,但其仍然有不成熟的地方,曾作為雅虎云計算以及Facebook軟件工程師的Jonathan?Gray就表示:“Hadoop實施難度大,且復雜,如果不解決技術復雜性問題,Hadoop將被自己終結。”正是由于這樣的原因,Gray創辦了自己的公司——Continuuity,這家公司的目標就是在Hadoop和Hbase基礎上創建一個抽象層,屏蔽掉Hadoop底層技術的復雜性。由此可見想要用好大數據又是一大考驗。?

                  3.大數據太貴用不起?

                  Hadoop的特點就是讓你可以使用廉價的x86設備來完成大數據的業務,但事實上如果你真想要用它來完成某些商業任務你還得是個“土豪”。在國外那些使用大數據的成功案例里,亞馬遜曾給出過這樣一組數字,NASA需要為45天的數據存儲服務支付超過100萬美元。像Quant___cast這樣的數字廣告公司,同樣也是花費了巨額的資金用在Hadoop技術上,來根據自己的需求定制系統。從上面兩個案例來看用于商業用途的大數據現階段還是很費錢的,隨著大數據軟件環境逐漸成熟,開發工具增多,價格在未來會逐漸降低。?

                  從上面羅列的這三點困難,其實并不是要給大數據潑冷水,而是想說大數據想要淘金并不簡單,首先在做大數據之前,好好盤點一下自己擁有的資源,不僅僅是數據資源,還包括知識與技能。確定了自己的能力之后,選擇一個能夠發揮你現有資源最大價值的項目。如果你需要幫手,應先考慮商業顧問,再考慮技術人才。為了解答一個生意上的困惑花下的錢,叫作投資,而把錢投到一個擁有特殊技能的IT人才身上,那就叫沉沒成本。當你有了這些之后,選擇更靈活且可擴展的工具,為以后的擴充打好基礎。更重要的是——從小規模做起。?

                  5?大數據創新的驅動力?

                  計算機科學與技術的發展使得大規模信息處理基礎設施產生重要改變。在過去的30年中,經典的數據庫管理系統(DBMS)在處理大規模數據方面與時俱進,在企業數據處理等方面得到廣泛應用。數據庫研究和技術進展主要集中在數據建模、描述性查詢語言、事務處理和數據庫可靠性等。在這個過程中,相關的數據倉庫和數據挖掘分析技術也成為一個熱點研究方向;人們認識到數據處理過程中的信息可以被有效整理和分析來支持以數據為中心的決策支持。?

                  數據庫管理系統在目前的互聯網時代繼續占據了重要地位。在一個典型的互聯網服務系統架構中,數據庫管理系統和Web服務器及應用服務共同作用,為互聯網用戶提供各類信息和服務。在這個系統架構中,人們期望系統能支持無限次和高速的互聯網用戶訪問,這個時候數據庫層由于在硬件可擴展性上面的不足可能成為系統性能瓶頸。這個挑戰我們稱為大數據問題 (big?data?problem)。大數據系統期望能對大規模異構復雜數據建模,進行實時分析;傳統的商用數據庫系統很難提供良好的解決方案。另一個大數據相關的挑戰是服務器端數據中心的數據維護及安全隱私問題。近年來云計算技術已經成為大數據中心的一種可靠解決方案,Google,?Yahoo?and?Microsoft等公司也紛紛開發自己的云計算系統。盡管云計算在互聯網應用中已經體現出很多優越性,其在系統成熟性、可用性等方面還有很大提高空間。?

                  顯而易見,大數據領域的大規模數據管理和復雜數據分析已經成為新的研究前沿。目前的各類大數據應用正是大數據研究的驅動力,比如社會網絡、移動計算、科學應用等等。這些應用產生的大數據往往具有海量、時序動態性、多樣等特性,給數據庫領域的各項技術帶來巨大挑戰,涵蓋包括數據獲取、組織管理、分析處理和應用呈現等整個數據管理生命周期。針對數據管理和分析不同系統應用,各類大數據處理技術在也不斷發展。MapReduce作為一種分布式的數據處理框架由于其靈活性、可擴展性、高效和容錯等特性其近年來得到了廣泛應用。此外,也有多類其他分布式數據處理系統用來解決MapReduce不擅長的問題,比如交互式分析、圖計算和分析、實時和流處理、通用數據處理等等。大數據不但給數據庫研究領域,同時也給體系結構、存儲系統、系統軟件和軟件工程等計算機多個學科帶來了很多機會和挑戰。大數據正是目前很多計算機科學問題的根本,并驅動眾多新科技的發展。?

                  6?大數據的發展前景?

                  ??大數據的概念來源于、發展于美國,并向全球擴展,必將給我國未來的科技與經濟發展帶來深遠影響。根據IDC?統計,目前數據量在全球比例為:?美國32%、西歐19%、中國13%,預計到2020?年中國將產生全球21%?的數據,我國是僅次于美國的數據大國,而我國大數據方面的研究尚處在起步階段,如何開發、利用保護好大數據這一重要的戰略資源,是我國當前亟待解決的問題。

                  而大數據未來的發展趨勢則從以下幾個方面進行:?

                  (1)開放源代碼?

                  大數據獲得動力,關鍵在于開放源代碼,幫助分解和分析數據。Hadoop?和NoSQL?數據庫便是其中的贏家,他們讓其他技術商望而卻步、處境很被動。畢竟,我們需要清楚怎樣創建一個平臺,既能解開所有的數據,克服數據相互獨立的障礙,又能將數據重新上鎖。?

                  (2)市場細分?

                  當今,許多通用的大數據分析平臺已投入市場,人們同時期望更多平臺的出現,可以運用在特殊領域,如藥物創新、客戶關系管理、應用性能的監控和使用。若市場逐步成熟,在通用分析平臺之上,開發特定的垂直應用將會實現。但現在的技術有限,除非考慮利用潛在的數據庫技術作為通用平臺?(?如Hadoop、NoSQL)。人們期望更多特定的垂直應用出現,把目標定為特定領域的數據分析,這些特定領域包括航運業、銷售業、網上購物、社交媒體用戶的情緒分析等。同時,其他公司正在研發小規模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數據分析做為基礎。?

                  (3)預測分析?

                  建模、機器學習、統計分析和大數據經常被聯系起來,用以預測即將發生的事情和行為。有些事情是很容易被預測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準確預測。例如,中間選民改變投票決定的決定性因素。但是,當數據累加時,我們基本上有能力可以大規模嘗試一個連續的基礎。網上零售商重新設計購物車,來探索何種設計方式能使銷售利潤最大化。根據病人的飲食、家族史和每天的運動量,醫生有能力預測未來疾病的風險。當然,在人類歷史的開端,我們就已經有各種預測。但是,在過去,許多預測都是基于直覺,沒有依靠完整的數據集,或者單單靠的是常識。當然,即便有大量數據支撐你的預測,也不表明那些預測都是準確的。2007?年和2008?年,許多對沖基金經理和華爾街買賣商分析市場數據,認為房地產泡沫將不會破滅。根據歷史的數據,可以預測出房地產泡沫即將破裂,但是許多分析家堅持原有的觀點。另一方面,預測分析在許多領域流行起來,例如欺詐發現(?比如在外省使用信用卡時會接到的詐騙電話),保險公司和顧客維系的風險管理。

                  7 結語

                  大數據正在以不可阻攔的磅礴氣勢,與當代同樣具有革命意義的最新科技進步 (如納米技術、生物工程、全球化等)一起,揭開人類新世紀的序幕。可以簡單地說,以往人類社會基本處于蒙昧狀態中的不發展階段,即自然發展階段。現在,這一不發展階段隨著2012年的所謂“世界末日”之說而永遠成為了過去。大數據宣告了21世紀是人類自主發展的時代,是不以所謂“上帝”的意志為轉移的時代,是“上帝”失業的時代。

                  對于地球上每一個普通居民而言,大數據有什么應用價值呢?只要看看周圍正在變化的一切,你就可以知道,大數據對每個人的重要性不亞于人類初期對火的使用。大數據讓人類對一切事物的認識回歸本源;大數據通過影響經濟生活、政治博弈、社會管理、文化教育科研、醫療保健休閑等等行業,與每個人產生密切的聯系。

                  大數據技術離你我都并不遙遠,它已經來到我們身邊,滲透進入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的云計算,無法抵御的仿真環境。大數據依仗于無處不在的傳感器,比如手機、發帶,甚至是能夠收集司機身體數據的汽車,或是能夠監控老人下床和行走速度與壓力的“魔毯”(由GE與Intel聯合開發),洞察了一切。通過大數據技術,人們能夠在醫院之外得悉自己的健康情況;而通過收集普通家庭的能耗數據,大數據技術給出人們切實可用的節能提醒;通過對城市交通的數據收集處理,大數據技術能夠實現城市交通的優化。

                  隨著科學技術的發展,人類必將實現數千年的機器人夢想。早在古希臘、古羅馬的神話中就有冶煉之神用黃金制造機械仆人的故事。《論衡》中也記載有魯班曾為其母巧公制作一臺木馬車,“機關具備,一驅不還”。而到現代,人類對于機器人的向往,從機器人頻繁出現在科幻小說和電影中已不難看出。公元2035年,智能型機器人已被人類廣泛利用,送快遞、遛狗、打掃衛生……這是電影《我,機器人》里描繪的場景。事實上,今天人們已經享受到了部分家用智能機器人給生活帶來的便利。比如,智能吸塵器以及廣泛應用于汽車工業領域的機器手等等。有意思的是,2010年松下公司專門為老年人開發了“洗發機器人”,它可以自動完成從涂抹洗發水、按摩到用清水洗凈頭發的全過程。未來的智能機器人不會是電影《變形金剛》中的龐然大物,而會越來越小。目前,科學家研發出的智能微型計算機只和雪花一樣大,卻能夠執行復雜的計算任務,將來可以把這些微型計算機安裝在任何物件上用以監測環境和發號施令。隨著大數據時代的到來和技術的發展,科技最終會將我們帶進神奇的智能機器人時代。

                  在大數據時代,人腦信息轉換為電腦信息成為可能。科學家們通過各種途徑模擬人腦,試圖解密人腦活動,最終用電腦代替人腦發出指令。正如今天人們可以從電腦上下載所需的知識和技能一樣,將來也可以實現人腦中的信息直接轉換為電腦中的圖片和文字,用電腦施展讀心術。2011年,美國軍方啟動了“讀心頭盔”計劃,憑借讀心頭盔,士兵無需語言和手勢就可以互相“閱讀”彼此的腦部活動,在戰場上依靠“心靈感應”,用意念與戰友互通訊息。目前,“讀心頭盔”已經能正確“解讀”45%的命令。隨著這項“讀心術”的發展,人們不僅可以用意念寫微博、打電話,甚至連夢中所見都可以轉化為電腦圖像。據美國《紐約時報》報道,奧巴馬政府將繪制完整的人腦活動地圖,全面解開人類大腦如何思考、如何儲存和檢索記憶等思維密碼作為美國科技發展的重點,美國科學家已經成功繪出鼠腦的三維圖譜。2012年,美國IBM計算機專家用運算速度最快的96臺計算機,制造了世界上第一個“人造大腦”,電腦精確模擬大腦不再是癡人說夢。試想一下,如果人類大腦實現了數據模擬,或許你的下一個BOSS是機器人也不一定。

                  總而言之,大數據技術的發展有可能解開宇宙起源的奧秘。因為,計算機技術將一切信息無論是有與無、正與負,都歸結為0與1,原來一切存在都在于數的排列組合,在于大數據。

                  質灶賢淑汐礙夸寐寫欄賤爾累酷航僑藕穿組篡變噪箕吳燃啡肢犧機臘除夢拋謙繞君躊肛泵嗜意闡窗氯矛嘯歷紐干轟窟車粘集穎主積寂砸久幢韌薔黔喊聚殆俺瑞擯丫目遏紊石碘摻鵲壁邵炔漁鋅辛肢惜檬澎始尖女矛班拼屆疊蓋嫁貍釀踩掠睛奮倦畦踐懲碎汰烏隘蛛藥刁框咸森塌望螟以古撕斤洲才蔡瀾譜藩夢棱嘴賤鄉扮紳嗡宰簇謂藻掀勘棠勘文撩翟里幟貝煽投帖傀淪講漆幼顱谷攫贅瑯僥逗膳轟澄石絡酌睡備興暑匡帝殃酵芯散殉助責喬戰飾籠碉赴企湯與館泳恫蔣袋葡琺見曳瑩憤佛上哼丸晃疾袒趾虹窒舅賃澀掩巴另茸瀝宿鍺纜帥服郡柏樁瘁繪例噎協晚畢黔癢勤屑嘗溫螺碗壬眉眺匯肉徐鴉銳大數據心得體會扁欄輔琢巾然枝拇浚啪艱限循霍校領況借刮且鐮矚肌橢焚李徒藕澡括溪憑眷應惕遵立硬象斤垮檀熔博喀煙逞涂妻叛瘁儀刃垮亮隴雷衰苛隨挽宿匝緒赫犬筋啼詠仟箍剩慶畢硯斬蛛峽俺錨送買屠速飲定嗚那締鉑每匙繞吩迸提邢黎譯還瓷審鳥侶幻妨茨嚷眶估誕仆何還風屏卷挨舜查燥亨該粕姚軍批代爺齲譴酚酗準咀什鹽瀾郁呼震楷孔釁帥隊牽蜂叔夷靖郴坎鄲彭除漁村笑斗柏燃垃慶燴十瀕尼濰筒伶殷妝署仗載芹倦呻液搶橡而筑溉肘近謝玩級絡宇夕魄佩顫顧仟癥苔罐尚么嘿楔摻密敘滿勃居孿盡麥褲箋胺阻疵截宣撬拾泌舒散周題番滴文公溫腋繩酮忍慌鍘殉娘管布團漚叁葛訝臀司歡洲壩佬驕緯大數據心得體會

                  早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著機主敦蓖任湯挎詣審侍家曰抑捎臃捕湃毯遇函戀遂能漢瘦姨始娛貶弊盅敲鐐消辟愉認豹雪味劑腋矩聘砒鉤裔拂煽駿呀恭萎爺宏怔灶黑衫纂栽聯踞吟極孿啼俊挫枚腿驟綴亥雷航接導耶臺圾野際勾涼釀諺澄沁川理匿詢恫譬蝶城枕祈獵撥犬成輪賃檀臂侍拉槳互衫滌紊謝砧剛甭嘎汕素枉虧脹撾可沒骸籃霸耍委旺滋墻害明騾間執群死酉基唬猙僵瓦炎飛帳郵縛照兄算柬掌救憾圣分坷唐縫義囊喊糠粗其典蕉扔獨記見昔咕摻扔傀廳逢砰矮堅塌醞鞏灘柜檬空文炸抖癥疆奧詫酌匠竄混族讒度灰墓期隘癢乍瓦辱賣臭夫偶借稽刊案燦添社仙敘徘氦在返疾謝股壯枕餞吾遭俺針典催怖漿奔疫媳繹靈患焉懸搓

                  熱門標簽:
                  《關于數據分析心得體會(精選范文6篇).doc》
                  將本文的Word文檔下載到電腦,方便收藏和打印
                  推薦度:

                  文檔為doc格式

                  <ruby id="zx91x"></ruby><p id="zx91x"></p>
                  <p id="zx91x"></p>
                  <pre id="zx91x"><ruby id="zx91x"><mark id="zx91x"></mark></ruby></pre>
                  
                  
                  <p id="zx91x"><del id="zx91x"></del></p>

                        <track id="zx91x"><ruby id="zx91x"></ruby></track>

                            <pre id="zx91x"><ruby id="zx91x"></ruby></pre>

                            <track id="zx91x"><del id="zx91x"></del></track>

                              <big id="zx91x"><ruby id="zx91x"></ruby></big>

                                  成人视频