當前位置: 首頁 新技術(shù)應用
IDC激增,外媒稱大數(shù)據(jù)領(lǐng)域?qū)⒂行纶A家或指NoSQL
來源:本站 發(fā)布者:管理員 閱讀:
次
全球復雜網(wǎng)絡研究專家日前到訪中國,為其新作《爆發(fā)》作宣傳。他在接受國內(nèi)媒體采訪時表示,未來可能有新公司取代谷歌、Facebook等公司,成為大數(shù)據(jù)領(lǐng)域的贏家。
《爆發(fā)》一書是一本討論大數(shù)據(jù)問題的商業(yè)書籍。作為復雜網(wǎng)絡研究的權(quán)威,巴拉巴西在大數(shù)據(jù)興起的背景下,得出一個結(jié)論性的判斷,認為人類行為93%是可以預測的。
巴拉巴西的研究是在人類生活數(shù)字化的大數(shù)據(jù)時代基礎(chǔ)上進行的,移動電話、網(wǎng)絡以及電子郵件使人類行為變得更加容易量化,將我們的社會變成了一個巨大的數(shù)據(jù)庫。濟南網(wǎng)站建設
在本書中,巴拉巴西揭開人類行為背后隱藏的模式“爆發(fā)”,提出人類日常行為模式不是隨機的,而是具有“爆發(fā)性”的。
今天下午,巴拉巴西接受國內(nèi)媒體采訪,并對于IT行業(yè)的大數(shù)據(jù)公司作出點評。他表示,雖然谷歌在大數(shù)據(jù)搜集方面有好的歷史,但未來谷歌可能會與Facebook等公司并駕齊驅(qū)。
巴拉巴西表示,微軟(微博)一直想打贏谷歌,但是微軟沒有打贏;谷歌一直想打贏Facebook,但是谷歌推出的社交服務Google+也一直沒有打贏Facebook。同樣,F(xiàn)acebook也沒有打贏Twitter,所以未來很有可能有新的公司出現(xiàn),取代他們。
近來,大數(shù)據(jù)已經(jīng)成為各個行業(yè)討論的熱點。在IT領(lǐng)域,包括IBM、惠普等在內(nèi)的廠商在追捧“大數(shù)據(jù)”的概念,并且推出一系列針對“大數(shù)據(jù)”的分析解決方案,挖掘數(shù)據(jù)背后的價值。
資深I(lǐng)T專家謝文此前接受新浪科技采訪時表示,未來能夠稱得上大數(shù)據(jù)的公司將是Facebook、蘋果、谷歌等這樣的平臺型公司。他還預測,F(xiàn)acebook上市后,下一個偉大的公司應該是大數(shù)據(jù)方向的公司,并有可能在2020年上市。
IDC估計到2011年數(shù)據(jù)約達到1.8ZB。
ZB有多大?答案是10億個TB。目前世界人口有7億——也就是說,如果給每個人250G硬盤——存儲空間仍然是不夠用的。
這次的數(shù)據(jù)洪流有諸多來源:
1. 紐約證券交易所每天產(chǎn)生1TB的新交易數(shù)據(jù);
2. Facebook主機存儲100億張照片會占用1PB空間;
3. Ancestry.com,家譜網(wǎng),存儲約2.5PB數(shù)據(jù);
4. 互聯(lián)網(wǎng)檔案館存儲約2PB數(shù)據(jù),并以每月約20TB的速度增長;
5. Geneva附近的Large Harden Colider每年將產(chǎn)生15PB的數(shù)據(jù);
6. 人們每天從傳感器、移動設備、網(wǎng)上交易和社交網(wǎng)絡創(chuàng)造相當于2.5萬億字節(jié)的數(shù)據(jù)。
Facebook、Yahoo和Google發(fā)現(xiàn)他們以空前的規(guī)模匯集數(shù)據(jù)。他們是第一批從上百萬用戶中匯集數(shù)據(jù)的大公司。
這些數(shù)據(jù)迅速淹沒了傳統(tǒng)的例如Oracle和MySQL等的數(shù)據(jù)系統(tǒng)。即便是最好的、最昂貴的供應商使用最大規(guī)模的硬件也只能勉強跟上,無法給他們有力的工具來分析數(shù)據(jù)的涌入。
在2000年初,開發(fā)諸如MapReduce、BigTable、Google File System的新技術(shù)來處理大數(shù)據(jù)。最初,這些技術(shù)是專有的。但隨后人們注意到公開的概念會更有利-因為越來越多的人會有助于此,并且他們雇傭的畢業(yè)生在加入他們之前對此也會有一個良好的理解。
在2004-2005年度,F(xiàn)acebook、Yahoo和Google開始共享描述他們大數(shù)據(jù)技術(shù)的研究論文。
2004年,Google發(fā)表題為“MapReduce:在大型集群上簡化數(shù)據(jù)處理(MapReduce: Simplified Data Processing on Large Clusters)”的論文。
MapReduce是一個編程模型,同時也是一個處理和生成大型數(shù)據(jù)的工具。用戶指定映射函數(shù)來處理一對key-value以生成一個中間key-value的集合,指定reduce函數(shù)合并相同的中間鍵關(guān)聯(lián)的所有的中間值。正如這篇文章所寫,現(xiàn)實世界的許多工作都可以在這個模型中得以表達。
以此功能所編寫的程序自動并行,而且能在商品機大型集群上執(zhí)行。系統(tǒng)處理分割輸入數(shù)據(jù)的細節(jié),跨機器調(diào)度程序執(zhí)行,處理機器故障,管理所需的機器間的通訊。這樣使得沒有任何操作并行和分布式系統(tǒng)經(jīng)驗的程序員同樣可以輕松地利用大型分布式系統(tǒng)的資源。Google基于MapReduce實現(xiàn)在大型集群的商品機上運行并且這是高度可伸縮的。
一個典型的MapReduce在成百上千臺機器上處理大量的數(shù)據(jù)。設計器和系統(tǒng)是很容易使用的。數(shù)以百計的MapReduce程序已經(jīng)實施并且每天有超過一千的MapReduce工作在Google集群執(zhí)行。
Nutch是一個開源的搜索技術(shù),現(xiàn)在由Apache Software Foundation管理,而為其工作的Doug Cutting閱讀了由Google發(fā)表的此文和由Google分布式文件系統(tǒng)[GFS]發(fā)表的另一篇文章,指出GFS可以解決他們的存儲要求,MapReduce也會解決Nuth和實施MapReduce及GFS的縮放問題。他們把為Nutch實施的GFS命名為Nutch Distributed Filesystem[NDFS]。
NDFS和Nutch的MapReduce的實現(xiàn)超出了搜索領(lǐng)域,并于2006年2月遷移出Nutch構(gòu)建成一個名為Hadoop和NDFS的獨立的Lucene子項目,成為HDFS[Hadoop分布式文件系統(tǒng)],這是一個GFS的實現(xiàn)。與此同時,Yahoo延長了他們對Hadoop的支持并雇傭了Doug Cutting。
在HDFS的工作層面,有一個300MB的文件[Hadoop的PB級和TB級文件非常好]。HDFS所需做的第一件事就是將它分割為若干塊。HDFS上的默認塊的大小為128MB。一旦把他們分割成塊,我們將得到分別為128MB和44MB的兩個部分,F(xiàn)在,HDFS將‘n’[‘n’即是配置]作為每個塊的拷貝/副本的一部分。HDFS將這些副本存儲在集群的不同數(shù)據(jù)節(jié)點上。我們也有單一的保持著副本和數(shù)據(jù)節(jié)點路徑的數(shù)據(jù)NameNode。NameNode清楚副本在什么位置-每當它檢測到有副本損壞[DataNode一直在副本上進行校驗]或者相應的HDFS變?yōu)閐own,它將會尋找集群中該副本的其他副本,并告訴其他節(jié)點復制該副本的‘n’。NameNode是一個單點故障-兩個點就會避免出現(xiàn)這種情況,我們會有與主要NameNode同步的次要NameNode-當主的變?yōu)閐own-從的將會起控制作用。Hadoop項目目前工作在分布式的NameNodes上。
標簽: 濟南網(wǎng)站建設 網(wǎng)站建設 濟南網(wǎng)站制作 網(wǎng)址: www.fanwen1688.com
《爆發(fā)》一書是一本討論大數(shù)據(jù)問題的商業(yè)書籍。作為復雜網(wǎng)絡研究的權(quán)威,巴拉巴西在大數(shù)據(jù)興起的背景下,得出一個結(jié)論性的判斷,認為人類行為93%是可以預測的。
巴拉巴西的研究是在人類生活數(shù)字化的大數(shù)據(jù)時代基礎(chǔ)上進行的,移動電話、網(wǎng)絡以及電子郵件使人類行為變得更加容易量化,將我們的社會變成了一個巨大的數(shù)據(jù)庫。濟南網(wǎng)站建設
在本書中,巴拉巴西揭開人類行為背后隱藏的模式“爆發(fā)”,提出人類日常行為模式不是隨機的,而是具有“爆發(fā)性”的。
今天下午,巴拉巴西接受國內(nèi)媒體采訪,并對于IT行業(yè)的大數(shù)據(jù)公司作出點評。他表示,雖然谷歌在大數(shù)據(jù)搜集方面有好的歷史,但未來谷歌可能會與Facebook等公司并駕齊驅(qū)。
巴拉巴西表示,微軟(微博)一直想打贏谷歌,但是微軟沒有打贏;谷歌一直想打贏Facebook,但是谷歌推出的社交服務Google+也一直沒有打贏Facebook。同樣,F(xiàn)acebook也沒有打贏Twitter,所以未來很有可能有新的公司出現(xiàn),取代他們。
近來,大數(shù)據(jù)已經(jīng)成為各個行業(yè)討論的熱點。在IT領(lǐng)域,包括IBM、惠普等在內(nèi)的廠商在追捧“大數(shù)據(jù)”的概念,并且推出一系列針對“大數(shù)據(jù)”的分析解決方案,挖掘數(shù)據(jù)背后的價值。
資深I(lǐng)T專家謝文此前接受新浪科技采訪時表示,未來能夠稱得上大數(shù)據(jù)的公司將是Facebook、蘋果、谷歌等這樣的平臺型公司。他還預測,F(xiàn)acebook上市后,下一個偉大的公司應該是大數(shù)據(jù)方向的公司,并有可能在2020年上市。
IDC估計到2011年數(shù)據(jù)約達到1.8ZB。
ZB有多大?答案是10億個TB。目前世界人口有7億——也就是說,如果給每個人250G硬盤——存儲空間仍然是不夠用的。
這次的數(shù)據(jù)洪流有諸多來源:
1. 紐約證券交易所每天產(chǎn)生1TB的新交易數(shù)據(jù);
2. Facebook主機存儲100億張照片會占用1PB空間;
3. Ancestry.com,家譜網(wǎng),存儲約2.5PB數(shù)據(jù);
4. 互聯(lián)網(wǎng)檔案館存儲約2PB數(shù)據(jù),并以每月約20TB的速度增長;
5. Geneva附近的Large Harden Colider每年將產(chǎn)生15PB的數(shù)據(jù);
6. 人們每天從傳感器、移動設備、網(wǎng)上交易和社交網(wǎng)絡創(chuàng)造相當于2.5萬億字節(jié)的數(shù)據(jù)。
Facebook、Yahoo和Google發(fā)現(xiàn)他們以空前的規(guī)模匯集數(shù)據(jù)。他們是第一批從上百萬用戶中匯集數(shù)據(jù)的大公司。
這些數(shù)據(jù)迅速淹沒了傳統(tǒng)的例如Oracle和MySQL等的數(shù)據(jù)系統(tǒng)。即便是最好的、最昂貴的供應商使用最大規(guī)模的硬件也只能勉強跟上,無法給他們有力的工具來分析數(shù)據(jù)的涌入。
在2000年初,開發(fā)諸如MapReduce、BigTable、Google File System的新技術(shù)來處理大數(shù)據(jù)。最初,這些技術(shù)是專有的。但隨后人們注意到公開的概念會更有利-因為越來越多的人會有助于此,并且他們雇傭的畢業(yè)生在加入他們之前對此也會有一個良好的理解。
在2004-2005年度,F(xiàn)acebook、Yahoo和Google開始共享描述他們大數(shù)據(jù)技術(shù)的研究論文。
2004年,Google發(fā)表題為“MapReduce:在大型集群上簡化數(shù)據(jù)處理(MapReduce: Simplified Data Processing on Large Clusters)”的論文。
MapReduce是一個編程模型,同時也是一個處理和生成大型數(shù)據(jù)的工具。用戶指定映射函數(shù)來處理一對key-value以生成一個中間key-value的集合,指定reduce函數(shù)合并相同的中間鍵關(guān)聯(lián)的所有的中間值。正如這篇文章所寫,現(xiàn)實世界的許多工作都可以在這個模型中得以表達。
以此功能所編寫的程序自動并行,而且能在商品機大型集群上執(zhí)行。系統(tǒng)處理分割輸入數(shù)據(jù)的細節(jié),跨機器調(diào)度程序執(zhí)行,處理機器故障,管理所需的機器間的通訊。這樣使得沒有任何操作并行和分布式系統(tǒng)經(jīng)驗的程序員同樣可以輕松地利用大型分布式系統(tǒng)的資源。Google基于MapReduce實現(xiàn)在大型集群的商品機上運行并且這是高度可伸縮的。
一個典型的MapReduce在成百上千臺機器上處理大量的數(shù)據(jù)。設計器和系統(tǒng)是很容易使用的。數(shù)以百計的MapReduce程序已經(jīng)實施并且每天有超過一千的MapReduce工作在Google集群執(zhí)行。
Nutch是一個開源的搜索技術(shù),現(xiàn)在由Apache Software Foundation管理,而為其工作的Doug Cutting閱讀了由Google發(fā)表的此文和由Google分布式文件系統(tǒng)[GFS]發(fā)表的另一篇文章,指出GFS可以解決他們的存儲要求,MapReduce也會解決Nuth和實施MapReduce及GFS的縮放問題。他們把為Nutch實施的GFS命名為Nutch Distributed Filesystem[NDFS]。
NDFS和Nutch的MapReduce的實現(xiàn)超出了搜索領(lǐng)域,并于2006年2月遷移出Nutch構(gòu)建成一個名為Hadoop和NDFS的獨立的Lucene子項目,成為HDFS[Hadoop分布式文件系統(tǒng)],這是一個GFS的實現(xiàn)。與此同時,Yahoo延長了他們對Hadoop的支持并雇傭了Doug Cutting。
在HDFS的工作層面,有一個300MB的文件[Hadoop的PB級和TB級文件非常好]。HDFS所需做的第一件事就是將它分割為若干塊。HDFS上的默認塊的大小為128MB。一旦把他們分割成塊,我們將得到分別為128MB和44MB的兩個部分,F(xiàn)在,HDFS將‘n’[‘n’即是配置]作為每個塊的拷貝/副本的一部分。HDFS將這些副本存儲在集群的不同數(shù)據(jù)節(jié)點上。我們也有單一的保持著副本和數(shù)據(jù)節(jié)點路徑的數(shù)據(jù)NameNode。NameNode清楚副本在什么位置-每當它檢測到有副本損壞[DataNode一直在副本上進行校驗]或者相應的HDFS變?yōu)閐own,它將會尋找集群中該副本的其他副本,并告訴其他節(jié)點復制該副本的‘n’。NameNode是一個單點故障-兩個點就會避免出現(xiàn)這種情況,我們會有與主要NameNode同步的次要NameNode-當主的變?yōu)閐own-從的將會起控制作用。Hadoop項目目前工作在分布式的NameNodes上。
標簽: 濟南網(wǎng)站建設 網(wǎng)站建設 濟南網(wǎng)站制作 網(wǎng)址: www.fanwen1688.com
- 打印本文
- 關(guān)閉本頁
- 建站服務熱線:0531-68808868 售后服務專線:0531-88961515
欄目導航:Type