華海濤:大數(shù)據(jù)的產(chǎn)生基于結(jié)構(gòu)化數(shù)據(jù)
2015-03-27 17:15:00 來源:央廣網(wǎng)
央廣網(wǎng)北京3月27日消息 3月27日,由中央人民廣播電臺新媒體宣傳中心、河北大學(xué)新聞傳播學(xué)院、中國社會科學(xué)院世界傳媒研究中心、中國科技新聞學(xué)會網(wǎng)絡(luò)媒體專業(yè)委員會共同主辦的“首屆大數(shù)據(jù)時代創(chuàng)新與媒體變革研討會”在京舉行,本次研討會以“時代創(chuàng)新 媒介變革”為主題,圍繞大數(shù)據(jù)時代全球網(wǎng)絡(luò)文化發(fā)展趨勢,探討全球媒介創(chuàng)新發(fā)展未來。網(wǎng)絡(luò)文化建設(shè)和管理部門、科研院校、國家核心學(xué)術(shù)期刊負(fù)責(zé)人、專家、學(xué)者共200人出席會議。
味道網(wǎng)CEO華海濤在《大數(shù)據(jù)時代的中國青年媒體人成長論壇》中談到為什么會有“大數(shù)據(jù)”,他認(rèn)為,是因為現(xiàn)在有很多每天產(chǎn)生出來的結(jié)構(gòu)化數(shù)據(jù)都是有用的,存在在郵件附件里、數(shù)據(jù)庫里面。它們之間有相互關(guān)系,但沒辦法用傳統(tǒng)的關(guān)系數(shù)據(jù)庫的方法進(jìn)行查詢分析。之前在2000年前后,其實已經(jīng)有這種概念,就是數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,非常接近于現(xiàn)在大家講的大數(shù)據(jù),所以說很多人就會在這個上面進(jìn)行混淆。
大數(shù)據(jù)不是一個特定的產(chǎn)品,是分布式的文件系統(tǒng),基于這樣的文件系統(tǒng)建模,然后才有可能在短時間內(nèi)對大量的數(shù)據(jù)進(jìn)行分析。
以下為文字實錄:
從我個人的角度闡述一下我對大數(shù)據(jù)的看法。首先作為技術(shù)人員來講我認(rèn)為大數(shù)據(jù)首先要看本質(zhì),為什么出來這樣一個名詞,跟他比較接近的在2000年那個時候大家講寬帶,什么叫寬帶,帶寬到底多少是寬帶,現(xiàn)在發(fā)展到了10兆瓦、20兆,剛開始的時候512K那個時候也叫寬帶,所以這個事情是不準(zhǔn)確的。大數(shù)據(jù)到底多大才算大,是不是一個GB的數(shù)據(jù)就不算大,其實我可以告訴大家本質(zhì)上不是這個樣子。
為什么會有大數(shù)據(jù)這樣一個名詞。是因為就是說現(xiàn)在我們有很多每天產(chǎn)生出來的數(shù)據(jù)也不過結(jié)構(gòu)化,當(dāng)然里面也有一些結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)其實都是有用的,可能有些是在郵件、附件里面,有的是在數(shù)據(jù)庫里面。他們之間又有相互關(guān)系沒有辦法用傳統(tǒng)的關(guān)系數(shù)據(jù)庫的方法進(jìn)行查詢分析。之前在2000年前后其實已經(jīng)有這種概念,就是數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,非常接近于現(xiàn)在大家講的大數(shù)據(jù),所以說很多人就會在這個上面進(jìn)行混淆。
比如說像尿布跟啤酒的例子,好像是這樣,這個例子我也是聽了十幾年了。大數(shù)據(jù)更多的可能是商家或者國際巨頭用于一波又一波的創(chuàng)造新的IT增長點,然后可能很多人也不自覺的就卷到這個里面去了,所以我說我們普通民眾是要認(rèn)清楚這個問題。遇到了什么問題現(xiàn)在我們開始提這個大數(shù)據(jù),剛開始講了查詢分析,這里面用傳統(tǒng)的模型或者是工具研發(fā)解決。它不是一個特定的產(chǎn)品,是分布式的文件系統(tǒng),基于這樣一個文件系統(tǒng)上面我們可能主要是建模,做了這樣一些事情,然后你才有可能去在一個相對短的時間內(nèi)對大量的數(shù)據(jù)進(jìn)行分析。
我先說一下大數(shù)據(jù)為什么現(xiàn)在我們很多人感覺像見不到它,見到部分到就對了,因為手里根本就沒有大數(shù)據(jù),大數(shù)據(jù)在誰的手里,其實就是數(shù)據(jù)生產(chǎn)者,我們從源頭算起,每個人在文本框里輸入一個詞,那這個詞就是精確的,服務(wù)器是可以記錄下來的。那我們上億的人甚至幾十億的人在搜索引擎里輸入這個數(shù)據(jù)是非常精準(zhǔn)的計算了像百度、谷歌這個數(shù)據(jù)當(dāng)中去。包括語音、包括視頻然后像電子商務(wù)其實最精準(zhǔn)的是電子商務(wù)。
我經(jīng)常跟同事或者朋友在一起聊天的時候就說,其實如果是我們講阿里、京東他們所掌握的中國的消費數(shù)據(jù)可能比國家統(tǒng)計局的還要準(zhǔn)。因為什么呢?因為里面的每一筆訂單是誰的,它精確到分,每一分都不會差的。它能夠明顯的分析出來這里面有男性用戶、女性用戶,在什么年齡段所以這個是很精確的,然后還有像微博、微信,微信這個事情最新的版本剛剛開放微信的搜索,之前也沒有開放搜索,數(shù)據(jù)在哪里?先存著,現(xiàn)在存儲很便宜,他可以搞到這樣的數(shù)據(jù)放在那里,什么時候想分析就可以去分析。所以說這個事情我們老百姓能感覺到跟我們好像沒什么關(guān)系。但是多少有一點關(guān)系,但那個關(guān)系什么,我們可以去用,但是用的成本有多少這個不知道。
每個人都想去建自己大數(shù)據(jù)的中心,或者在技術(shù)上用了大數(shù)據(jù)的方法。比如說我們?nèi)ツ晟暇的味道網(wǎng)是一個農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站,那這個電子商務(wù)網(wǎng)站跟其他的很多電子商務(wù)網(wǎng)站有共性的地方,那就是我也需要廣告,剛才褚總講的很好,叫整合了各種廣告資源同時做時實的數(shù)據(jù)分析,是我們電子商務(wù)網(wǎng)站具體的一個應(yīng)用點。然后還有一點我們自有數(shù)據(jù)的積累,積累到一定程度比如想象一下每天如果能產(chǎn)生一萬訂單,這一萬訂單量每個人都會有一個評價,如果在評價上再有一個互評的話,這個數(shù)據(jù)量也是蠻嚇人的,基本上意味著可能做一個普通的關(guān)系型數(shù)據(jù)庫這樣一個查詢,一分鐘或者10分鐘,這樣用戶是等不了的?赡芪覀円獱奚粢恍┚_性,然后用一些大數(shù)據(jù)的方法來把它搞定。
另外我在從業(yè)過程中還遇到一個例子,就是說有一個是跟藝術(shù)品定價有關(guān)系的,當(dāng)時設(shè)計了29個緯度包括拍賣行的價格,包括大家的評價、評論、以及以往所有人的評價,這些東西通通弄到里面去,有不同的權(quán)重也不一定是線性的,把這些東西都弄到里面去去做一個應(yīng)用點在哪里?就是說拿它去做一個藝術(shù)品的基礎(chǔ)價格的一個估價。因為現(xiàn)在大家都知道藝術(shù)品價格是很混亂的,賣多少錢都有,那到底讓消費者知道這個東西值多少錢,所以他們想了這個辦法。
但是這里面一個最大的問題就是剛才上午也有嘉賓分享到了,這里面關(guān)于數(shù)據(jù)的準(zhǔn)確性的問題。我們是不能相信的,這里面數(shù)據(jù)你不知道是哪一條不準(zhǔn)確,所以我們認(rèn)為整體就是不準(zhǔn)確的,這里面不能單獨的數(shù)據(jù)清洗,那你憑什么清洗掉某一條數(shù)據(jù)?它也許是準(zhǔn)的也許是不準(zhǔn)的,這里面是應(yīng)用上一個很大的問題。
對精準(zhǔn)數(shù)據(jù)來講其實我覺得是現(xiàn)在一個最大的應(yīng)用點。剛才我就從技術(shù)的角度說了一下大數(shù)據(jù)的這些事情。然后總結(jié)一下吧:現(xiàn)在我覺得是一個大數(shù)據(jù)的,我們趕上了這樣一個時代確實是,未來可能會像王立新教授講的非常精采,未來可能會達(dá)到那樣一個理想的狀態(tài),一個完美的狀態(tài),就是說我們可以把中間的不對稱造成的摩擦的成本降到最低,但是那個時代可能還比較遙遠(yuǎn),目前我們能做到的事情就是認(rèn)清形勢,想清楚這個大數(shù)據(jù)這樣一個概念或者一個技術(shù)對我們到底會有些什么樣實際的應(yīng)用,不要迷茫就好,謝謝大家!
編輯:王天怡
關(guān)鍵詞:大數(shù)據(jù);研討會
2015-03-27 17:29:00
2015-03-27 17:25:00
2015-03-27 17:06:00
參與討論
我想說
央廣網(wǎng)官方微信
手機(jī)央廣網(wǎng)