2000年七乐彩走势图777|七乐彩走势图表新浪网 Top
首頁 > 觀點爭鋒 > 正文

《觀點爭鋒》:大數據還是小數據?

首期《觀點爭鋒》欄目,有幸邀請到中鋼集團信息管理部總經理李紅,昆侖數據首席數據科學家田春華博士,中國大數據產業生態聯盟郭嘉凱三位重磅嘉賓,就“大數據還是小數據”?的話題展開探討
發布時間:2019-03-26 10:56        來源:賽迪網        作者:觀點爭鋒

【賽迪網訊】《觀點爭鋒》是由賽迪2019年新創欄目,聚焦工業和信息化領域,意在搭建一個專家學者、意見領袖、牛人大咖與業界互動的平臺。通過線下思想交鋒,線上問題征集,以視頻、圖文的形式,全方位的向業界展示更多專業的、智慧的內容精華。

首期《觀點爭鋒》欄目,有幸邀請到中鋼集團信息管理部總經理李紅,昆侖數據首席數據科學家田春華博士,中國大數據產業生態聯盟郭嘉凱三位重磅嘉賓,就“大數據還是小數據”?的話題展開探討,下文為現場實錄。

主持人:賽迪集團軟件和集成電路雜志社總編輯、中國大數據產業生態聯盟副秘書長 郭嘉凱

嘉賓:   中鋼集團信息管理部總經理 李紅

           昆侖數據首席數據科學家 田春華 博士

WechatIMG202

賽迪集團軟件和集成電路雜志社總編輯、中國大數據產業生態聯盟副秘書長 郭嘉凱(左)

中鋼集團信息管理部總經理李紅(中)

昆侖數據首席數據科學家田春華博士(右)

主持人:各位觀眾,大家好!歡迎收看本期《觀點爭鋒》欄目,本期欄目的主題是“大數據還是小數據”?

在過去幾年,大數據一詞炙手可熱,很多企業、用戶都對大數據十分感興趣。但是在實際應用當中,我們看到大數據應用的狀況似乎并不如想象中的普遍。

世界著名品牌營銷專家馬丁·林斯特龍指出:大數據雖然連接了千萬個數據點,可以準確地產生相互關系,但是當人類按照自己的習慣行動時,大數據分析通常不會十分準確。所以,在大數據之外,挖掘用戶需求的時,更重要的是通過對一個小群體的親身觀察和小數據常識,捕捉到這個社會群體所體現出的文化欲望,滿足這些用戶的需求擊中痛點。

那么究竟是大數據更加重要,還是小數據更有價值?本期欄目我們很榮幸地請到了兩位重量級的嘉賓,分別是中鋼集團信息管理部總經理李紅。昆侖數據首席數據科學家田春華博士。

主持人:既然這個節目叫《觀點爭鋒》,那么兩位嘉賓請先表明一下立場。您認為大數據更有價值,還是小數據更實用?

李紅:我認為不能武斷地說大數據、小數據誰更有價值,因為兩者不是對等的概念,應該說大數據有大數據的價值,小數據有小數據的價值,取決于你對數據的用途。

田春華:我支持的數據是大數據和小數據的融合,因為數是載體,聚才是我們的目的。

主持人:究竟什么是大數據、什么是小數據,兩位專家如何定義?

李紅:我曾經在行業工作了十幾年,一直從事統計工作,根據我個人的工作經歷,我對數據比較敏感。所以,我認為小數據一般是指我們傳統對數據的使用,在過去由于受技術、資源的限制,我們在采取小數據時有明確的目的,我們對小數據的用途賦予了很明確的要求。我們在取得數據時,數據本身就賦予了很多信息和知識內涵,否則我們就會浪費資源。

大數據和小數據是不對等的,因為我們現在技術進步了,我們可以簡單而又方便地應用大量數據,所以人們給數據定義了四個V(多樣化、大量化、速度化、價值密度低)。大數據的概念是什么?是將原生態、原始的數據經過一系列的清洗、打標簽、標識、建模等手段,是原始數據產生價值。所以,在四個V中,才會有低價值這個概念。

無論是小數據還是大數據,我們都要理解各自的用途。我們為了滿足對現象的描述,對經濟發展概念的輔助、理解,我們花了大量的精力,對小數據進行指標設置,標準的界定,然后對數據反映的情況進行分析和甄別,這是小數據的應用。

在傳統應用中哪些是小數據? 包括GDP、銷售率、成本核算,大量的傳統數據。

大數據的用途非常廣泛,主要聚焦在互聯網和電商企業,大數據在這些企業中體量十分龐大,并且有很多維度,還可以實時動態。當擁有這些數據后,通過分析我們就可以提高自身的能力。

比如通過大數據,可以進行用戶畫像、精準營銷、預測性維護,這些能力是小數據達不到的。

所以,我的觀點就是,大數據、小數據不是對等的概念,大數據和小數據都有價值,取決于在不同的領域有不同的用途。

田春華:不能從內、外這樣分,從學術上講,大數據也不是一個嚴格的學術名詞。

什么是大數據?單機的數據就叫大數據。從學術的角度來說,并不是一個很好的定義。

談道大數據,很多人混淆了數據的兩個層面:

1、大數據技術。

2、大數據思維。

從數據技術的角度來說就是四個V。目前,大家總會強調數據量的問題。比如Google在早期解決數據問題非常簡單。他們在面對海量數據時,利用廉價的方式來代替昂貴的存儲、商用服務器等,因為他們大量搜索低價值密度的數據,雖然數據量大,但是價值密度比較低。這時如果再用昂貴的存儲,比如銀行、電信等行業就無法支撐。

最早互聯網行業發展大數據的動機很簡單,就是為了降低成本。所以,如果用普通的機器來做,就帶來了一個新的問題,各類機器的差異性較大,而且機器的計算是單節點性能較低,怎樣組成一個可靠性強、吞吐量大的高級節點計算,這就需要很多大數據技術。包括怎么解決計算中的瓶頸問題,這是大數據技術起因。

數據思維就是如何依靠數字化轉型,來幫助企業審視企業自身的業務,支持企業轉型和發展。

但是大數據就要體現全面性。我們接觸最多的是石油行業,在過去小數據覆蓋了很多專業領用,包括管理性維護、施工系統等,而這些系統都可以反映了數據。但是各個數據都沒有打通,過去也疏理了標準,也要實現打通。

通過數據梳理后,數據雖然打通了,但是卻無法運行。這不僅僅是運維的問題,也可能包括施工的問題。所以,在以前小數據或者是專業數據是割裂的。在大數據時代,每個企業做的第一件事就是把它打通,建立管道的全生命周期,從建設期到移交期,到運維期,甚至不同的保護措施。但是這還不能稱為大數據,應該稱為數據思維。

對于制造行業,在整個生產環節中,如果通過數據關聯,我們可以把數據的全息畫像描繪出來再進行分析,可能會發現原來在工藝或者是傳統制造之外的東西,這是數據思維或者是大數據思維帶來的一些新的東西。

主要的區別來自數據的利用方面,就是怎么利用數據。大數據、小數據二者的區別是相對的。小數據的價值密度高,大數據的價值密度低。另外從統計的角度來講,我們從來沒遇見過大數據,因為人們的好奇心永遠超過數據量。對于數據科學家來說,總是感覺數據不夠。因為我們的興趣是呈指數增長的,而數據量是線性或者是多項式增長,所以我們的增長速度遠遠超過數據。

主持人:為什么在大數據時代,我們又重新提起小數據?現在的小數據跟之前的小數據有什么不同?

李紅:目前,大數據通過互聯網的發展,越來越受到各界追捧,我們一切都可以利用大數據來解決。但實際上并不是這樣,為什么不能忽視小數據?什么才是數據的價值?

1、數據來源。

2、數據加工。

3、數據使用。

應當從這三個方面來看兩者的區別。

從數字來源看,互聯網企業強調數劇一定來源于最原始、最本源的狀態。就像礦石一樣,它埋在地下,如果把它挖出來它才有價值。所以,我們現在大量的機器數據、人工行為數據等,都可以變成數據。

而小數據則不同,人為了獲得知識,我們要定位自己的需求,我們有較強的目的性,才能保證付出較小的代價,因為在龐大的數據量面前,我們就沒有這個力量和能力進行處理了。所以,在獲取的過程中就會出現取舍,這樣忽視了很多事物的本質,數據量就會變小。

但是我們賦予了數據的定義、內涵、算法,我們所獲取的數據才會變得有價值。但是小數據和大數據的區別就是,我們舍棄了很多有價值的東西。

從數據來源的角度來說,小數據是人類社會、經濟社會活動的基礎。不能只依靠挖掘大數據,小數據也可以支撐我們對事物經濟分析的基礎。

從加工的角度來說,大數據的加工很簡單。現在的算法有很多,要識別一個東西,必須要通過算法、算力和數據的不斷迭代,才能確認大數據是否存在價值。

在BAT有的專家曾經講過,盡管手里有數據,但是不知道怎么用。數據源和數據的使用,這其中很難區分。為什么人工智能需要通過數據量、數據建模不斷迭代,才能體現它的識別能力。這是大數據的加工方法。

小數據的加工方法相對簡單,通過統計、匯總、建模,也可以通過數據展示進行處理。我們現在所看到的圖表、報表、簡單圖形等都非常直觀,它能夠讓我們很容易地知道我們想達到的目的,驗證我們預測的目標和結果。

但是和大數據比,更深層次的東西我們就很容易獲得。因為有數據,我們通過加工、建模,可以把一些顯性的數據利用起來。小數據只能用一些能看得到的顯性數據,而大數據可以發現更深層次的東西。從數據加工來說,小數據加工簡單、直觀,大數據需要通過復雜地處理。

從數據的最終使用角度來看,在過去小數據要支撐我們的各種決策,直到現在也已然如此,舉個例子,從人力資源理論來講,一個人在一般的物理情況下能管控七個人,因為人的手、目測、距離有限。那么七個人以上怎么辦?如果一個大公司有幾千、幾萬人,一個企業在全世界都部署,那么依靠傳統的人力資源管理方式就行不通了。所以,利用小數據進行是決策更加有效。

我們為什么用大數據?為什么大數據發展這么迅速?區塊鏈、人工智能,這都是大數據自然發展而來的一種應用,這就說明大數據發揮了更大的價值。因為大數據的產生,將來能夠提升人類對科學的第四范式,過去我們憑經驗和推理,現在通過數據就能發現問題。

所以,從這個角度來說,小數據從采集、加工到最后的處理和分析,它有它的價值,社會的經濟活動還需要小數據。但是大數據給我們開辟了新的天地,提高了我們的認識和認知能力,所以大數據的價值確實是非常值得期待的。但是我們不能因為大數據,就忽視了小數據。

主持人:現在大數據非常火,但是小數據如何切入?

田春華:我們在做大數據分析時,其實還是需要小數據的支撐,但是我們需要的是具有代表性的小數據,當我們利用小數據后再遷移到大數據進行大規模驗證,包括挖掘我們認識之外的東西,在大數據上是否能看到一些我們原來理解之外的東西?或者是看到一些我們目前解釋不了的東西?解釋不了的東西有可能存在規律,有可能是我們的測量手段或者是當前數據采集方式有問題。

其實我們一直按照從小數據和大數據的相互迭代方式,先利用小數據,再應用大數據,從大數據的應用中再回到小數據反復迭代,然后再提升,這樣才能使大數據成功落地。而不是只談大數據不顧小數據。如果脫離了小數據來談大數據,對于企業來說具有很大的風險。

主持人:而且可能也會給企業帶來一些不好的效果。小數據見效更快,對于企業來說,小數據的直接價值更大。

田春華:不光是對企業,對我們分析師來說,小數據或者是少量的數據我們容易參透。其實很多事情和工程問題一樣,講究二八研究,人類把握80%的問題,而剩下的20%的問題交給統計或者智能進行挖掘,來解決20%的未知因素。

主持人:在咱們人們日常的工作當中,是不是小數據應用得更多一些?

李紅:對,國家統計局有一個國民經濟行業分類。為什么要分類?我們的社會充滿數據,如何有條理、有規矩、有序地應用數據?還需要人為地把這些數據進行歸類、識別、分析。所以,我們現在為了解決好效率和質量的區別,需要大量地要小數據,因為有些東西沒必要。

就像我們騎自行車、開汽車,如果離家門口五分鐘就到了,最好騎自行車,這樣的話效率很高。你要開汽車,需要啟動、停車,效率反而降低。所以,不能因為大數據的價格高,我們就忽視小數據。

主持人:能否舉一個從小數據入手,然后為企業解決某個具體的問題,然后再跟大數據結合,為企業帶來更大的價值的例子? 

田春華:我舉兩個例子:

1、我們當時幫金風科技(一家世界領先的風氣制造商)做載荷仿真時,我們見到的問題就是加速仿真過程,因為工礦比較多,有一千多個工礦要仿真。所以,最初始的訴求也很簡單,通過智能化、小數據,把瑣碎的過程自動化,還有解決計算時間較長的問題,另外,在產生后仿真文件特別多,需要把用的結果自動抽出來。

這本身是一個很好的自動化小數據,但是中間用了一些大數據計劃,其實更多是利用傳統的小數據。

用完之后,我們隱約意識到,一旦能把載荷仿真智能化之后,從業務上帶來的價值不僅僅是在企業內部提升了載荷仿真團隊的工作效率,而是極大地改善了認證的階段,過去我們都是通過寫二、三百頁的文檔寫報告,當認證機構把它還原到計算機中,這個認證的過程則需要一周的時間。如果能把這些計算自動化,我能把計算結果、計算過程、原始資料都提交給認證機構,讓認證機構也省去了驗證的過程,我們也省去寫企業幾百頁的報告。

后來我們更意識到了,這對企業整個的研發來說,就是協同研發、協同設計。過去葉片廠商和塔架廠商都把自己設計好的文件,提交到金風的研發團隊,然后研發團隊再把它整合起來進行仿真,之后如果發現某些環節需要調整,再返回給各廠商。

在實現了自動化之后,每個人可以獨立地提交文件,可以和別人現有的方法進行整合,然后馬上就會出具結果告,這樣就使整個研發過程就變成了一個并行的研發。

我們從最早非常小的一個點,慢慢走到需要用大數據來進行支撐。這是我們和業務部門都沒有想到的,一旦某個生產環節得到了加速,所帶來的是業務模式的轉變,而業務模式所對應的大數據后臺技術的要求是不一樣的。在企業內部用安全、認證沒有問題,但對外時我們還要建模性加密,還包括各種引擎的分析模型分享等。

2、我們過去在做過很多大部件的工程診斷,研發部門有很多經驗模型,并且全部都驗證,大家對模型的應用非常有自信。

但當我們上了大數據平臺之后,我們發現我們以往的經驗,到風機廠幾乎是沒有一個模型是準確的。這也是我們后來應用在小數據上做的模型,到大數據上去驗證,當驗證完成后,再回頭修改小數據的原因,通過大數據、小數據的迭代,金風已經做了幾百的模型,在全球的風機上都能使用。

小數據給我們打下了很好的基礎,但是八九不離十,10%的間隙用大數據去彌補。但是如果要是沒有80%、90%小數據的支撐,光依靠挖掘大數據,很難保證其精準度?因為樣本不均衡,在工業中越嚴重的故障樣本量越小,我們沒有足夠的樣本來訓練一個可靠的模型。這就是為什么我們做出小數據之后,用大數據去驗證,反而是見效更快。

主持人:那么在傳統企業中是否也碰到過上述情況

李紅:在傳統企業中我們也遇到了這種問題。因為大數據被理解為一種技術,它是一種新的思維、新的能力,傳統企業和互聯網企業是不一樣的,我們現在對技術和思維能力之間存在差距。

簡單說,我們在與CIO這個群體交流時發現,大家都苦于企業沒有需求,業務部門能否做一些大數據研究案例,但是業務部門卻不知道為什么做大數據。而職能部門也無法改善管理,因為職能部門不知道怎么做大數據。

問題出在哪里?互聯網企業已經實現了技術和能力的匹配,物聯網企業知道要干什么,所以去搜集數據。那么在傳統企業中,大數據如何能發揮價值?在需求端、業務端、應用端他們還很難說出為什么要用大數據,用大數據干什么?大數據從哪里來?他們被這種問題困擾。

所以,大數據目前在傳統企業落地的,都是一些很具體的實戰型企業,比如生產廠商。我們最近看到華倫集團,他們率先在水電、火電設備上和具體的生產場景中,利用大數據進行突破。

目前,大數據在傳統企業里面一定要找到具體的應用場景和目標,要解決數據從哪兒來,什么是大數據,大數據能干什么等問題。因為傳統企業必須見到效果了,或者是感覺到了大數據的價值,才會發展大數據。

所以,現在大數據還在傳統企業要有一個過程。從技術發展的角度來說,我們現在從消費互聯網往工業互聯網過渡,從產業互聯網和工業互聯網階段,大數據應該說剛剛起步,不僅從理論上、從應用上、從價值上,都是剛剛認識。

所以,大數據依然是技術人員在技術層面上談大數據,實際上一旦傳統企業應用了大數據,傳統企業轉型升級、創新發展、彎道超車都非常有可能,所以大數據的未來是非常好的。

主持人:最后請兩位專家用一分鐘的時間總結一下大數據和小數據的關系。

田春華:我認為數據技術和業務不是割裂關系,我們以數字化轉型或者是數字化業務的視角去審視和推進整個數據建設,無論是大數據還是小數據,都應當遵循三點:

1、有明確的業務規劃或者是業務場景。

2、對當前整個行業環境,包括企業的數據基礎要進行摸底,當我們要發展大數據時,我們的數據基礎還不支持現有的場景。

業務驅動還是要尋找業務場景,一方面是業務部門的努力,另一方面大數據公司也應努力地尋找業務場景、業務驅動,將可行的數據用合適的方式,將高價值的信息及時推給相應的人。

3、從數據的角度審視我們的業務和問題,來完善我們的業務。當數據分析發現問題了后,反過來改善業務流程,形成業務和數據的閉環。

李紅:我們要重視小數據的利用價值,因為小數據事關我們的日常生活和工作,但是我們要大力推進大數據的應用發展,因為它關系到我們的產業升級、動能轉化、經濟轉型和強國建設。所以,大數據決定我們的命運和未來。

主持人:謝謝!前中信銀行行長、中信集團監事長朱小黃曾經說過:數據本無大小,但運用數據的立場卻分大小,是謂大數據。

我對這句話很認可,我覺得對于企業、用戶來說,或者是對于大數據服務商來說,可能數據的大小并不重要,對于企業而言,數據的價值可能才是最為關鍵的。也希望所有企業能夠在當下運用好小數據,在未來應用大數據拓展更廣闊的業務和天地。

本期節目到此為止,也感謝兩位嘉賓的精彩分享,謝謝大家!我們下期再見!

專題訪談

合作站點
stat
2000年七乐彩走势图777 下载最新棋牌游戏 天pk10计划两期版期 时时彩赚钱秘籍 重庆时时杀号技巧 吉林11选5技巧 稳赚 快速时时计算方法 加拿大28预测软件官方网下载 pk10官网开奖直播 时时彩自己怎么做号 非凡炸金花手机版提现