久久精品国产精品青草丨无码8090精品久久一区丨久久久久国色av免费观看丨毛片免费视频丨搡老熟女国产

公司動態 投資企業 原創研究 媒體聚焦
【行業聚焦】九章云極:數據科學平臺那些事
2019 10 30

注:近日,九章云極聯合創始人兼CEO方磊博士在天堂硅谷信息技術閉門會上做了精彩發言,以下根據其講話實錄整理而成。


【行業聚焦】九章云極:數據科學平臺那些事


謝謝大家,要不就先解釋名字是怎么來的吧,主要是當時想的《九章算術》是我們國家第一個講究數學或者算法的經典著作,所以選了“九章”;然后創立公司的時候,我們覺得云計算是未來,我自己也是在09年最早一批開始做云計算的,所以也取了個“云”字;“極”字其實是取了一個漢字里面的一個很大的數字,大家知道我們有千、萬、億、兆、京、垓很多單位,“極”就是其中一個單位,是10的48次方,是個很大的數,我們就把“九章云極”串在了一起。

我今天想給大家分享的是數據科學平臺,九章云極從2013年開始我們一直在做這件事,我們叫數據科學平臺,但是很遺憾Gartner對于這個賽道的定義是2017年2月份才出來。所以在那之前,我們到處去跟別人交流,有一點不受待見,別人問你這到底是干嘛的?


我們到底是干什么的呢?這個疑問從我們公司成立伴隨著我們一直到現在,雖然疑問開始變少了,但相對還是挺多的,所以到底什么是數據科學平臺?


我簡單說明一下,我們對數據傳統認知有三大塊:第一塊我們叫數據倉庫,就是把所有數據都收集起來,是相對成熟的一個行業,我們去看Gartner的象限和報告是很成熟的。第二塊我們叫數據治理,這個行業在中國主要是以咨詢公司為主,來治理數據,那么在美國也有一些偏AI的公司也進入這個領域。剛才高總也提到數據庫里1萬張表,可能每個字段都說是客戶,但名字都不一樣,我只能把它拆出來,這些其實也是屬于數據治理的一個范疇。

第三塊傳統的叫法是BI,你可以理解成,第一塊是把數據存起來,第二塊是弄清楚數據在業務里的含義到底是什么,比如125是訂單的金額,還是賣掉貨品的數量。BI這個詞用的非常早,但事實上在過去絕大部分BI就是在做可視化。當把數據倉庫里的數字含義弄明白以后,用可視化的方式展現給不同的人,可能是偏業務的,也可能是說偏運營的或者是偏領導層的,不同人看到的dashboard是不一樣的。這里面產生了很多特有的市場,在中國大屏就是個很大的市場。因為領導都需要看大屏,或者很多地方都需要有一個讓人參觀的地方,就有很多大屏,這也是BI的范疇。


2017年2月份Gartner加入了第四塊,他們叫作數據科學和機器學習。簡單來說,數據的一些value的出口在BI上,主要還是以可視化的方式來展示的,那么在數據科學和機器學習,數據value的主要體現方式是做模型。大家可以認為從傳統的比較簡單的回歸的模型,到稍微經典的機器學習的模型,再到比較復雜的深度學習的模型,都屬于這個范疇,所以我們是用模型來體現數據的價值,當然模型絕大部分時候是來做預測的。


這跟以前是不一樣的,舉一個非常簡單的例子:一個信用卡中心,有過去的所有的客戶還款記錄,如果你做一個BI的項目,看到的是當月有多少還款,還了多少錢,有什么人不還;那么你做一個所謂數據科學的項目,most likely去做一個模型,預測下個月誰不還款,下個月誰不還款這個模型叫預測模型。


但是他業務價值還不明顯,那么如果體現在業務價值上,我有數據,比如所有還款的記錄,然后我有一些算法,這些算法當然可能是各種各樣的算法,然后我有個人叫數據科學家,或者說一個懂一些數據的人,那么這個業務價值是什么?業務價值可能是說,這個模型預測下個月誰可能不還款,然后這個人如果來申請調額,我就拒絕他。因為好多人覺得下個月刷爆了,那就再調一下,再多刷一點,反正下個月還不出來,那么這個月的業務上銀行是有事實的錢的損失的,那么業務價值就是說,銀行拒絕一些調額人的請求來減少損失,那他用到的可能就是一個預測模型,這個算法是在過去的歷史上判斷出每個人的還款概率。


數據科學簡而言之就是說有數據了,然后有一個人來做個算法都會對業務有個價值,其實我們剛才說了很多事情,前面幾位我覺得大家都說的,可能跟這個是有些重疊的,在這個里面,為了做到剛才說的那些對業務的各個場景,我們稱為數據應用的話,你需要一個相對平臺性的東西,我們就是在做這個平臺性的東西的廠商。


所以看一下歷史是怎么發展過來的,其實中美有一個很大的差別在于,在數據分析這個行業,中文的“分析”這個詞一聽就比較小,當然很多投資人一聽做分析,就感覺不太行了,市場不是很大,但是在英文里說“analytics”這是個巨大的行業。大家中文里說的很大部分所謂AI行業、人工智能行業,其實都是屬于analytics這里面的,所以整個大的分析行業,如果說用全球的視角來看,其實是很大的一個市場。


那么在最開始的階段我們稱之為semantic data,就是說一些數據的基本的匯總,其實到今天為止,這個也做得很差,說老實話,在數據中臺可能還要補一些這樣的課,因為有很多數據庫里面很多含義對不上,就這一塊階段主要是一些數據庫的出現。到了2000年以后,大家慢慢的都有數據倉庫了,這個時候就進入了我們今天認為的BI時代,analytics這些廠商基本上還是圍繞著可視化展示為核心來做,還有一些我們說探索的能力,比如說你可以自由的去發問,問過去三個月江浙滬什么女性買了傘,一共多少人。它可能不是一個預先定義好的報表,它可能是一個自由的查詢。到2015年以后,我們進入一個增強分析的時代,這個時候其實出現了新的品類叫數據科學平臺,更多的是讓你可以用機器學習或者深度學習的方式開始構建模型了,我們進入了模型的時代。所以總結來說,數據科學這個事,就是數據的價值的出口主要是以模型的角度來體現的。數據科學平臺最核心的事情是做模型,當然這個做模型本身在很多時候還要人做的,我們叫他們數據科學家。


現在我們處在2015后面的增強分析的時代里,我們看一下國際上有哪些廠商,他們都是在不同的年代成立的。我剛才說有些公司成立比較早,比如說Alteryx,它是2009年成立,2017年就上市了,現在大概市值60億到70億之間波動,它是一個典型的數據科學平臺的廠商。同時也有一些別的廠商,比如Dataiku,Datarobot。我舉這三個廠商的例子,它們代表了三種不同的方式,我稱為三劍客,Alteryx成立的比較早,那時候建模的方式主要還是在數據準備上,建模本身是以編碼來實現,那么到Dataiku成立的時期,建模更多的時候被我們稱為拖拉拽,現在覺得大家對這個說法都已經有點審美疲勞了,就拖拖拽拽,然后就出來一個類似于工作流的東西,然后跑出一個模型來。那么到了Datarobot,它雖然在2013年成立,但真正開始發力是2016年,拿了AZ16的融資,它主打叫自動機器學習。


所以可以看到其實整個的軸線在數據科學平臺上是圍繞著建模,把建模的壁壘越降越低。編碼建模肯定需要程序員甚至高級程序員;那么到拖拉拽建模,一些我們叫平民數據科學家或者不是那么熟悉編碼的人,而不是一個機器學習專家都可以使用;到了自動建模,偏業務的人員都可以使用。技術的軸線,其實整個所謂的IT業就是不停的來降低技術的壁壘。


這三個廠商其實體現了三種不同的建模風格,那么今天的趨勢是建模方式都融合了,大家都會去做自動建模,大家都有些拖拉拽這個功能和編碼建模,我們稱為“三位一體”,就是各種建模方式對于不同能力的人都會輸出。然后我們自己吹一下自己,確實九章云極在國內是比較早的專注的來做這一塊的公司,我們一開始就給自己定位了,我們的數據科學平臺叫DataCanvas,就是油畫、畫布的意思。

經過這么幾年,我們也服務了一些客戶,我們是比較專注的在提供一個數據科學平臺,讓數據科學家可以在上面去構建各種各樣的模型,這樣的模型就是能夠去賦能各種各樣的業務場景。那么要一個數據科學平臺,主要干什么事情?數據科學平臺就是建模型的,所以你有一個業務場景就來建一個模型。比如說一個保險公司的業務場景,車輛發生剮蹭后車主要去發一個claim,然后你要上傳一張剮蹭照片,上傳照片以后,其實后面是有一個模型在處理的。因為淘寶上P照片特別便宜,所以保險公司有一個模型判斷一下剮蹭照片是不是被ps過,人肉眼很難分辨,但是用一些比較簡單的深度學習的網絡去訓練一下,就很容易的發現它是不是ps的圖片。這種情況下保險公司的科技團隊的人,或者說一個核賠的部門的人,就是做這樣一個事情。

所以說首先它可能得有個人做這個事,其次它有業務目標——要判斷一個圖片是不是P過——然后把自動模型放到整個業務流程里面的某個地方去調用它。這樣一個過程其實基本上會經歷這么幾個階段,首先得有數據,數據有可能需要我們中臺去讀,或者說什么接口,拿這個數據來以后,可能有的是有標注的,有的是沒有標注的,我們要套用一些算法訓練它,訓練完這個模型,我們會把它上線,上線來調用它,并且持續的更新。你可以理解這個數據科學平臺,就是內部或者外部的數據科學家用它去構建一個個數據應用,去做一個個數據科學項目。

核心的建模方式其實就那么幾種,我可以共享一個我們自己看到的數字。在我們云上的測試環境里面,有很多用戶開了很多賬號,用戶測試的時候很喜歡開個賬號用公開數據來試一試。在這些賬戶里面能編碼建模的,就我們看到的3%都不到,所有賬號,你別忘了這些賬號已經是有一定的bias,因為他感興趣才來的,不是大街上隨便抓的人。那么能夠拖拉拽建模的人,其實也就5-6%。但是有60%的人能夠完成自動建模,可能沒搞十分清楚,但他們也完成了,所以自動建模對壁壘的降低還是很顯著的。但是真正要實現業務價值,其實并不是降低建模難度就可以,待會我會分享一下我們的一些觀點。所以大家可以看到能夠明顯降低壁壘的,就是自動機器學習。


自動機器學習其實還是有很多步驟要去做,因為做一個模型你可能要準備數據,那數據準備是不是自動化的,然后你的算法是不是自動化的,算法調參是不是自動化的,總的來說這里面很多的門類,后面我有一個例子,大家會看到,怎么去做這樣一個事情。自動機器學習像自動駕駛,聽起來很好的,其實沒那么靠譜,如果當自動駕駛的這個L1、L2、L3、L4、L5這么來看,我覺得現在有個L2.5也差不多了,可能達不到那么非常完美的程度,特別是對于一些業務高度相關的一些地方。其實自動機器學習能做的事情,相對比較有限。過去五年是數據科學發展比較快的五年,我們能看到整個業界不管是技術的革新,產品的革新,還有包括我們在內的國內外的一些廠商,所有事情,核心在于降低壁壘。


做模型上線這個事情,很多人對它的理解可能是比較淺的,比如說我做了個模型,判斷照片是不是P過,假設這個模型做出來挺準,那就調用它。但是其實在傳統的企業架構里面,去運行一個學習模型這個事是不存在的,因為以前的BI,很多時候它是到了一個大屏幕上去展示,它并不在那持續的運行,它不是生產環境的,就是整個持續運營的生產系統的一部分。交易是每時每刻發生的,但是你可能1天才跑一個報表。但是如果說這個模型假設是每秒鐘都有可能APP的請求進來,都是去調動它,所以這個環境要運行它,那么這個事情按高大上的說法,不是叫做模型生產化,它叫productionize AI,我覺得實際點說,就是說怎么把模型運行起來,所以當你做完一個模型運行模型,其實也是IT再往前革新的一個很重要的一個窗口機會。美國有一些創業公司,其實都在做這一塊模型生產化的工作,因為你需要一個新的IT架構讓它持續的運行、迭代、上線、下線做這樣一些管理工作,這一塊原來在整個企業的服務數據架構就是不太存在的,所以這是很大的一個需求。


我們看到有些做模型運維的人,現在為什么要模型運維,因為交易系統是有業務運行,它不能壞。其實這個模型一直在被運行,一直在被調用,模型也有需求。做數據科學最可怕的事情,他需要是個雜家,我們公司現在有人來面試完,第二天卻不想來了,他覺得要學的東西太多,壓力太大了。因為你要懂一些數據的事,然后也希望懂一些機器學習,甚至你在業務上也會溝通,有的人技術很好,他很不愿意去理解業務的一些問題,但他也很難在這里去做一些深入的工作,所以你也可能是會一些編碼,同時還懂一些分析的概念。比如當你發現這個數據大量是缺失的,missing value很高,那么數據都這么少,你怎么去補充一些數據。有的時候你也沒辦法,你也不可能退回去讓業務重新給你更多的數據,因為歷史上積累的就那么些數據。所以對整體而言,我覺得我們產品大幅降低了這些各個崗位的人的要求,降低了對數據科學的要求和依賴。


舉個簡單的例子,是一個城市商業銀行簡單的客戶流失預警。客戶流失按照最簡單的定義,就是三個月內整體資產下降超過60%。整體資產包括他的理財、存款、一些信貸產品等等。這個銀行如果做一個預警的話,利用自動機器學習,在這個案例里幾百個變量幾十萬條原始記錄,很快就做完了,所以看到自動機器學習確實讓一個偏業務的人,能夠很快去構建這個模型,甚至都不再去需要立項,去重新經過一個很復雜的采購流程,不然可能也得花個幾十萬。他能做出來模型,這是個非常重要的,然后下一步是怎么去用它,怎么看效果,其實也是個挺復雜的過程,但不管怎么樣,它把第一步已經大大的簡化。


這個例子大家可以想象一下,剛剛說了要有數據,就是以前所有歷史上流失的客戶,那么這個案例非常簡單的原因在什么?大家能看出來,它的歷史數據都是有標注的,因為歷史數據已經告訴你誰流失了,所以他的標注是非常簡單的。其次它的定義也非常明確,就是三個月從開頭到最后的余額一減,超過60%,就標注了,所以你訓練它也很簡單,然后經過去驗證,其實準確率是相對比較高。以往銀行做完這個流失模型以后,他們會用推薦理財來挽救,比如現在余額是五六萬,預測要流失了,銀行給他推個7萬起的理財產品,讓他再轉一點進來,這個叫拉新,做業務人都知道,讓他能多投一點錢進來。有意思的是,這個模型用的好好的,然后遇到P2P瘋狂爆雷了,P2P一爆雷不保底了,所有人都在去銀行排隊買大額存單了,所以根本就不需要推薦理財,因此流失預警模型在那個時期也用不到了。你就發現模型是高度依賴于業務的。


大家可以看到,原來很多時候,我們如果說去看一個軟件或者一個可視化東西,很多時候不是運營驅動的,而是管理驅動的,包括監管報送,比如在銀行里做的比較完善的監管報送的報表,它其實也是管理驅動的。但是其實像數據科學的一些項目,很多是運營驅動,運營驅動的特點就是說它多變,經常會調整,所以對一些客戶來說,他為什么需要一個數據科學平臺,也是有這個原因。


這個在金融行業比較明確的例子,其實我們看到了,它是利用平臺降低了壁壘,這個平臺就是讓數據科學家或者說我們叫水平基礎的數據科學家,我們叫60分的人,90分的人都能夠更快速低門檻、高效率來構建模型。

今天的主題,一定要說從技術到場景,那么在數據科學,我覺得新技術出現的特征,第一個就是對非結構化的處理能力,這是很顯然的,其實非結構化處理的能力在保險行業的應用是非常廣的,不論是從保單還是到核賠的過程,其實我感覺比銀行還要廣。

因為銀行的好多數據是高度結構化,相反保險數據的結構化程度要差一些的,所以非結構化數據出現了,技術對于這些場景都產生了巨大的變化。如果說哪個技術出現導致了一個巨大的場景,不知道大家直覺感覺是什么?我再舉個例子,這個例子體現了一個微小的技術進展帶來了巨大場景變化,這個就是PageRank。我們知道informationretrieval這門學問教書教了30年了,但搜索引擎并沒有出現,因為在谷歌發明PageRank之前,對于全文檢索這么一門放在圖書館系里教的課,最高級的算法叫BM25,如果學過的大家都知道,文章稍微長一點或者文章稍微多一點,使用就非常困難,但google發明了PageRank這么一個算法,讓全網的搜索引擎,立馬成為了現實。


這是個簡化的說法,但毋庸置疑PageRank的一個算法,我覺得其實這個技術核心讓我們搜索引擎這個時代成為可能,所以有的時候,技術上一個比較看起來感覺不那么大的事,最后是能長個蒼天大樹的。說回來,剛剛說的結構化,結構化的處理能力,這些深度學習的算法就帶來新的一些機會,還有一個就是實時的事情,做數據的人,基本上說大家腦子里下意識還是跑批一些概念,實時這一塊是非常弱的。


實時能力的進展,主要是流數據、內存數據庫這樣一些技術的進展,讓一些非常實時的反欺詐、資金異動,甚至說反洗錢都成為可能。這個也是一個技術進展帶來的。然后下面包括還有算法門檻的降低,還有說數據量的一些情況,我就不一一贅述了,我先說兩個具體的例子,大家也能感覺到一些技術進步對一些具體場景的影響。


先說一個IOT的場景,其實這個里面剛才從上午的華為云一直到后來可能明略這邊都提到了IOT。我說的是非常實際的場景,就在一個油田里,大概有4萬口井,每口井都有很多傳感器,把數據收回來,收回來之后,他們為了完成無人值守這么一個業務目標,需要構建一些時序異常的模型檢測。我給大家看一下,時序異常檢測其實是一個非常廣的模型,那么在這個里面會做很多事情,像數字信號處理,這一塊基本上在端上完成了,因為有大量的振動,還有很多壓力的東西在線上,所以那些東西會導致你的數據有很多漂移,所以有些算法在端上會計算,提取完了信號以后,再發回云上或者端上的時候是比較干凈的,這個時候,后臺會跑一個我們產品跑出來的模型。這個時序數據很有特點,一列是時間,一列是值,這條曲線是隨著時間變化的一條曲線,那么在這個曲線上面,你想通過一些訓練數據,來非監督學習或者有監督的學習,人工標注的,來判斷哪些是異常,有的你不用標注也能判斷出異常。在這個里面你可以通過一些算法,被監督的算法、深度學習的算法或者有監督學習的一些算法來訓練它,訓練完之后就會產生一個模型,這個模型在平臺中訓練的過程中,它會使用一些資源,訓練出來這個模型會幫你在里面去預測到一些異常的點。可以看到我們自動機器學習對于時序異常檢測這一塊,其實做的還相對比較易用的,對于一個不是特別懂機器學習的人可以很容易地把這個模型構建出來。你可以看出來在構建的過程當中,他就會開始對一些形勢預測,通過比如說上面的可能用的是算法A,下面的是算法B,他們發現了異常點不完全一致,那他可能還要做多種算法的自動組合,組合完了以后,能看到哪些點是異常的點。


剛剛提到有些是無監督的,有些是有監督,總而言之,就是把這些異常點都發現出來。在技術層面看是一個深度學習,那就是無監督學習、有監督的一個組合,讓你判斷一個實際數據的異常點,這是對一個技術人員的話,然后對一個經理的話,就是說AI落地的場景,能判斷異常的工作狀態,那么對領導層的話叫無人值守,就是將來五年、十年的一個大的方向,因為每秒鐘那么多數據,數據收回來了以后,你總得有個人看,但你不能派那么多人去看它。


另一個例子,我想說的是將來五年的一個事情,剛才說的都是降低壁壘、降低門檻,你就很容易把模型做出來。將來其實一個更大的挑戰在于說怎么把行業知識融合進去,就是knowhow,其實門檻降到足夠低,有數據還是不一定能把模型做好。我說一個信貸風控的模型的例子,在這個模型里面對于小微風控來說,其實是用各種維度的數據來判斷這個人貸款或償貸的風險變化,比如法院判決他欠了100萬,這個數據進來以后,它的風險立馬就變了,所以有很多外部數據。


那么這是一個銀行用的一個風險模型,它有這么幾個維度,一共是2400個特征,這2400個特征之上,它構建了這個模型。我給大家舉一個例子,就是大家想象的機器學習比較簡單,比如說內部數據,頭70個特征可能一般長成這樣,是內部數據,那么假設外部數據、工商數據82個特征可能長成這樣,大家覺得這2000多個特征放進去,經過升維、降維,最后這個模型應該很棒,其實不是這樣的,做完之后你會發現效果真的不太行,所以原因是什么?對于一個高度專業性的場景,其實你是需要很多行業知識,比如對于一個企業來說,可能就是隱形負債的風險,第一個就是銀行間往來流水大額資金的民間借貸,像這種東西每個信貸員都知道,但我們機器學習模型是很難捕捉的。

所以你要把這些東西加工成增強的特征,它放到你的模型里去才能做得很好,所以這里很依賴于一個優秀的數據科學家,這個人不一定是我們公司提供的,但是我們的產品會提供一些方式,它來構建一些特征庫或者一些衍生的方式。這些很多都是我們業務知識knowhow,能大大提升模型的質量。


所以總結來說,數據科學平臺就是拿著這些算法,有個人降低門檻解決業務問題,將來發展趨勢可能不只是降低門檻,降低門檻做得還可以了,但是把行業知識怎么結合進去,這是一個很大的挑戰,所以我們的產品DataCanvas,就是要引領的這個事情,我們四個倉庫就是特征倉庫、模型倉庫、模板倉庫,還有一個自動機器學習的倉庫,利用這些方式來解決一些知識融合的問題。知識融合是一個非常重要的點,以后能夠極大的決定這個業務之后的成敗。

所以最后小結一下,到底技術帶來一些什么樣的新的涵義,第一個就是說降低門檻以后,會帶來很多標準化的數據產品,第二個如果真的能夠把知識融合做好,可能會帶來一個很強的積累效應,就A用的模型很快能放到B上去,第三個如果對一些再新的技術,有可能會帶來一些網絡效應,今天因為時間不太多,我就不贅述了,大家有問題就問我或者咱們接下來交流。


相關新聞
主站蜘蛛池模板: 最新国产福利在线观看精品| 99久久精品国产第一页| 午夜天堂一区人妻| 玩两个丰满老熟女久久网| 强行糟蹋人妻hd中文字幕| 久久精品国产亚洲无删除 | 亚洲午夜无码毛片av久久京东热| 久爱无码免费视频在线| 国产午夜人做人免费视频网站| 视频一区二区无码制服师生 | 亚洲一卡二卡三卡四卡| 一本色道久久88精品综合| 亚洲国产精品嫩草影院永久| 成人福利国产精品视频| 一边摸一边抽搐一进一出视频| 国产成人精品午夜二三区波多野| 亚洲精品久久久久久婷婷| 产精品无码久久_亚洲国产精| 大又大粗又爽又黄少妇毛片| 久久精品国产网红主播| 羞羞影院午夜男女爽爽在线观看| 亚洲无人区码suv| 亚洲另类色区欧美日韩图片| 内射巨臀欧美在线视频| 欧美三级真做在线观看| 国产av精品一区二区三区小说| 性色a码一区二区三区天美传媒| 精品麻豆一区二区三区乱码| 西西人体扒开下部试看120秒| 18禁裸乳无遮挡自慰免费动漫| 男女无遮挡猛进猛出免费视频国产| 中文字幕无码热在线视频| 在线aⅴ亚洲中文字幕| 自拍日韩亚洲一区在线| 狠狠躁日日躁夜夜躁2020| 久久亚洲中文字幕精品有坂深雪| 国产在线孕妇孕交| 中文字日产幕乱五区| 国产乱人视频在线播放| 好屌草这里只有精品| 国产成人无码精品一区二区三区 |