7月2日,2019可信云大會在北京國際會議中心隆重開幕。2019可信云大會以“智能云網邊,可信創未來”為主題,由中國信息通信研究院主辦。
下午13:30大會特設的智能云論壇活動正式開始,騰訊云AI平臺專家產品經理余祖坤做了《AI建模平臺的設計實踐》的精彩演講。
騰訊云AI平臺專家產品經理余祖坤
謝謝大家!很榮幸跟大家一起分享一下騰訊AI建模平臺的設計實踐。
AI建模平臺有很多,想分享一下騰訊在這個領域是如何思考的和整個產品的思路。
當數據量越來越大時,單機跑不到,需要分布式算力或一個工具,我們理解建模有點像電飯煲,把數據塞進去,怎么做成你想要的菜,最終輸出的是模型,AI建模吃的是數據,輸出的是模型。
建模這件事情一定離不開兩件事情:算法工程師,現在市場上傳言很多,一般說薪資很高,沒有頭發等等。也有人會說算法工程師主要工作其實有點像煉丹師,因為沒有辦法保證煉丹師一定能煉出想要的東西,客戶說這個能達到多少性能指標嗎?算法工程師沒有辦法說一定達到。
一般一個算法工程師首先會從數據開始,要輸入一定數據,對數據進行預處理,比如異常值處理,另外要找一些特征,對原始數據和數據列的信息進行加工,取得一些特征之后,塞到他想要的模型里去,然后進行訓練,訓練時涉及到需要很大的計算集群,需要一些算力。得到一些模型之后,他要做這個模型的評估。評估好了之后才會把這個模型上線發布服務,在線預測,或者發布成這個服務之后,怎么樣把這個模型發布成服務?原來可能會想把這個模型跑完了之后出一個圖,但在模型應用的時代,非常關心怎么把這個模型發布成一個服務。
觀察了煉丹師一般工作之后,我們認為有這些核心的環節,提煉之后,有數據、算法、算力、模型評估、模型怎么樣部署服務、進行在線預測等。有了這些訴求之后,怎樣去設計一個產品?究竟現在要不要這個東西?市場上有那么多框架,就要比較一下為什么我們需要一個一站式建模的平臺。建模這件事情有一系列從下往上可關注的點,比如需要有計算資源,CPU、GPU,現在計算機體系結構迎來了第二春,從x86時代以來,云主機,計算機體系結構很長一段時間沒有變化,現在這個時候底層計算機架構越來越多,計算資源越來越多,數據量越來越大時要選哪種,如果要自己解決成本很高。
現在計算框架非常多,沒有達到統一階段,在當下來看,框架維護還是很煩瑣的,這也是一個痛點。算法,傳統機器學習分很多算法,要去處理需要很多手工活。如果更多時間去處理工程性的活,經常會出現招人時用飛機大炮,進來時用小米加步槍。怎么解決企業這些困難呢?這里就存在平臺可以做的一些價值。
模型怎么樣調優是很需要水平和時間的,如果自己用一些框架去調,每種模型也可以調特點,每次都用手工去調,如果你的同事用另外一個框架,可能沒有辦法跟你交流。
模型如何發布?以前比較土的辦法是把模型服務打包成一個任務,當量上去時,有很多痛點和不穩定性,沒有辦法達到企業級應用的需求,核心點是希望跟當下最流行的結構集群應用技術結合起來,是一個解決的方法。所以在此基礎上,希望能做一些什么樣的平臺,能解決剛才我們談到的折價問題,底層資源有一些管理、有一些優化,有些客戶有跨地區的機房,跨地區機房怎么樣搭建,是我們要考慮的問題,這是產品要解決的問題。
要集成這些主流的框架,不同框架在變化,怎么樣吸收進來,它升級了,我們怎么樣把它升級,集成到我們上面做的這些應用業務中來,這是工具型產品需要解決的問題。
算法,這個產品要解決什么樣的東西?更多要解決的是沉淀。有些算子,比較大的模型提前做了預訓練,預訓練的算力對你來說是省了。
發布不同的模型可能會更新,它的更新要怎么樣考量,后面會說一下這個產品我們關心的一些點。
所有框架是我們天然的競品,我們得出這幾個價值主張。
AI建模平臺用戶分析。
建模平臺如果僅僅是為很專業的算法提供服務的話,這個平臺用戶會很少,而且現在我們也觀察到了整個AI算法的應用不再是少數人的游戲,是整個行業都有訴求的點,我們把用戶定義為三類,有可能是很資深的算法,以前就是一直在調參的專家,也有可能是剛開始入手,想了解清楚怎么樣去建模。還有不是算法人員,但大家多在說,他也想去用一用。這三類用戶有不同的訴求。