并不是每個問題都可以通過機(jī)器學(xué)習(xí)來解決,并不是每個公司都準(zhǔn)備應(yīng)用人工智能。以下是如何知道你的IT組織是否準(zhǔn)備好獲得人工智能的好處。
由于機(jī)器學(xué)習(xí)是靈丹妙藥,你的公司應(yīng)該能夠有利地使用它,對嗎?也許是;也許不是。好吧,我只是拿靈丹妙藥開玩笑,這只是營銷炒作。我們來討論一下你是否擁有利用人工智能所需要的東西——如果你還沒有達(dá)到這個地步你該如何達(dá)到。
首先,你知道你想預(yù)測或發(fā)現(xiàn)的是什么嗎?你有足夠的數(shù)據(jù)來分析以建立預(yù)測模型嗎?你有需要定義和訓(xùn)練模型的人和工具嗎?你是否已經(jīng)有統(tǒng)計模型或物理模型為你提供預(yù)測的基準(zhǔn)? 在此,我們將分解你讓你的人工智能(AI)和機(jī)器學(xué)習(xí)(ML)項目成功所需要的東西,討論其衍生后果,以幫助你確定貴組織是否真正準(zhǔn)備好利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能。
你有很多數(shù)據(jù)
充分的相關(guān)數(shù)據(jù)是預(yù)測和特征識別的必要條件。有了它,你可能會成功;沒有它,你不能成功。你需要多少數(shù)據(jù)?你考慮的因素越多,你需要的數(shù)據(jù)就越多,無論你進(jìn)行普通的統(tǒng)計預(yù)測、機(jī)器學(xué)習(xí)或深度學(xué)習(xí)。
以預(yù)測銷售的常見問題為例,比如你下個月將在邁阿密銷售多少件海軍藍(lán)短袖上衣,以及在不擱死太多錢和倉儲空間的情況下,你在邁阿密商店和亞特蘭大倉庫需要多少庫存以避免欠交訂單。零售銷售季節(jié)性很強(qiáng),因此你需要多年來積累的具有重要統(tǒng)計意義的月度數(shù)據(jù),以便能夠糾正月度變化并建立年度趨勢——這只是針對標(biāo)準(zhǔn)時間序列分析。機(jī)器學(xué)習(xí)需要的數(shù)據(jù)比統(tǒng)計模型要多很多,而深度學(xué)習(xí)模型需要的數(shù)據(jù)量更是多得翻幾翻。
你可能構(gòu)建的一個統(tǒng)計模型將分析你的連鎖店在全國超過五年的每月上衣銷售情況,并使用該匯總來預(yù)測下個月的總上衣銷售情況。這個數(shù)字可能在幾十萬(假設(shè)它是30萬)。那么你可以預(yù)測邁阿密的女襯衫銷售額占全國銷售額的百分比(假設(shè)為3%),并獨立預(yù)測藍(lán)色短袖上衣的銷售額占總襯衫銷售額的百分比(比如說是1%)。
該模型指出下個月在邁阿密約售出90件藍(lán)色短袖襯衫。你可以通過查看各種產(chǎn)品的同店銷售情況,對該預(yù)測進(jìn)行合理性檢查,特別要注意與模型的預(yù)測有多大的差異。
現(xiàn)在,假設(shè)你想把天氣和時尚趨勢這樣的外部因素考慮進(jìn)去。短袖襯衫在炎熱或暖和的日子是不是比涼爽和多雨的日子賣得更好?可能吧。你可以通過在模型中包含歷史天氣數(shù)據(jù)來測試,盡管使用時間序列統(tǒng)計模型可能有點笨拙,因此你可以嘗試使用決策森林回歸(decision forest regression),當(dāng)你嘗試使用其它7 種用于回歸的機(jī)器學(xué)習(xí)模型(見上面的截圖),然后比較每個模型的“成本”(歸一化誤差函數(shù)),與去年的實際結(jié)果進(jìn)行比較,以找到最佳模型。
海軍藍(lán)軍下個月的銷量會好于去年同期嗎?你可以查看海軍藍(lán)色服裝的每月銷售量,并預(yù)測年度時尚趨勢,歐洲主要代理 德國服務(wù)器,也許可以將其納入到你的機(jī)器學(xué)習(xí)模型中。
或者你可能需要根據(jù)你從時尚媒體所聽到的內(nèi)容,將手動更正(亦稱“瞎猜”)應(yīng)用到你的模型。(“以防萬一,讓我們將預(yù)測提高20%,”) 也許你想通過為這個預(yù)測創(chuàng)建一個深度神經(jīng)網(wǎng)絡(luò)來做更好的事情。你可能會發(fā)現(xiàn)你添加的每一個隱藏層的都能將回歸誤差提高幾個百分點,直到無助于提高的程度。
報酬遞減的原因可能是因為在模型中沒有更多的特征可以識別,或者更有可能是因為沒有足夠的數(shù)據(jù)來支持更多的細(xì)化。
你有足夠的數(shù)據(jù)科學(xué)家
你可能已經(jīng)注意到,一個人必須構(gòu)建上面討論的所有模型。不,這不是將數(shù)據(jù)傾倒到料斗中并按下按鈕的問題。不管你使用什么工具,這需要經(jīng)驗、直覺、編程的能力以及玩轉(zhuǎn)機(jī)器學(xué)習(xí)的過硬的統(tǒng)計學(xué)背景——盡管供應(yīng)商可能會這樣宣稱。
某些供應(yīng)商特別傾向于聲稱“任何人”或“任何企業(yè)角色”都可以使用其預(yù)先訓(xùn)練的應(yīng)用機(jī)器學(xué)習(xí)模型。如果模型完全適于手頭的問題,例如將正式的書面的魁北克法文翻譯成英文,這可能是真的,但是更常見的情況是,你的數(shù)據(jù)不適合現(xiàn)有的訓(xùn)練有素的機(jī)器學(xué)習(xí)(ML)模型。由于你必須訓(xùn)練該模型,你將需要數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來指導(dǎo)培訓(xùn),而這種培訓(xùn)比工程或科學(xué)更像是一門藝術(shù)。
關(guān)于招聘數(shù)據(jù)科學(xué)家的最奇怪的事情之一就是公布的要求,特別是與受聘者的實際技能相比。廣告經(jīng)常這么寫道“招聘:數(shù)據(jù)科學(xué)家。科技工數(shù)類博士(STEM Ph.D.),加上20年的經(jīng)驗。