人工智能的7個趨勢以及AI如何與操作機(jī)器學(xué)習(xí)協(xié)作
時間: 2019-07-22來源: Nisha Talagala
隨著人工智能(AI)變得越來越普遍,每個行業(yè)都競相開發(fā)人工智能AI解決方案來推進(jìn)它們的用例,圍繞生產(chǎn)環(huán)境部署出現(xiàn)了實(shí)際的挑戰(zhàn)。
在之前的文章中:如何從實(shí)驗(yàn)轉(zhuǎn)向構(gòu)建生產(chǎn)機(jī)器學(xué)習(xí)應(yīng)用程序 ,描述了將機(jī)器學(xué)習(xí)(ML)實(shí)驗(yàn)用于生產(chǎn)部署的過程。在這篇后續(xù)文章中,概述了有助于用戶簡化和擴(kuò)展整個機(jī)器學(xué)習(xí)生命周期的七個人工智能行業(yè)趨勢。我們將描述每個趨勢,討論為什么它對操作機(jī)器學(xué)習(xí)很重要,以及當(dāng)企業(yè)決定利用趨勢來加速或改進(jìn)其操作ML實(shí)踐時,應(yīng)該考慮哪些因素。
圖1顯示了一個典型的機(jī)器學(xué)習(xí)(ML)生命周期。隨著時間的推移,ML功能相對于業(yè)務(wù)需求得到進(jìn)一步優(yōu)化,這個循環(huán)會重復(fù)。
趨勢一:數(shù)據(jù)市場
許多機(jī)器學(xué)習(xí)計(jì)劃的第一個挑戰(zhàn)是找到一個可接受的數(shù)據(jù)集。數(shù)據(jù)市場試圖解決數(shù)據(jù)集的短缺,尤其是在醫(yī)療和物聯(lián)網(wǎng)等關(guān)鍵領(lǐng)域,通過提供一個:個人可以分享他們的數(shù)據(jù)、公司可以使用數(shù)據(jù)進(jìn)行人工智能AI和分析的平臺。市場平臺保證了安全性、私密性,并提供了一個經(jīng)濟(jì)模型來激勵參與者。
數(shù)據(jù)市場可以提供其他難以獲得的豐富的數(shù)據(jù),而且市場可以提供數(shù)據(jù)源并沿襲那些以后管理數(shù)據(jù)和確保質(zhì)量所需要的信息。
趨勢二:綜合數(shù)據(jù)服務(wù)
解決數(shù)據(jù)集短缺的另一個角度是合成數(shù)據(jù)集市場。機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步已經(jīng)證明,機(jī)器學(xué)習(xí)本身可以產(chǎn)生真實(shí)的數(shù)據(jù)集來訓(xùn)練其他ML算法,特別是在深度學(xué)習(xí)空間中。人工合成數(shù)據(jù)因其潛力而廣受贊譽(yù),因?yàn)橄鄬τ谀軌蛟L問大量數(shù)據(jù)集的大型組織,人工智能AI可以為規(guī)模較小的公司提供公平的競爭環(huán)境。合成數(shù)據(jù)可以是真實(shí)數(shù)據(jù)集的匿名版本,也可以是真實(shí)數(shù)據(jù)樣本生成的擴(kuò)展數(shù)據(jù)集,還可以是模擬環(huán)境,比如用于訓(xùn)練自動駕駛汽車的虛擬環(huán)境。
趨勢三:標(biāo)簽服務(wù)
好的數(shù)據(jù)集是稀缺的,被標(biāo)記的好的數(shù)據(jù)集更加稀缺。為了解決這個問題,出現(xiàn)了一個數(shù)據(jù)標(biāo)簽市場,它經(jīng)常關(guān)注特定的數(shù)據(jù)類型(比如圖像中的對象)。其中一些標(biāo)簽來自于跨地理區(qū)域協(xié)調(diào)并通過協(xié)調(diào)軟件管理的人工貼標(biāo)簽者。公司正在這個領(lǐng)域進(jìn)行創(chuàng)新,將人工和基于機(jī)器學(xué)習(xí)的標(biāo)簽結(jié)合起來,這是一個有潛力降低純?nèi)斯?biāo)簽成本的趨勢。這一領(lǐng)域的其他創(chuàng)新包括使企業(yè)能夠與標(biāo)識服務(wù)提供者直接交互的服務(wù)。
趨勢四:自動化機(jī)器學(xué)習(xí)模型
一旦找到合適的數(shù)據(jù)集并貼上標(biāo)簽,下一個挑戰(zhàn)就是找到一個好的算法并訓(xùn)練一個模型。自動化機(jī)器學(xué)習(xí)(AutoML)技術(shù)使算法/模型選擇和調(diào)優(yōu)過程自動化,獲取一個輸入數(shù)據(jù)集,運(yùn)行大量訓(xùn)練算法和超參數(shù)選項(xiàng),以選擇建議部署的最終模型。與AutoML相關(guān)(并且經(jīng)常在內(nèi)部提供),是利用深度特性合成等技術(shù)實(shí)現(xiàn)的特征工程自動化功能合成。AutoML軟件有時也可以對輸入數(shù)據(jù)集執(zhí)行偏差檢測。一些自動解決方案是SaaS產(chǎn)品,而另一些是可下載的軟件,可以在云環(huán)境或內(nèi)部環(huán)境中以容器形式運(yùn)行。
趨勢五:預(yù)制容器
對于那些可能正在開發(fā)自己模型的人來說,容器是生產(chǎn)部署的一種完善的設(shè)計(jì)模式,因?yàn)樗鼈兪谷魏斡?xùn)練或推理代碼都能夠在定義良好的可移植和可伸縮的環(huán)境中運(yùn)行。Kubernetes等編制工具進(jìn)一步支持基于容器的機(jī)器學(xué)習(xí)ML的伸縮性和靈活性。然而,組裝容器可能是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)楸仨毥鉀Q依賴關(guān)系,并對整個堆棧進(jìn)行調(diào)優(yōu)和配置。預(yù)先構(gòu)建的容器市場解決了這個問題,為預(yù)先配置的容器提供了預(yù)先安裝和配置的必要庫,特別是對于復(fù)雜的環(huán)境,如GPUs。
趨勢六:模型市場
如果你不想建立或訓(xùn)練自己的模型,有模型市場。模型市場使客戶能夠購買預(yù)先構(gòu)建的算法,有時還可以購買經(jīng)過訓(xùn)練的模型。這些對于以下用例是有用的:
(a)用例是足夠通用的,因此不需要訓(xùn)練定制模型,也不需要將訓(xùn)練/推理代碼裝備到定制容器中;
(b)像轉(zhuǎn)移學(xué)習(xí)這樣的機(jī)制可以用來擴(kuò)展和定制基本模型;
(c)用戶沒有足夠的訓(xùn)練數(shù)據(jù)來建立自己的模型。
在模型市場中,處理數(shù)據(jù)和訓(xùn)練一個好的模型這樣重要的工作可以被卸載,使用戶能夠?qū)W⒂诓僮骰钠渌矫妗R簿褪钦f,模型市場的一個關(guān)鍵挑戰(zhàn)是篩選內(nèi)容,以找到適合您需求的資產(chǎn)。
趨勢七:應(yīng)用級人工智能服務(wù)
最后,對于跨業(yè)務(wù)存在的常見用例,應(yīng)用程序級別的人工智能AI服務(wù)可以消除對整個操作機(jī)器學(xué)習(xí)ML生命周期的需求。人們可以訂閱執(zhí)行人工智能任務(wù)的終端服務(wù),而不是創(chuàng)建模型、訓(xùn)練和部署它們。應(yīng)用級人工智能AI服務(wù)包括視覺、視頻分析、自然語言處理(NLP)、表單處理、自然語言翻譯、語音識別、聊天機(jī)器人等任務(wù)。
好處和注意事項(xiàng)
上述所有趨勢都使用戶能夠簡化或加快一個或多個操作機(jī)器學(xué)習(xí)ML生命周期的各個階段,通過卸載、重用預(yù)構(gòu)建項(xiàng),或者通過特定階段的自動化。考慮到迭代機(jī)器學(xué)習(xí)ML流程是如何實(shí)現(xiàn)的(例如,訓(xùn)練通常包括數(shù)十到數(shù)百個實(shí)驗(yàn)),自動化這些流程可以產(chǎn)生更可跟蹤、可重現(xiàn)和可管理的工作流。外包這些任務(wù)甚至更容易,尤其是在強(qiáng)化了模型和算法的情況下(除了您自己的環(huán)境之外,已經(jīng)在許多環(huán)境中測試過)可以用于基本任務(wù)。
也就是說,在您的環(huán)境中使用這些服務(wù)之前,有幾個因素需要考慮:
1:考慮適用性
并不是所有的趨勢都適用于所有的用例。最普遍適用的趨勢是AutoML,它的應(yīng)用范圍很廣。類似地,模型市場有非常廣泛的模型和算法可用。數(shù)據(jù)集市和合成數(shù)據(jù)集趨向于特定于用例的類,而預(yù)構(gòu)建的容器可以特定于不同的硬件配置(如GPUs),而這些硬件配置又適用于特定的用途。許多數(shù)據(jù)標(biāo)簽服務(wù)也有特定的用途(比如圖像分類和表單閱讀),但一些咨詢公司確實(shí)提供定制的標(biāo)簽服務(wù)。最后,端到端人工智能AI服務(wù)非常特定于用例。
2:人工智能信任
隨著更多的ML被部署,人類普遍對黑箱人工智能系統(tǒng)的恐懼表現(xiàn)為對信任的擔(dān)憂和對監(jiān)管力度的加大上。為了從人工智能AI中獲益,企業(yè)不僅要考慮生產(chǎn)機(jī)器學(xué)習(xí)ML的機(jī)制,還要考慮管理任何客戶社區(qū)的關(guān)注點(diǎn)。如果不加以解決,這些擔(dān)憂可能會在客戶流失、企業(yè)出糗、品牌價值損失或法律風(fēng)險中具體化。
信任是一個復(fù)雜而廣泛的主題,但其核心是需要理解和解釋機(jī)器學(xué)習(xí)ML,并確信ML在預(yù)期的參數(shù)范圍內(nèi)正確運(yùn)行,不受惡意入侵。特別是,生產(chǎn)ML所做的決策應(yīng)該是可解釋的——即必須提供可信服的解釋。這在諸如GDPR的解釋權(quán)條款等法規(guī)中變得越來越有必要。可解釋性與公平性密切相關(guān)——需要確信人工智能AI不是無意或故意做出有偏見的決策。例如,亞馬遜(Amazon)Rekognition等人工智能AI服務(wù)也因存在偏見而受到關(guān)注。
由于上面提到的幾乎所有趨勢都涉及到將機(jī)器學(xué)習(xí)ML生命周期的某些方面卸載或“外包”給第三方或自動化系統(tǒng),因此需要在每個階段進(jìn)行額外的了解,以確保最終的生產(chǎn)生命周期能夠交付信任的核心原則。這包括了解所部署的算法,用于訓(xùn)練它們的數(shù)據(jù)集是否沒有偏見,等等。這些需求不會改變生命周期本身,但是需要付出額外的努力來確保正確的沿襲跟蹤、配置跟蹤和診斷報告。
考慮3:可診斷性和運(yùn)營管理
無論機(jī)器學(xué)習(xí)ML生命周期的組件來自何處,您的企業(yè)都將負(fù)責(zé)管理和維護(hù)ML服務(wù)在其生命周期中的健康狀態(tài)(除了人工智能趨勢7中完全外包的服務(wù)之外)。
如果是這樣,數(shù)據(jù)科學(xué)家和工程師必須了解正在部署的模型、用于訓(xùn)練模型的數(shù)據(jù)集以及這些模型的預(yù)期安全操作參數(shù)。由于許多服務(wù)和市場都是新生的,所以目前還沒有標(biāo)準(zhǔn)化。用戶有責(zé)任理解他們所使用的服務(wù),并確保服務(wù)能夠與生命周期的其余部分一起得到充分的管理。
(編譯自:7 Artificial Intelligence Trends and How They Work With Operational Machine Learning,作者: Nisha Talagala)