欢迎光临熊猫体育官方网站

crm系統(tǒng)

免費(fèi)試用400-821-5041


機(jī)器學(xué)習(xí)的七個最佳實(shí)踐

時間: 2020-03-15來源: Salesforce知識

機(jī)器學(xué)習(xí)

Netflix著名的算法挑戰(zhàn)賽,向預(yù)測用戶對電影評分的較佳算法頒發(fā)了100萬美元的獎金。但是您知道獲勝算法從未實(shí)現(xiàn)到功能模型中嗎?

 

Netflix報道說,該算法取得的成果似乎并不能證明將其引入生產(chǎn)環(huán)境所需的工程工作是合理的。這是機(jī)器學(xué)習(xí)的一大問題。

 

在您的公司,您可以創(chuàng)建任何人都見過的非常優(yōu)雅的機(jī)器學(xué)習(xí)模型,即使您從不部署和操作它也沒有關(guān)系。但這并非易事,這就是為什么我們向您展示機(jī)器學(xué)習(xí)的七個最佳實(shí)踐的原因。

 

本文內(nèi)容整理于對近期參與數(shù)據(jù)和分析峰會的數(shù)據(jù)挖掘和分析產(chǎn)品管理總監(jiān)Charlie Berger的采訪。

 

將模型付諸實(shí)踐的時間可能比您想象的要長。TDWI的一份報告發(fā)現(xiàn),28%的受訪者花了三到五個月的時間才將他們的模型投入使用。幾乎有15%的人需要超過9個月的時間。

機(jī)器學(xué)習(xí)

那么,您如何做才能開始更快地部署機(jī)器學(xué)習(xí)呢?在這里列出了我們的建議:

 

1.別忘了開始行動

在以下幾點(diǎn)中,我們將為您提供一系列不同的方法,以確保以更佳方式使用您的機(jī)器學(xué)習(xí)模型。但是我們從更重要的一點(diǎn)開始。

 

事實(shí)是,在機(jī)器學(xué)習(xí)的這個階段,許多人根本就沒有開始。發(fā)生這種情況的原因有很多。技術(shù)很復(fù)雜,也許買不到,或者人們只是難以把每件事都做好。所以這是Charlie的建議:“即使您知道不得不每月重建一次模型,也要開始使用。因?yàn)槟銖闹袑W(xué)到的東西是無價的。”

 

2.從業(yè)務(wù)問題陳述開始,建立正確的成功指標(biāo)

從業(yè)務(wù)問題入手是常見的機(jī)器學(xué)習(xí)更佳實(shí)踐。但它之所以常見,恰恰是因?yàn)樗侨绱酥匾S多人卻不把它放在首位。

 

想一想這句話:“如果我有一個小時來解決一個問題,我會花55分鐘思考這個問題,5分鐘思考解決方案。”

 

現(xiàn)在,請確保將其應(yīng)用到機(jī)器學(xué)習(xí)場景中。下面,我們列出了定義不明確的問題陳述以及以更具體的方式定義問題的方式示例。

機(jī)器學(xué)習(xí)

想想你對盈利能力的定義是什么。例如,我們近期與一家全國性的快餐連鎖店進(jìn)行了洽談,他們希望增加軟飲料的銷量。在這種情況下,我們必須仔細(xì)考慮定義交易的含義。該交易是單人餐,還是一家人的六人餐?這很重要,因?yàn)樗鼤绊懩@示結(jié)果的方式。您必須考慮如何解決該問題并將其付諸實(shí)施。

 

除了建立成功指標(biāo)之外,您還需要建立正確的指標(biāo)。指標(biāo)將幫助您建立進(jìn)度,但是改進(jìn)指標(biāo)真的能改善終端用戶體驗(yàn)嗎?例如,您的傳統(tǒng)度量指標(biāo)可能包含精度和平方誤差。但是,如果您試圖創(chuàng)建一個衡量航空公司價格優(yōu)化的模型,那么您的每次購買成本和總體購買成本沒有增加就沒關(guān)系。

 

3.不要移動數(shù)據(jù)–移動算法
預(yù)測建模的致命弱點(diǎn)是這是一個兩步過程。首先,您通常基于樣本數(shù)據(jù)構(gòu)建模型,這些數(shù)據(jù)的數(shù)量從數(shù)百到數(shù)百萬不等。然后,一旦建立了預(yù)測模型,數(shù)據(jù)科學(xué)家就必須應(yīng)用它。然而,這些數(shù)據(jù)中的大部分都駐留在某個數(shù)據(jù)庫中。

 

假設(shè)您要獲得美國所有人的數(shù)據(jù)。美國有3億6千萬人口,這些數(shù)據(jù)存放在哪里?可能在某個地方的數(shù)據(jù)庫中。

 

您的預(yù)測模型位于何處?

通常的情況是人們會把他們所有的數(shù)據(jù)從數(shù)據(jù)庫中取出來,這樣他們就可以用他們的模型來運(yùn)行方程。然后,他們必須將結(jié)果重新導(dǎo)入數(shù)據(jù)庫以進(jìn)行預(yù)測。這個過程需要花費(fèi)數(shù)小時,甚至數(shù)天的時間,從而降低了您所構(gòu)建的模型的效率。

 

但是,從數(shù)據(jù)庫中擴(kuò)展方程具有顯著的優(yōu)勢。通過數(shù)據(jù)庫內(nèi)核運(yùn)行方程式需要花費(fèi)幾秒鐘,而導(dǎo)出數(shù)據(jù)需要花費(fèi)數(shù)小時。然后,數(shù)據(jù)庫也可以完成所有數(shù)學(xué)運(yùn)算并在數(shù)據(jù)庫中構(gòu)建它。對于數(shù)據(jù)科學(xué)家和數(shù)據(jù)庫管理員來說,這意味著一個世界。

 

通過將數(shù)據(jù)保留在數(shù)據(jù)庫和Hadoop或?qū)ο蟠鎯χ校梢栽跀?shù)據(jù)庫中構(gòu)建模型和評分,并使用具有數(shù)據(jù)并行調(diào)用的R包。這樣,您就可以消除數(shù)據(jù)重復(fù)并分離分析服務(wù)器(不移動數(shù)據(jù)),并且可以在數(shù)小時內(nèi)對模型進(jìn)行評分,嵌入數(shù)據(jù)準(zhǔn)備,構(gòu)建模型和準(zhǔn)備數(shù)據(jù)。

 

4.整合正確的數(shù)據(jù)
正如James Taylor和Neil Raden在Smart Enough System一書中所寫,對您擁有的所有東西進(jìn)行分類并確定哪些數(shù)據(jù)是重要的是處理問題的錯誤方法。正確的方法是從解決方案開始,明確定義問題,并繪制出構(gòu)成調(diào)查和模型所需的數(shù)據(jù)。

 

然后,是時候與其他團(tuán)隊(duì)合作了。

 

機(jī)器學(xué)習(xí)

這是您可能開始陷入困境的地方。因此,我們將參考第1點(diǎn),即“別忘了真正開始行動。”同時,整合正確的數(shù)據(jù)對您的成功非常重要。

 

為使您找出用于填充調(diào)查和模型的正確數(shù)據(jù),您需要與業(yè)務(wù)領(lǐng)域,信息技術(shù)和數(shù)據(jù)分析師這三個主要領(lǐng)域的人員進(jìn)行交談。


業(yè)務(wù)領(lǐng)域-這些都是了解業(yè)務(wù)的人:
• 市場營銷和銷售
• 客戶服務(wù)
• 運(yùn)營


信息技術(shù)-有權(quán)訪問數(shù)據(jù)的人:
• 數(shù)據(jù)庫管理員


數(shù)據(jù)分析師-了解業(yè)務(wù)的人:
•  統(tǒng)計員
•  數(shù)據(jù)挖掘者
•  數(shù)據(jù)科學(xué)家


您需要積極參與。沒有它,您將收到類似的評論:
• 這些線索都不好
• 數(shù)據(jù)過時了
• 該模型不夠精確
• 您為什么不使用這些數(shù)據(jù)?

 

5.創(chuàng)建新的派生變量
您可能會想,我已經(jīng)掌握了所有這些數(shù)據(jù)。我還需要什么?

 

但是創(chuàng)建新的派生變量可以幫助您獲得更多有見地的信息。例如,您可能正在嘗試預(yù)測第二天報紙和雜志的銷量。以下是你已經(jīng)知道的信息:

• 實(shí)體店或售貨亭
• 賣彩票?
• 本次抽獎金額

 

當(dāng)然,您可以根據(jù)該信息做出猜測。但是,如果您能夠首先比較當(dāng)前彩票獎賞金額與典型獎賞金額,然后將該派生變量與您已經(jīng)擁有的變量進(jìn)行比較,您將得到一個更準(zhǔn)確的答案。

 

6.在發(fā)布之前考慮問題并進(jìn)行測試
理想情況下,一開始您應(yīng)該能夠使用兩個或多個模型進(jìn)行A / B測試。你不僅知道你怎么做是對的,而且當(dāng)你知道你做的是對的時候,你會更有信心。

 

但是,除了進(jìn)行全面測試之外,當(dāng)事情出錯時,你也應(yīng)該有一個適當(dāng)?shù)挠媱潯@纾闹笜?biāo)開始下降。有幾件事會涉及到這一點(diǎn)。您將需要某種形式的警報,以確保可以盡快調(diào)查此事。當(dāng)副總裁進(jìn)入您的辦公室想知道發(fā)生了什么時,您將不得不向可能沒有工程背景的人解釋發(fā)生了什么。

 

當(dāng)然,在發(fā)布之前,您需要計劃一些問題。遵守法規(guī)是其中之一。例如,假設(shè)你申請汽車貸款卻被拒絕了。根據(jù)GDPR的新規(guī)定,您有權(quán)知道原因。當(dāng)然,機(jī)器學(xué)習(xí)的問題之一是它看起來像一個黑匣子,甚至工程師/數(shù)據(jù)科學(xué)家也無法說出為什么做出某些決定。但是,某些公司將通過確保您的算法能提供預(yù)測細(xì)節(jié)來為您提供幫助。

 

7.在企業(yè)范圍內(nèi)部署和自動化
部署后,不要局限于數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家。

 

我們的意思是,始終要思考如何在整個企業(yè)中發(fā)布預(yù)測和可行的見解。重要的是了解數(shù)據(jù)在哪里以及何時可用,才使數(shù)據(jù)有價值;而不是它存在的事實(shí)。您不想成為坐在象牙塔中的人,發(fā)布一些零星的見解。您想要無處不在,每個人都需要更多的見解-簡而言之,你想要確保自己是不可或缺的,是極其有價值的。

 

鑒于我們所有人都只有這么多時間,因此如果可以自動化的話,這是較簡單的,創(chuàng)建儀表板。將這些見解納入企業(yè)應(yīng)用程序。看看您是否可以成為客戶接觸點(diǎn)的一部分,就像一臺自動提款機(jī)能識別出客戶定期在每個周五晚上提取100美元,在每個發(fā)薪日之后提取500美元。

 

結(jié)論
這是機(jī)器學(xué)習(xí)更佳實(shí)踐的核心要素。你需要良好的數(shù)據(jù),否則將一事無成。您需要將其放在數(shù)據(jù)庫或?qū)ο蟠鎯χ惖牡胤健D枰钊肓私鈹?shù)據(jù)以及知道如何處理數(shù)據(jù),無論是創(chuàng)建新的派生變量還是使用它們的正確算法。然后,您需要實(shí)際使用它們從中獲得深入的見解,通過信息傳播它們。

 

其中較困難的部分是啟動您的機(jī)器學(xué)習(xí)項(xiàng)目。我們希望通過這篇文章可以幫助您邁向成功。

 

編譯自:7 Machine Learning Best Practices 作者: Sherry Tiao (ORACLE)