工欲善其事必先利其器-“AI”篇

2018-08-29 本文已影响28人木易夕口

楊叫獸小講堂又開課了，嚴重打臉了，說好閉關一年的，結果中間被有些事情刺激了又寫了一些東西，而且就這慘淡的閱讀量，居然還有人催更！我也是醉了！

言歸正傳，最近做項目不蹭幾個高大上名詞“大數據”和“AI”都不好意思打招呼。這裡不想講AI技術，如果想看，請隔壁CSDN和CNBLOGS 好走！不謝！既然我轉行產品狗這些年，就來談談“AI”在應用場景中的選擇。

先拋總結：很多場景下用不到機器學習和深度學習，基於統計和場景策略可以很好的完成早期過度。

場景1：首頁推薦，很多產品首頁都會有一個推薦模塊，顯得自己高科技，其實真正要做到有效推薦，早期不一定要用到高大上的機器學習，利用統計數據比如總瀏覽量，然後加入場景策略，用戶喜好的內容分類，然後隨機交叉出現，因為在早期一定有冷啟動的問題，你還沒有拿到個人用戶行為之前，你只能通過統計數據來猜測大概率下用戶閱讀的偏好，當用戶產生訪問行為之後，跟蹤用戶的點擊、瀏覽、停留時間、閱讀的內容，就可以對一個用戶進行畫像，那麼當產生了一定用戶歷史數據，就可以通過協同過濾來進行交叉推薦，這樣最基本的推薦框架就完成了。

場景2：巨量數據融合糾錯，在POI聚合和糾錯場景中，面臨多個渠道的數據合併，因為有多渠道並存難免重複，那麼怎麼糾正重複就是一個關鍵問題。先說多渠道聚合，因為不同的渠道數據格式不一定完全相同，但是都有一定的規律可尋，所以在融合時候採用規則引擎和機器學習都是可行解決方案，具體哪個方案更好，完全取決於團隊研發能力和對精度要求，就我的經驗來看規則引擎相對來說更有效。再說重複糾正方面，那麼機器學習就更有效了，因為重複數據通過人工判斷會產生標註，通過機器學習找到這些數據的特征差異和共性，然後對全量數據做回歸，就是一個很好校準重複進化框架。

場景3：圖片識別歸類和優選，只要和圖片項目打交道的同學就發現，在沒有深度學習技術之前，圖片的編輯優化基本都是人工完成，好的項目可以採用“眾包”方式來分發數據讓用戶參與進來。現在有了卷積神經網絡，這件事情變得相對要容易很多，首先定義好圖片分類，然後通過機器識別，然後再針對結果做二次標註再次學習識別，反復多次之後，就可以得到準確度還不錯的模型數據，這樣可以大大減少人力的投入。說完分類再說優選，先通過人工的方式對分類圖片進行初篩，然後放到真實環境中讓用戶自然選擇，記錄用戶的點擊偏好，通過點擊就相當於做了優選的特征值標註，然後再通過機器學習來找到圖片中的規律，然後就可以應用在全量數據之上，簡不簡單，驚不驚喜！

場景4：文本和語義識別，基於單一語種的文本識別，中文難度要遠大於英文，因為英文不涉及分詞問題，做過搜索引擎的朋友都知道，第一件事情就是切詞，好在有很多開源詞表可以大大提高切詞精度。做完切詞之後要做的事情就是高頻詞聚類，在聚類過程中又涉及到同義詞聚合，這樣就可以拿到一批結構化數據，然後通過文本中主謂賓判斷，就可以簡單識別用戶的喜好和意圖。分析完文本就可以通過對一個人說話的理解，來識別用戶的意圖，那麼結合最簡單的場景控制，就是現在的“智能”音箱。居然米國有公司通過基礎素材，通過多種新聞內容的學習，就可以來編寫內容，是不是感覺記著要下崗了？其實這個擔心還早，至少我們團隊現有能力只能構建短句，不能構建完整文章。

其實要舉例的東西還很多，但是核心要表達的意思就是：“AI是一種技術，還是要為人服務”

在AI時代核心競爭力是：大數據獲取和特徵標註，這兩個都太燒錢了！所以小公司機會真的不大！

工欲善其事必先利其器-“AI”篇

猜你喜欢

热点阅读