個性化推薦中的算法與推薦策略-路走的多了才成為路
在一個推薦場景上線之前,我們要做以下分析并調(diào)整推薦策略:
(1)分析該場景要推薦的網(wǎng)站對象(商品,買家,賣家,類目或者資訊):
a)已經(jīng)有哪些用戶行為:點(diǎn)擊瀏覽、收藏、交易等,這影響到構(gòu)建一個什么樣的行為矩陣;
b)以上用戶行為的數(shù)據(jù)量情況:如果行為量足夠,可以考慮僅適用某種行為(比如,基于收藏行為,計算商品之間的行為相關(guān)性);如果數(shù)量不夠,就需要綜合足夠多的行為數(shù)據(jù),構(gòu)建一個綜合性的用戶對象數(shù)據(jù)矩陣;
c)網(wǎng)站對象數(shù)量級:是百萬,千萬還是億級別,這就需要考慮使用不同算法計算網(wǎng)站對象的相關(guān)性時,是否能夠?qū)崿F(xiàn)——比如,要約束具體每一個算法在2個小時內(nèi)執(zhí)行完;該問題需要和第二步綜合起來考量。實(shí)在不行,可以將網(wǎng)站對象依據(jù)某些分類規(guī)則拆分成幾個計算單元。
(2)這些網(wǎng)站對象是否在別的應(yīng)用場景已經(jīng)做了個性化推薦:
a)是否已經(jīng)在“集體智慧”算法的推動下被展示給用戶;
b)是否在別的邏輯下被“推薦”:比如,基于當(dāng)前資訊所在類目,按點(diǎn)擊量推薦或者按照文章發(fā)布日期推薦最新的。
對于一個全新的剛剛建立的網(wǎng)站,策略可以比較簡單。比如推薦資訊文章,一般指只需要組合使用content-based算法(計算資訊的文本相關(guān)性)和item-based算法(計算資訊的行為相關(guān)性),可以考慮串行策略:優(yōu)先使用item-based算法結(jié)果,如果數(shù)量不足,再使用content-based算法結(jié)果。
對于一個已經(jīng)上線很久的網(wǎng)站,如果被推薦對象已經(jīng)被“推薦”,比如基于類目按照發(fā)布日期被推薦。如果這個時候,還是單純的串行組合使用item-based算法和content-based算法,效果很可能不怎么理想。因?yàn)?,大量的相關(guān)用戶行為,是在一個并不是很好的引導(dǎo)下形成的。這個時候,item-based算法出來的結(jié)果,和基于類目按照發(fā)布日期推薦的結(jié)果,在很大程度上存在重合。
這就是所謂的“路走多了才會成為路”,如果是一條彎路,則必須另辟蹊徑,引導(dǎo)出一條新路——真正基于用戶“集體智慧”的結(jié)果。
(1)剛開始的時候完全基于content-based算法結(jié)果進(jìn)行推薦
Content-based算法結(jié)果是比上不足比下有余的,使用一段時間(具體看網(wǎng)站行為量,比如4周)后,再引入item-based算法;
(2)通過兩個指標(biāo),在一定程度上減少“打醬油”行為的影響
l閾值min_support:表示該商品被點(diǎn)擊查看過的人數(shù)
l閥值min_common_visit:以二項(xiàng)式為例,表示兩個商品被同一個人看過,總的人數(shù)
通過這兩個閥值,進(jìn)行剪枝處理,裁剪掉大量的數(shù)據(jù),減少了分布式計算量。
(3)item-based算法結(jié)果的閥值過濾先松后緊:先保證召回率,然后逐步提升準(zhǔn)確率
例如,在網(wǎng)站真實(shí)推薦場景中,兩周前對itembased算法的推薦閾值做了調(diào)整,之前因?yàn)閾?dān)心推薦數(shù)量不夠,設(shè)的閾值min_support和min_common_visit都為1(等于不設(shè)閾值),7月9日將這兩個值修改為5和2。前后的效果的對比數(shù)據(jù)見下表:
統(tǒng)計日期 | 推薦場景 | 推薦算法 | 點(diǎn)擊數(shù) | 懶加載曝光PV | 曝光數(shù) | 二跳率 | CTR |
6.12-6.15 | 83/**頁面 | Itembased**算法 | 33,268 | 278,058 | 1,214,097 | 11.96% | 2.74% |
6.18-6.21 | 83/**頁面 | Itembased**算法 | 38,763 | 323,305 | 1,395,984 | 11.99% | 2.78% |
6.25-6.29 | 83/**頁面 | Itembased**算法 | 48,135 | 389,944 | 1,720,904 | 12.32% | 2.79% |
7.2-7.6 | 83/**頁面 | Itembased**算法 | 44,201 | 360,531 | 1,567,397 | 12.27% | 2.82% |
7.9-7.13 | 83/**頁面 | Itembased**算法 | 50,334 | 390,650 | 1,665,448 | 12.92% | 3.02% |
7.16-7.20 | 83/**頁面 | Itembased**算法 | 50,546 | 395,322 | 1,700,736 | 12.81% | 2.97% |
在網(wǎng)站二跳率(點(diǎn)擊/頁面總數(shù))和CTR(點(diǎn)擊數(shù)/被曝光對象數(shù))上還是有顯著提升的(點(diǎn)擊數(shù)等三項(xiàng)指標(biāo)和全站流量有關(guān))。
愛華網(wǎng)



