資源描述:
《基于協(xié)同過濾推薦算法圖書推薦探究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、基于協(xié)同過濾推薦算法圖書推薦探究摘要:隨著信息技術(shù)以及互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,在面對(duì)這個(gè)信息量過載的時(shí)代,我們基本無(wú)法從海量的信息當(dāng)中快速有效的找到自己所需的信息。傳統(tǒng)的推薦算法也已經(jīng)無(wú)法滿足的人們的需求。協(xié)同過濾是推薦系統(tǒng)中最為廣泛使用和最成功的技術(shù)之一,以其出色的速度和健壯性,在理論和實(shí)踐中都取得了快速的發(fā)展,并且已經(jīng)在全球互聯(lián)網(wǎng)領(lǐng)域炙手可熱。針對(duì)當(dāng)前高校傳統(tǒng)數(shù)字圖書館已無(wú)法為用戶提供準(zhǔn)確的圖書推薦服務(wù),本文以圖書推薦為例,提出了在協(xié)同過濾技術(shù)上的圖書個(gè)性化推薦系統(tǒng)研究以及實(shí)現(xiàn)過程,并?結(jié)其優(yōu)缺點(diǎn)。關(guān)鍵詞:
2、推薦系統(tǒng);協(xié)同過濾;圖書推薦中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9416(2017)04-0147-011協(xié)同過濾算法介紹在1992年Goldberg等學(xué)者首先提出來(lái)協(xié)同過濾一詞,他們將協(xié)同過濾技術(shù)使用到Tapestay的一個(gè)系統(tǒng)中,該系統(tǒng)主要是想解決Xerox公司在PaloAlto的研究中心信息過載問題。而協(xié)同過濾又常被用于分辨其為特定用戶可能感興趣的物品,因此這些結(jié)論也常用來(lái)對(duì)其他相似顧客對(duì)有些物品感興趣的分析。到目前為止,基于協(xié)同過濾推薦的技術(shù)和方法在實(shí)際的應(yīng)用系統(tǒng)中能取得重大成就的
3、同時(shí),國(guó)內(nèi)外學(xué)者也在理論上對(duì)協(xié)同過濾的推薦技術(shù)進(jìn)行研究和改進(jìn),著力于提高個(gè)性化推薦的效果。協(xié)同過濾算法以其出色的計(jì)算速度和健壯性,在全球范圍內(nèi)特別是在互聯(lián)網(wǎng)領(lǐng)域中,炙手可熱,同時(shí)相較其他算法,協(xié)同過濾具有以下兩個(gè)優(yōu)勢(shì):第一,對(duì)推薦對(duì)象無(wú)特殊要求、對(duì)于復(fù)雜切抽象的資源也同樣能夠?qū)崿F(xiàn)推薦;其次,只需要顯式或者隱試的用戶使用過的歷史數(shù)據(jù),而并不需要有關(guān)用戶本身的屬性、知識(shí),并且不會(huì)對(duì)用戶的推薦體驗(yàn),帶來(lái)一些負(fù)面影響[1]。目前主要由兩類協(xié)同過濾算法:其一是基于用戶的協(xié)同過濾算法(user-basedcollabor
4、ativefiltering)^還有基于物品的協(xié)同過濾算法(item-basedcollaborativefiltering)和SlopeOne算法。由于基于用戶的協(xié)同過濾算法存在數(shù)據(jù)稀疏性和算法擴(kuò)展性兩個(gè)重大問題。因此本文介紹的系統(tǒng),所采用的是基于物品的協(xié)同過濾算法。2對(duì)協(xié)同過濾算法過程的分析(1)收集用戶偏好。本項(xiàng)目中就是收集用戶的借閱歷史。(2)計(jì)算物品(即已借圖書)之間的相似度,這是協(xié)同過濾推薦算法中最關(guān)鍵的一步。在協(xié)同過濾中,兩個(gè)物品是否能產(chǎn)生相似度,往往是因?yàn)樗鼈児餐缓芏嘤脩羲J(rèn)同,也就是說,每
5、個(gè)用戶都可以通過用戶本身對(duì)物品的歷史興趣列表,從而給物品貢獻(xiàn)相似度。在這里面蘊(yùn)含一個(gè)假設(shè)條件,那就是每個(gè)用戶對(duì)物品的興趣,基本都局限在某些方面,因此,如果兩個(gè)物品,能夠?qū)儆谠S多用戶的興趣列表,那么這兩個(gè)物品,就有可能就屬于有限的幾個(gè)領(lǐng)域,反過來(lái)說,如果兩個(gè)物品能夠?qū)儆诤芏嘤脩舻呐d趣列表,那么也就有可能屬于同一領(lǐng)域,從而來(lái)判斷他們有很大的相似度[2]。傳統(tǒng)的計(jì)算相似度的方法有三種:基于余弦(Cosine-based)的相似度計(jì)算、基于關(guān)聯(lián)(Correlation-based)的相似度計(jì)算和調(diào)整的余弦(Adjus
6、tedCosine)相似度計(jì)算。經(jīng)研究,在我們的圖書推薦系統(tǒng)中,采用以下公式:其中In(i)
7、和
8、N(j)丨分別表示喜歡物品i和物品j的用戶數(shù)量(變量),而In(I)an(j)丨是即喜歡物品i同時(shí)也喜歡物品j的用戶數(shù)量。此公式限制了物品j的權(quán)重,可以避免了對(duì)熱門物品所進(jìn)行的推薦,從而也能夠提高為用戶所推薦自己喜歡物品的準(zhǔn)確性。詳細(xì)計(jì)算物品相似度的代碼如圖1所示,其中C[i][j]記錄了同時(shí)喜歡物品i和物品j的用戶數(shù)。通過上述圖、公式等得到物品相似度后,ItemCF也通過以下公式來(lái)計(jì)算用戶u對(duì)一個(gè)物品j的興趣度
9、:其中,N(u)是作為用戶喜歡的物品的一個(gè)集合,而S(j,K)是同物品j最相似的,K個(gè)物品的集合,Wji表示物品j同i的相似度,而rui是用戶u對(duì)物品i的興趣情況。這個(gè)公式的所表示含義是:和該用戶歷史上感興趣的物品,越相似的物品,越有可能在用戶的推薦列表中所獲得比較高的排名[3]。其實(shí)現(xiàn)代碼如:由此可見,協(xié)同過濾推薦算法具備強(qiáng)大的功能和較高的效率。我們一共選取了8700個(gè)學(xué)生的借閱信息進(jìn)行研究,并對(duì)其推薦結(jié)果進(jìn)行有效分析,我們得出結(jié)論:(1)借書越多的用戶,其推送準(zhǔn)確率越高。(2)能夠獲取圖書數(shù)據(jù)越完整的信息
10、和字段越多,推送越準(zhǔn)確。在研究中我們發(fā)現(xiàn)對(duì)于借書較少產(chǎn)生的推薦不是十分準(zhǔn)確,通過研究發(fā)現(xiàn),系統(tǒng)根據(jù)少量的數(shù)據(jù),該算法的使用不容易準(zhǔn)確掌握用的興趣愛好;對(duì)于從未借書的同學(xué)不會(huì)產(chǎn)生數(shù)據(jù)。這便是協(xié)同過濾算法的稀疏性問題。3結(jié)語(yǔ)本文介紹了協(xié)同過濾算法的主要思想,并以圖書推薦系統(tǒng)為例,詳細(xì)介紹其主要思想以及算法,采取相關(guān)方法來(lái)降低熱門商品的推薦率,以更好匹配用戶偏好相似度?;趨f(xié)同過濾技術(shù)的圖書推薦系統(tǒng),對(duì)提