資源描述:
《基于概念的數(shù)字圖書館信息過濾系統(tǒng)研究new》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、2007年6月第6期現(xiàn)代情報June12007No.6基于概念的數(shù)字圖書館信息過濾系統(tǒng)研究許春漫(福建師范大學(xué)社會歷史學(xué)院,福州350007)〔摘 要〕 本文結(jié)合向量空間技術(shù)和概念檢索技術(shù)提出了基于概念的數(shù)字圖書館信息過濾系統(tǒng),該系統(tǒng)能夠從詞匯所表達的概念意義層次上來處理文檔與用戶的信息需求,系統(tǒng)根據(jù)用戶提供的初始信息和反饋信息建立并更新用戶模板,并在此基礎(chǔ)上,主動從大量的動態(tài)信息流中挑選出滿足用戶需求的信息推送給用戶?!碴P(guān)鍵詞〕 數(shù)字圖書館;信息過濾;用戶模板■〔Abstract〕Thispaperpresentsaconc
2、ept-basedinformationfilteringsystemindigitallibrarywhichusesvec2torspacetechnologyandconcept-basedinformationretrievaltechnology.Thissystemdealswiththedocumentandtheuserpsinterestinformationbasingonconcepts.Thissystembuildstheuserprofileaccordingtotheinformationprov
3、idedinitiativelybytheuser,updatestheuserprofileaccordingtotheuserpsfeedbackinformation.Byusingtheuserprofile,thissystemcanfilternecessaryinformationfrommassinformationandpushittotheuserwhoneedit.〔Keywords〕digitallibrary;informationfiltering;userprofile〔中圖分類號〕G250176
4、 〔文獻標(biāo)識碼〕C 〔文章編號〕1008-0821(2007)06-0077-03 為用戶提供優(yōu)質(zhì)的信息服務(wù)是傳統(tǒng)圖書館的服務(wù)宗旨,用戶的信息需求,從而提高推送的準(zhǔn)確性和全面性。同樣也是數(shù)字圖書館永恒的主題。隨著互聯(lián)網(wǎng)的快速發(fā)展,1 系統(tǒng)的體系結(jié)構(gòu)網(wǎng)絡(luò)信息正以指數(shù)級的速度增長,面對浩如煙海的網(wǎng)絡(luò)信信息過濾的工作基本上可以概括為兩項:一是建立用息資源,如何有效獲取自己感興趣的信息,屏蔽不相關(guān)的戶需求模板(簡稱用戶模板),即將用戶的信息需求以計算信息成為困擾用戶的突出問題。用戶迫切希望數(shù)字圖書館機能夠識別的形式揭示出來;二是信息
5、匹配計算,即根據(jù)能改變傳統(tǒng)的“人找信息”的服務(wù)模式為“信息找人”的用戶模板判斷信息與用戶需求的相關(guān)度。信息過濾系統(tǒng)體服務(wù)模式,做到“把最好的信息,用最方便的方法,在最系結(jié)構(gòu)如圖1所示。好的時機,送到最需要的人手中”,從而減輕用戶檢索信息本系統(tǒng)引入概念詞典的目的是為了實現(xiàn)詞匯到概念之?dāng)?shù)的負(fù)擔(dān)。間的相互轉(zhuǎn)換。在概念詞典中,概念與詞匯是多對多的映字現(xiàn)有的信息過濾系統(tǒng)中有相當(dāng)一部分是建立在詞語而射關(guān)系,給定一個詞匯,通過該詞典能知道它可以表達哪圖書非概念的基礎(chǔ)上,系統(tǒng)對于用戶需求的表達以及信息的匹些概念,而給定一個概念,又可以得到描述
6、該概念的所有館配和推送都是基于詞語的外在形式而不是它們所表達的概詞匯。這樣,文檔和用戶模板中的詞匯通過該詞典都可轉(zhuǎn)技術(shù)念,所以常常推送給用戶無關(guān)的信息,或?qū)е旅芮邢嚓P(guān)信換成概念,因此就將同一概念的多種描述元素之間的形式論息的遺漏。例如,當(dāng)用戶表現(xiàn)出對萬里長城方面的信息感差別屏蔽掉,實現(xiàn)了概念層次上的同義擴展過濾。由于很壇興趣,系統(tǒng)可能將一些含有“長城”字樣諸如“長城集多詞匯在不同領(lǐng)域中的含義完全不同,比如ATM既可以歸團”、“長城飯店”等無關(guān)信息也一并推送給用戶;當(dāng)用戶為“異步傳輸模式”,又可以歸為“自動提款機”,因此概表現(xiàn)出
7、對計算機方面的信息感興趣,系統(tǒng)可能只給用戶推念詞典應(yīng)該是針對領(lǐng)域的,不同領(lǐng)域有不同的概念詞典。送含有“計算機”一詞的文檔,其實有許多含有“電腦”文檔分析模塊的功能是從文檔中抽取出概念,建立基卻不含有“計算機”一詞的文檔也是用戶感興趣的信息,于概念的文檔庫,在文檔庫中每個文檔都有一個文檔號。但過濾系統(tǒng)卻沒有將其推送給用戶。用戶模板建立模塊通過分析用戶提供的信息需求,生成不為了解決以上問題,本文綜合利用向量空間技術(shù)和概同用戶的初始需求模板;學(xué)習(xí)模塊根據(jù)用戶反饋信息更新念檢索技術(shù)提出基于概念的數(shù)字圖書館信息過濾系統(tǒng),該用戶模板;過濾
8、模塊自動搜集用戶可能最感興趣的信息,系統(tǒng)能夠根據(jù)用戶的信息需求,主動從大量的動態(tài)信息流然后以用戶指定的方式(如電子郵件等)將其傳遞至用戶中挑選出滿足用戶需求的信息推送給用戶,同時本系統(tǒng)還指定的地點。能夠從詞匯所表達的概念意義層次上來認(rèn)識和處理文檔與收稿日期:2007—02—0