基于大數(shù)據(jù)的用戶行為分析研究

ID：24713089

大?。?3.12 KB

頁數(shù)：6頁

時間：2018-11-16

資源描述：

《基于大數(shù)據(jù)的用戶行為分析研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于大數(shù)據(jù)的用戶行為分析研究摘要社交網(wǎng)絡(luò)媒體發(fā)展備受關(guān)注，微信、微博以及博客等社交媒體不斷使人們生活方式發(fā)生改變。微信、QQ＞微博、大眾點評、美團、淘寶、京東以及亞馬遜等用戶日益增加，用戶通過朋友圏或主動發(fā)出評論的數(shù)量逐漸遞增。在信息化多元化的時代，用戶已經(jīng)成為各個行業(yè)的代言人，為品牌推廣起到不可替代的作用。如何更好地獲取用戶真實的購買意愿，并精準的為用戶提供購物渠道和優(yōu)惠信息，將成為提升品牌榮譽、改善用戶體驗以及獲取最大效益的新型渠道。當(dāng)前存在許多營銷手段和推送方式，但準確度還不夠，并且時常出現(xiàn)錯誤推送。本文通過利用

2、銷售的案例并結(jié)合數(shù)據(jù)分析來闡述中文輿情的可行性，利用Hadoop平臺的文本分析和數(shù)據(jù)存儲數(shù)據(jù)庫（DB2BLU）,提高分析的準確程度。【關(guān)鍵詞】信息化大數(shù)據(jù)Hadoop文本分析1背景21世紀是數(shù)據(jù)信息迅速膨脹的時代，互聯(lián)網(wǎng)的應(yīng)用范圍和邊界不斷延伸，如移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等?，F(xiàn)今，用戶可以借助互聯(lián)網(wǎng)平臺表達社情民意，體現(xiàn)用戶的意愿，評論和態(tài)度。例如京東的用戶對某商品的評論信息，商家通過用戶的評論和反饋分析，從而進行優(yōu)化改善，為用戶提供定制性的服務(wù)，甚至可以預(yù)測用戶的需求，從而達到更加準確的銷售目的；看似龐大無規(guī)則的

3、數(shù)據(jù)，包含著大量的用戶標簽及潛在的用戶肖像。存儲與分析中文文本數(shù)據(jù)是技術(shù)上的關(guān)鍵，如何能夠存儲并分析海量數(shù)據(jù)，生成精確的用戶標簽，依賴于數(shù)據(jù)存儲系統(tǒng)和文本分析系統(tǒng)的技術(shù)。本文的數(shù)據(jù)存儲運用DB2BLUAcceleration,利用DB2BLU速度快、與Cognos無縫結(jié)合的特性來存儲和分析數(shù)據(jù)。中文文本分析基于Hadoop的文本分析平臺，快速進行中文分詞和建立標簽詞典，本文將在后面章節(jié)進行具體介紹。2中文微博數(shù)據(jù)分析邏輯微博是現(xiàn)代網(wǎng)絡(luò)社會溝通的重要工具，以新浪微博為例，很多大型零售商會建立自己主頁，發(fā)布近期的打折、新品

4、信息。但是，這些信息往往不能針對每個用戶的喜好來發(fā)布，類似于廣播一樣，每一條微博是否對每個粉絲（用戶）有意義，需要用戶自己來過濾。但實際上，粉絲自身發(fā)布的微博含有大量的數(shù)據(jù)信息，這些信息包含用戶的個人愛好，自己年齡階段，近期的想購買的款式，甚至是自己希望有的款式與功能等。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)數(shù)據(jù)。如圖1，顯示了整個營銷分析流程的邏輯。從客戶發(fā)布微博開始，到商家向用戶發(fā)布商品目錄和優(yōu)惠信息，整個流程分為五個步驟：(1)客戶發(fā)布微博，從微博上初步獲取的數(shù)據(jù)為“粗數(shù)據(jù)”，掌握用戶自定義的標簽，作為用戶肖像的一部分。(2)獲

5、取商家的粉絲。(3)將用戶的微博進行語義分析，基于Hadoop的文本分析平臺將對中文進行分詞，分詞后將與字典進行比較和分類，總結(jié)出該用戶的興趣愛好所在。(4)指定相關(guān)營銷策略，根據(jù)微博內(nèi)容實時或定時更新客戶肖像，向用戶推送相應(yīng)的商品折扣和新上架產(chǎn)品信息。(5)消費者使用消費券或根據(jù)打折信息購買相關(guān)產(chǎn)品。3方案架構(gòu)整個系統(tǒng)架構(gòu)，如圖2所示，主要由文本分析系統(tǒng)、DB2BLU數(shù)據(jù)庫以及Cognos數(shù)據(jù)分析工具組成。首先從互聯(lián)網(wǎng)上獲取數(shù)據(jù)以后，將原始數(shù)據(jù)送入文本分析平臺進行分析，主要做中文分詞、情感分析等工作；然后將文本分析結(jié)

6、果整合后輸出送入DB2BLU數(shù)據(jù)庫中，進行存儲、建表，建表包括客戶肖像表、商品目錄表、促銷策略表等；最后，利用DB2BLU與Cognos無縫集成的優(yōu)勢，用Cognos對數(shù)據(jù)進行分析。根據(jù)Cognos分析出的結(jié)果，生成促銷的報表，繼而將優(yōu)惠信息分別推送給每個用戶如圖3所示，為基于Hadoop平臺的文本分析架構(gòu)圖，整個架構(gòu)主要由三部分組成：引擎部分：用戶發(fā)布的微博中獲取的數(shù)據(jù)生成文本格式送入文本分析引擎，在輸入之前，由于客戶的ID、性別、地點己經(jīng)提取出來，可以作為客戶肖像的一部分，但并不送入文本分析系統(tǒng)。引擎部分主要處理中

7、文分詞、將分詞與詞匯庫中的字典進行匹配、分類。分詞的作用主要將動詞，以及動詞后的名詞分開，情感詞，以及表達情感的對象分開等。詞匯庫部分，主要負責(zé)存儲客戶合作模型的詞匯詞典，這一部分的詞典部分有手工添加，部分由系統(tǒng)根據(jù)詞匯庫聚類生成，詞匯庫存于HBase上；最后是負責(zé)輸入輸出文本的部分，這一部分利用JAQL來拼接“原始標簽”與分詞后的標簽，一起構(gòu)成客戶肖像表。本文用于存儲客戶肖像的為DB2BLUAcceleration。BLUAcceleration的架構(gòu)如圖4所示。使用DB2BLU具有的性能優(yōu)勢，采用列式存儲，只對需要

8、的數(shù)據(jù)列進行讀取，可以減少I/O。采用霍夫曼編碼對數(shù)據(jù)進行壓縮，降低內(nèi)存消耗。SQL采用并行運行方式，利用CPU寄存器，避免并列干涉。使用列存儲算法，便于更多的緩存數(shù)據(jù)，提供內(nèi)存利用率，有效減少I/O。4結(jié)束語本文介紹了基于大數(shù)據(jù)的中文輿情分析系統(tǒng)，采用基于Hadoop平臺的文本分析，以及IBMCognos無縫集成DB2BLU加速

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于大數(shù)據(jù)的用戶行為分析研究

基于大數(shù)據(jù)的用戶行為分析研究

相關(guān)文章

相關(guān)標簽