資源描述:
《基于大數(shù)據(jù)的用戶行為分析研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于大數(shù)據(jù)的用戶行為分析研究摘要社交網(wǎng)絡(luò)媒體發(fā)展備受關(guān)注,微信、微博以及博客等社交媒體不斷使人們生活方式發(fā)生改變。微信、QQ>微博、大眾點評、美團、淘寶、京東以及亞馬遜等用戶日益增加,用戶通過朋友圏或主動發(fā)出評論的數(shù)量逐漸遞增。在信息化多元化的時代,用戶已經(jīng)成為各個行業(yè)的代言人,為品牌推廣起到不可替代的作用。如何更好地獲取用戶真實的購買意愿,并精準的為用戶提供購物渠道和優(yōu)惠信息,將成為提升品牌榮譽、改善用戶體驗以及獲取最大效益的新型渠道。當(dāng)前存在許多營銷手段和推送方式,但準確度還不夠,并且時常出現(xiàn)錯誤推送。本文通過利用
2、銷售的案例并結(jié)合數(shù)據(jù)分析來闡述中文輿情的可行性,利用Hadoop平臺的文本分析和數(shù)據(jù)存儲數(shù)據(jù)庫(DB2BLU),提高分析的準確程度。【關(guān)鍵詞】信息化大數(shù)據(jù)Hadoop文本分析1背景21世紀是數(shù)據(jù)信息迅速膨脹的時代,互聯(lián)網(wǎng)的應(yīng)用范圍和邊界不斷延伸,如移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等?,F(xiàn)今,用戶可以借助互聯(lián)網(wǎng)平臺表達社情民意,體現(xiàn)用戶的意愿,評論和態(tài)度。例如京東的用戶對某商品的評論信息,商家通過用戶的評論和反饋分析,從而進行優(yōu)化改善,為用戶提供定制性的服務(wù),甚至可以預(yù)測用戶的需求,從而達到更加準確的銷售目的;看似龐大無規(guī)則的
3、數(shù)據(jù),包含著大量的用戶標簽及潛在的用戶肖像。存儲與分析中文文本數(shù)據(jù)是技術(shù)上的關(guān)鍵,如何能夠存儲并分析海量數(shù)據(jù),生成精確的用戶標簽,依賴于數(shù)據(jù)存儲系統(tǒng)和文本分析系統(tǒng)的技術(shù)。本文的數(shù)據(jù)存儲運用DB2BLUAcceleration,利用DB2BLU速度快、與Cognos無縫結(jié)合的特性來存儲和分析數(shù)據(jù)。中文文本分析基于Hadoop的文本分析平臺,快速進行中文分詞和建立標簽詞典,本文將在后面章節(jié)進行具體介紹。2中文微博數(shù)據(jù)分析邏輯微博是現(xiàn)代網(wǎng)絡(luò)社會溝通的重要工具,以新浪微博為例,很多大型零售商會建立自己主頁,發(fā)布近期的打折、新品
4、信息。但是,這些信息往往不能針對每個用戶的喜好來發(fā)布,類似于廣播一樣,每一條微博是否對每個粉絲(用戶)有意義,需要用戶自己來過濾。但實際上,粉絲自身發(fā)布的微博含有大量的數(shù)據(jù)信息,這些信息包含用戶的個人愛好,自己年齡階段,近期的想購買的款式,甚至是自己希望有的款式與功能等。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)數(shù)據(jù)。如圖1,顯示了整個營銷分析流程的邏輯。從客戶發(fā)布微博開始,到商家向用戶發(fā)布商品目錄和優(yōu)惠信息,整個流程分為五個步驟:(1)客戶發(fā)布微博,從微博上初步獲取的數(shù)據(jù)為“粗數(shù)據(jù)”,掌握用戶自定義的標簽,作為用戶肖像的一部分。(2)獲
5、取商家的粉絲。(3)將用戶的微博進行語義分析,基于Hadoop的文本分析平臺將對中文進行分詞,分詞后將與字典進行比較和分類,總結(jié)出該用戶的興趣愛好所在。(4)指定相關(guān)營銷策略,根據(jù)微博內(nèi)容實時或定時更新客戶肖像,向用戶推送相應(yīng)的商品折扣和新上架產(chǎn)品信息。(5)消費者使用消費券或根據(jù)打折信息購買相關(guān)產(chǎn)品。3方案架構(gòu)整個系統(tǒng)架構(gòu),如圖2所示,主要由文本分析系統(tǒng)、DB2BLU數(shù)據(jù)庫以及Cognos數(shù)據(jù)分析工具組成。首先從互聯(lián)網(wǎng)上獲取數(shù)據(jù)以后,將原始數(shù)據(jù)送入文本分析平臺進行分析,主要做中文分詞、情感分析等工作;然后將文本分析結(jié)
6、果整合后輸出送入DB2BLU數(shù)據(jù)庫中,進行存儲、建表,建表包括客戶肖像表、商品目錄表、促銷策略表等;最后,利用DB2BLU與Cognos無縫集成的優(yōu)勢,用Cognos對數(shù)據(jù)進行分析。根據(jù)Cognos分析出的結(jié)果,生成促銷的報表,繼而將優(yōu)惠信息分別推送給每個用戶如圖3所示,為基于Hadoop平臺的文本分析架構(gòu)圖,整個架構(gòu)主要由三部分組成:引擎部分:用戶發(fā)布的微博中獲取的數(shù)據(jù)生成文本格式送入文本分析引擎,在輸入之前,由于客戶的ID、性別、地點己經(jīng)提取出來,可以作為客戶肖像的一部分,但并不送入文本分析系統(tǒng)。引擎部分主要處理中
7、文分詞、將分詞與詞匯庫中的字典進行匹配、分類。分詞的作用主要將動詞,以及動詞后的名詞分開,情感詞,以及表達情感的對象分開等。詞匯庫部分,主要負責(zé)存儲客戶合作模型的詞匯詞典,這一部分的詞典部分有手工添加,部分由系統(tǒng)根據(jù)詞匯庫聚類生成,詞匯庫存于HBase上;最后是負責(zé)輸入輸出文本的部分,這一部分利用JAQL來拼接“原始標簽”與分詞后的標簽,一起構(gòu)成客戶肖像表。本文用于存儲客戶肖像的為DB2BLUAcceleration。BLUAcceleration的架構(gòu)如圖4所示。使用DB2BLU具有的性能優(yōu)勢,采用列式存儲,只對需要
8、的數(shù)據(jù)列進行讀取,可以減少I/O。采用霍夫曼編碼對數(shù)據(jù)進行壓縮,降低內(nèi)存消耗。SQL采用并行運行方式,利用CPU寄存器,避免并列干涉。使用列存儲算法,便于更多的緩存數(shù)據(jù),提供內(nèi)存利用率,有效減少I/O。4結(jié)束語本文介紹了基于大數(shù)據(jù)的中文輿情分析系統(tǒng),采用基于Hadoop平臺的文本分析,以及IBMCognos無縫集成DB2BLU加速