基于大數(shù)據(jù)的用戶行為分析研究

基于大數(shù)據(jù)的用戶行為分析研究

ID:24713089

大小:63.12 KB

頁數(shù):6頁

時(shí)間:2018-11-16

基于大數(shù)據(jù)的用戶行為分析研究_第1頁
基于大數(shù)據(jù)的用戶行為分析研究_第2頁
基于大數(shù)據(jù)的用戶行為分析研究_第3頁
基于大數(shù)據(jù)的用戶行為分析研究_第4頁
基于大數(shù)據(jù)的用戶行為分析研究_第5頁
資源描述:

《基于大數(shù)據(jù)的用戶行為分析研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于大數(shù)據(jù)的用戶行為分析研究摘要社交網(wǎng)絡(luò)媒體發(fā)展備受關(guān)注,微信、微博以及博客等社交媒體不斷使人們生活方式發(fā)生改變。微信、QQ>微博、大眾點(diǎn)評(píng)、美團(tuán)、淘寶、京東以及亞馬遜等用戶日益增加,用戶通過朋友圏或主動(dòng)發(fā)出評(píng)論的數(shù)量逐漸遞增。在信息化多元化的時(shí)代,用戶已經(jīng)成為各個(gè)行業(yè)的代言人,為品牌推廣起到不可替代的作用。如何更好地獲取用戶真實(shí)的購買意愿,并精準(zhǔn)的為用戶提供購物渠道和優(yōu)惠信息,將成為提升品牌榮譽(yù)、改善用戶體驗(yàn)以及獲取最大效益的新型渠道。當(dāng)前存在許多營銷手段和推送方式,但準(zhǔn)確度還不夠,并且時(shí)常出現(xiàn)錯(cuò)誤推送。本文通過利用

2、銷售的案例并結(jié)合數(shù)據(jù)分析來闡述中文輿情的可行性,利用Hadoop平臺(tái)的文本分析和數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫(DB2BLU),提高分析的準(zhǔn)確程度?!娟P(guān)鍵詞】信息化大數(shù)據(jù)Hadoop文本分析1背景21世紀(jì)是數(shù)據(jù)信息迅速膨脹的時(shí)代,互聯(lián)網(wǎng)的應(yīng)用范圍和邊界不斷延伸,如移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等?,F(xiàn)今,用戶可以借助互聯(lián)網(wǎng)平臺(tái)表達(dá)社情民意,體現(xiàn)用戶的意愿,評(píng)論和態(tài)度。例如京東的用戶對(duì)某商品的評(píng)論信息,商家通過用戶的評(píng)論和反饋分析,從而進(jìn)行優(yōu)化改善,為用戶提供定制性的服務(wù),甚至可以預(yù)測(cè)用戶的需求,從而達(dá)到更加準(zhǔn)確的銷售目的;看似龐大無規(guī)則的

3、數(shù)據(jù),包含著大量的用戶標(biāo)簽及潛在的用戶肖像。存儲(chǔ)與分析中文文本數(shù)據(jù)是技術(shù)上的關(guān)鍵,如何能夠存儲(chǔ)并分析海量數(shù)據(jù),生成精確的用戶標(biāo)簽,依賴于數(shù)據(jù)存儲(chǔ)系統(tǒng)和文本分析系統(tǒng)的技術(shù)。本文的數(shù)據(jù)存儲(chǔ)運(yùn)用DB2BLUAcceleration,利用DB2BLU速度快、與Cognos無縫結(jié)合的特性來存儲(chǔ)和分析數(shù)據(jù)。中文文本分析基于Hadoop的文本分析平臺(tái),快速進(jìn)行中文分詞和建立標(biāo)簽詞典,本文將在后面章節(jié)進(jìn)行具體介紹。2中文微博數(shù)據(jù)分析邏輯微博是現(xiàn)代網(wǎng)絡(luò)社會(huì)溝通的重要工具,以新浪微博為例,很多大型零售商會(huì)建立自己主頁,發(fā)布近期的打折、新品

4、信息。但是,這些信息往往不能針對(duì)每個(gè)用戶的喜好來發(fā)布,類似于廣播一樣,每一條微博是否對(duì)每個(gè)粉絲(用戶)有意義,需要用戶自己來過濾。但實(shí)際上,粉絲自身發(fā)布的微博含有大量的數(shù)據(jù)信息,這些信息包含用戶的個(gè)人愛好,自己年齡階段,近期的想購買的款式,甚至是自己希望有的款式與功能等。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)數(shù)據(jù)。如圖1,顯示了整個(gè)營銷分析流程的邏輯。從客戶發(fā)布微博開始,到商家向用戶發(fā)布商品目錄和優(yōu)惠信息,整個(gè)流程分為五個(gè)步驟:(1)客戶發(fā)布微博,從微博上初步獲取的數(shù)據(jù)為“粗?jǐn)?shù)據(jù)”,掌握用戶自定義的標(biāo)簽,作為用戶肖像的一部分。(2)獲

5、取商家的粉絲。(3)將用戶的微博進(jìn)行語義分析,基于Hadoop的文本分析平臺(tái)將對(duì)中文進(jìn)行分詞,分詞后將與字典進(jìn)行比較和分類,總結(jié)出該用戶的興趣愛好所在。(4)指定相關(guān)營銷策略,根據(jù)微博內(nèi)容實(shí)時(shí)或定時(shí)更新客戶肖像,向用戶推送相應(yīng)的商品折扣和新上架產(chǎn)品信息。(5)消費(fèi)者使用消費(fèi)券或根據(jù)打折信息購買相關(guān)產(chǎn)品。3方案架構(gòu)整個(gè)系統(tǒng)架構(gòu),如圖2所示,主要由文本分析系統(tǒng)、DB2BLU數(shù)據(jù)庫以及Cognos數(shù)據(jù)分析工具組成。首先從互聯(lián)網(wǎng)上獲取數(shù)據(jù)以后,將原始數(shù)據(jù)送入文本分析平臺(tái)進(jìn)行分析,主要做中文分詞、情感分析等工作;然后將文本分析結(jié)

6、果整合后輸出送入DB2BLU數(shù)據(jù)庫中,進(jìn)行存儲(chǔ)、建表,建表包括客戶肖像表、商品目錄表、促銷策略表等;最后,利用DB2BLU與Cognos無縫集成的優(yōu)勢(shì),用Cognos對(duì)數(shù)據(jù)進(jìn)行分析。根據(jù)Cognos分析出的結(jié)果,生成促銷的報(bào)表,繼而將優(yōu)惠信息分別推送給每個(gè)用戶如圖3所示,為基于Hadoop平臺(tái)的文本分析架構(gòu)圖,整個(gè)架構(gòu)主要由三部分組成:引擎部分:用戶發(fā)布的微博中獲取的數(shù)據(jù)生成文本格式送入文本分析引擎,在輸入之前,由于客戶的ID、性別、地點(diǎn)己經(jīng)提取出來,可以作為客戶肖像的一部分,但并不送入文本分析系統(tǒng)。引擎部分主要處理中

7、文分詞、將分詞與詞匯庫中的字典進(jìn)行匹配、分類。分詞的作用主要將動(dòng)詞,以及動(dòng)詞后的名詞分開,情感詞,以及表達(dá)情感的對(duì)象分開等。詞匯庫部分,主要負(fù)責(zé)存儲(chǔ)客戶合作模型的詞匯詞典,這一部分的詞典部分有手工添加,部分由系統(tǒng)根據(jù)詞匯庫聚類生成,詞匯庫存于HBase上;最后是負(fù)責(zé)輸入輸出文本的部分,這一部分利用JAQL來拼接“原始標(biāo)簽”與分詞后的標(biāo)簽,一起構(gòu)成客戶肖像表。本文用于存儲(chǔ)客戶肖像的為DB2BLUAcceleration。BLUAcceleration的架構(gòu)如圖4所示。使用DB2BLU具有的性能優(yōu)勢(shì),采用列式存儲(chǔ),只對(duì)需要

8、的數(shù)據(jù)列進(jìn)行讀取,可以減少I/O。采用霍夫曼編碼對(duì)數(shù)據(jù)進(jìn)行壓縮,降低內(nèi)存消耗。SQL采用并行運(yùn)行方式,利用CPU寄存器,避免并列干涉。使用列存儲(chǔ)算法,便于更多的緩存數(shù)據(jù),提供內(nèi)存利用率,有效減少I/O。4結(jié)束語本文介紹了基于大數(shù)據(jù)的中文輿情分析系統(tǒng),采用基于Hadoop平臺(tái)的文本分析,以及IBMCognos無縫集成DB2BLU加速

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。