資源描述:
《基于用戶行為的數據分析與挖掘》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、房如華2011.09.10SACC2011SACC2011關于我?房如華,酷訊旅游網BI部門?聯系方式?@房如華bluetent?bluetent@gmail.comSACC2011SACC20112北京酷訊科技有限公司酷訊旅游網的BI團隊?老公司的新部門?兩個使命:?產品運營工作的“推進器”?讓網站變得更“聰明”SACC2011SACC20113北京酷訊科技有限公司小調查?有多少公司在使用自行開發(fā)的統計系統??有多少公司已經開展了數據挖掘算法方面的實踐?SACC2011SACC20114北京酷訊科技有限公司用戶行為分析是道哲學題:?“你是誰?”?“你從哪里來?”
2、?“你要到哪里去?”SACC2011SACC20115北京酷訊科技有限公司“你是誰?”?如何識別一個用戶??按慣例,我們使用瀏覽器的cookie區(qū)分不同的用戶?推薦使用Guid算法進行生成用戶的唯一ID?如何識別一次訪問??生成訪問的唯一ID,并使用cookie記錄?在cookie中記錄會話的最后更新時間,超過N(如30)分鐘則認為會話結束SACC2011SACC20116北京酷訊科技有限公司“你從哪里來?”(1)?用戶的流量來源有多種劃分?免費流量,付費流量?不同的來路網站?直接打開網址?SEO/SEM?社會化網站?付費廣告SACC2011SACC20117北京
3、酷訊科技有限公司“你從哪里來?”(2)?為什么要關注流量來源??流量質量差異(以搜索引擎和自有流量為例進行對比)?跳出率?平均訪問深度SACC2011SACC20118北京酷訊科技有限公司“你要到哪里去?”(1)?網站的終極目標:促使用戶形成轉化效果電子商務支付訂單社會化媒體一篇原創(chuàng)文章搜索引擎跳轉至來源網站SACC2011SACC20119北京酷訊科技有限公司“你要到哪里去?”(2)?在轉化的過程中,用戶會留下各種痕跡頁面訪問頁面點擊頁面結構路徑行為化數據SACC2011SACC201110北京酷訊科技有限公司現在我們回到主題?基于用戶行為的數據分析與挖掘的目標
4、?根據用戶的訪問路徑、頁面點擊、訪問內容等信息,發(fā)現共性,找促使網站產生更好轉化效果的方法。SACC2011SACC201111北京酷訊科技有限公司工作流程采集清洗統計分析挖掘SACC2011SACC201112北京酷訊科技有限公司數據采集(1)?采集哪些數據??網頁瀏覽行為(Pageview)?轉化效果?用戶在頁面上的點擊行為?頁面元數據SACC2011SACC201113北京酷訊科技有限公司數據采集(2)?如何采集?(以酷訊旅游網為例)?javascript異步采集,get參數攜帶字段網頁瀏覽行為值。頁面元數據?將結構化數據樹狀存儲。點擊行為?向DOM節(jié)點掛載
5、onclick事件。轉化效果?通過統計中間頁強制重定向。SACC2011SACC201114北京酷訊科技有限公司數據采集(3)?定義數據的格式?以方便數據清洗和分析為第一要務?根據數據規(guī)模、維護難度選擇不同的方案?選擇數據的存儲方式?t分割的文本?關系型數據庫?Hadoop?選擇合適的數據流向?拉?從上游系統向數據分析引擎單向推送數據?保證數據分析引擎與上游系統是互相獨立的SACC2011SACC201115北京酷訊科技有限公司數據采集(4)?常見問題?測量誤差?因統計代碼異步加載導致某些請求未被統計到?數據收集錯誤?中文字段的亂碼?數據收集遺漏?字符串太長
6、,超過了字段限制而被截斷?我們會在數據清洗環(huán)節(jié)進行解決!SACC2011SACC201116北京酷訊科技有限公司與上游數據商的關系很重要?例:向數據表增加lastupdatetime字段CREATETABLE`logs`(...,`last_update_time`TIMESTAMPDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,...)field1field2...fieldnlastupdatetimefield1field2...fieldnlastupdatetimeaaa111xxx2011-01-01
7、12:34:56aaa111xxx2011-01-0112:34:56bbb222yyy2011-01-0112:34:57bbb222yyy2011-01-0112:34:57ccc333zzz2011-01-0112:34:58ccc333zzz2011-01-0112:34:58上游數據商的數據庫商業(yè)智能數據庫(藍色為更新的數據)?說服上游數據商調整數據結構,能夠形成雙贏。SACC2011SACC201117北京酷訊科技有限公司數據清洗(1)?什么是數據清洗??ETL=Extract,Transform,Load(提取,轉換,加載)?為什么要數據清洗??臟?
8、例:性別字