基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究

基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究

ID:23615975

大小:1.49 MB

頁數(shù):59頁

時(shí)間:2018-11-09

基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究_第1頁
基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究_第2頁
基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究_第3頁
基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究_第4頁
基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究_第5頁
資源描述:

《基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、武漢郵電科學(xué)研究院碩士學(xué)位論文基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究TheResearchandApplicationofDataIntegrationSystemBasedonUniversityBigDataPlatform專業(yè):通信與信息系統(tǒng)研究方向:軟件工程導(dǎo)師:崔弘研究生:鄧涵元學(xué)號(hào):20150070二〇一八年一月武漢郵電科學(xué)研究院碩士學(xué)位論文摘要隨著數(shù)字化校園的建設(shè),傳統(tǒng)的數(shù)據(jù)集成系統(tǒng)在海量數(shù)據(jù)的環(huán)境下數(shù)據(jù)查詢和加載的效率均有所下降,且難以融合非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合和分析,針對以上情況,依托高校大

2、數(shù)據(jù)平臺(tái),從各個(gè)異構(gòu)系統(tǒng)中抽取出數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于MPP-Hadoop混合框架的的高校異構(gòu)數(shù)據(jù)集成的系統(tǒng),解決了現(xiàn)有數(shù)據(jù)集成系統(tǒng)難以融合多種異構(gòu)數(shù)據(jù)源、海量環(huán)境下數(shù)據(jù)查詢和加載效率低的問題。并以某高校為例,從學(xué)生的門禁刷卡系統(tǒng)和校園網(wǎng)系統(tǒng)中抽取出學(xué)生的行為軌跡數(shù)據(jù),進(jìn)行數(shù)據(jù)融合,并與傳統(tǒng)數(shù)據(jù)倉庫產(chǎn)品Oracle搭建的現(xiàn)有高校數(shù)據(jù)集成系統(tǒng)以及第三方方案基于Hive數(shù)據(jù)倉庫的高校數(shù)據(jù)集成系統(tǒng)進(jìn)行數(shù)據(jù)加載和數(shù)據(jù)查詢效率方面的對比評測,驗(yàn)證了系統(tǒng)的有效性以及可行性并且為學(xué)校在學(xué)生的學(xué)習(xí)生活、心理等各方面的管理工作提

3、供一定程度上的技術(shù)支持和指導(dǎo)。本文針對高校的信息化以及海量數(shù)據(jù)背景下的數(shù)據(jù)集成產(chǎn)生的問題,提出了優(yōu)化的設(shè)計(jì)方案,主要的工作如下:(1)介紹了本課題的研究背景及意義,并介紹了數(shù)據(jù)集成技術(shù)目前國內(nèi)外的研究現(xiàn)狀。闡述分析并比較了目前數(shù)據(jù)集成中的主流技術(shù)。(2)對高校信息化建設(shè)中存在的問題進(jìn)行了需求的分析,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于MPP-Hadoop混合架構(gòu)的高校異構(gòu)數(shù)據(jù)集成系統(tǒng),為目前高校進(jìn)行數(shù)據(jù)集成的過程中出現(xiàn)的處理數(shù)據(jù)量小、難以融合半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)提供了解決方案。(3)對系統(tǒng)建設(shè)中的關(guān)鍵問題數(shù)據(jù)加載數(shù)據(jù)過慢、查詢效

4、率低的問題以及解決思路進(jìn)行了詳細(xì)闡述。引入改進(jìn)的蟻群算法和貪婪算法來解決數(shù)據(jù)加載及數(shù)據(jù)查詢效率問題。(4)以學(xué)生行為軌跡數(shù)據(jù)為例與現(xiàn)有系統(tǒng)以及第三方方案基于Hive數(shù)據(jù)倉庫的高校數(shù)據(jù)集成系統(tǒng)進(jìn)行在數(shù)據(jù)查詢和加載兩個(gè)方面對比評測,較好的解決了目前系統(tǒng)存在的不足,分析并證明了本文系統(tǒng)的有效性。關(guān)鍵詞:數(shù)據(jù)集成高校大數(shù)據(jù)MPPHadoopGreenPlumI武漢郵電科學(xué)研究院碩士學(xué)位論文AbstractWiththeconstructionofdigitalcampus,dataqueryandloadefficienc

5、yofthetraditionaldataintegrationsysteminthemassivedataenvironmentarereduced.Itisdifficulttointegrateunstructured,semi-structureddatafusionandanalysisinthemassivedataenvironment.Fortheabove,relyingonuniversitylargedataplatform,combiningtheadvantagesofHadoopandM

6、PPtechnology,asystemofheterogeneousdataintegrationbasedonMPP-Hadoophybridframeworkisdesignedandimplemented,whichintegratesmanydifferentstructuredataandenhancestheefficiencyofdataqueryandloading.Andtakingauniversityasanexample,thestudentstrajectorydataisextract

7、edfromthestudent'saccesscardsystemandthecampusnetworksystemandisloadedtoMPPdatawarehouse.ThesystemwillbecomparedwiththetraditionaluniversitydataintegrationSystembuiltbyOracledatawarehouse.Thevalidityofthesystemisverifiedbythecomparingresult.Technicalsupportand

8、guidancetostudents’life,study,psychologyandotheraspectsofmanagementisprovided.ThesystemwillbecomparedwiththetraditionaluniversitydataintegrationSystembuiltbyOracledatawarehouse.The

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。