資源描述:
《基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、武漢郵電科學(xué)研究院碩士學(xué)位論文基于高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成系統(tǒng)的研究TheResearchandApplicationofDataIntegrationSystemBasedonUniversityBigDataPlatform專業(yè):通信與信息系統(tǒng)研究方向:軟件工程導(dǎo)師:崔弘研究生:鄧涵元學(xué)號(hào):20150070二〇一八年一月武漢郵電科學(xué)研究院碩士學(xué)位論文摘要隨著數(shù)字化校園的建設(shè),傳統(tǒng)的數(shù)據(jù)集成系統(tǒng)在海量數(shù)據(jù)的環(huán)境下數(shù)據(jù)查詢和加載的效率均有所下降,且難以融合非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合和分析,針對以上情況,依托高校大
2、數(shù)據(jù)平臺(tái),從各個(gè)異構(gòu)系統(tǒng)中抽取出數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于MPP-Hadoop混合框架的的高校異構(gòu)數(shù)據(jù)集成的系統(tǒng),解決了現(xiàn)有數(shù)據(jù)集成系統(tǒng)難以融合多種異構(gòu)數(shù)據(jù)源、海量環(huán)境下數(shù)據(jù)查詢和加載效率低的問題。并以某高校為例,從學(xué)生的門禁刷卡系統(tǒng)和校園網(wǎng)系統(tǒng)中抽取出學(xué)生的行為軌跡數(shù)據(jù),進(jìn)行數(shù)據(jù)融合,并與傳統(tǒng)數(shù)據(jù)倉庫產(chǎn)品Oracle搭建的現(xiàn)有高校數(shù)據(jù)集成系統(tǒng)以及第三方方案基于Hive數(shù)據(jù)倉庫的高校數(shù)據(jù)集成系統(tǒng)進(jìn)行數(shù)據(jù)加載和數(shù)據(jù)查詢效率方面的對比評測,驗(yàn)證了系統(tǒng)的有效性以及可行性并且為學(xué)校在學(xué)生的學(xué)習(xí)生活、心理等各方面的管理工作提
3、供一定程度上的技術(shù)支持和指導(dǎo)。本文針對高校的信息化以及海量數(shù)據(jù)背景下的數(shù)據(jù)集成產(chǎn)生的問題,提出了優(yōu)化的設(shè)計(jì)方案,主要的工作如下:(1)介紹了本課題的研究背景及意義,并介紹了數(shù)據(jù)集成技術(shù)目前國內(nèi)外的研究現(xiàn)狀。闡述分析并比較了目前數(shù)據(jù)集成中的主流技術(shù)。(2)對高校信息化建設(shè)中存在的問題進(jìn)行了需求的分析,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于MPP-Hadoop混合架構(gòu)的高校異構(gòu)數(shù)據(jù)集成系統(tǒng),為目前高校進(jìn)行數(shù)據(jù)集成的過程中出現(xiàn)的處理數(shù)據(jù)量小、難以融合半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)提供了解決方案。(3)對系統(tǒng)建設(shè)中的關(guān)鍵問題數(shù)據(jù)加載數(shù)據(jù)過慢、查詢效
4、率低的問題以及解決思路進(jìn)行了詳細(xì)闡述。引入改進(jìn)的蟻群算法和貪婪算法來解決數(shù)據(jù)加載及數(shù)據(jù)查詢效率問題。(4)以學(xué)生行為軌跡數(shù)據(jù)為例與現(xiàn)有系統(tǒng)以及第三方方案基于Hive數(shù)據(jù)倉庫的高校數(shù)據(jù)集成系統(tǒng)進(jìn)行在數(shù)據(jù)查詢和加載兩個(gè)方面對比評測,較好的解決了目前系統(tǒng)存在的不足,分析并證明了本文系統(tǒng)的有效性。關(guān)鍵詞:數(shù)據(jù)集成高校大數(shù)據(jù)MPPHadoopGreenPlumI武漢郵電科學(xué)研究院碩士學(xué)位論文AbstractWiththeconstructionofdigitalcampus,dataqueryandloadefficienc
5、yofthetraditionaldataintegrationsysteminthemassivedataenvironmentarereduced.Itisdifficulttointegrateunstructured,semi-structureddatafusionandanalysisinthemassivedataenvironment.Fortheabove,relyingonuniversitylargedataplatform,combiningtheadvantagesofHadoopandM
6、PPtechnology,asystemofheterogeneousdataintegrationbasedonMPP-Hadoophybridframeworkisdesignedandimplemented,whichintegratesmanydifferentstructuredataandenhancestheefficiencyofdataqueryandloading.Andtakingauniversityasanexample,thestudentstrajectorydataisextract
7、edfromthestudent'saccesscardsystemandthecampusnetworksystemandisloadedtoMPPdatawarehouse.ThesystemwillbecomparedwiththetraditionaluniversitydataintegrationSystembuiltbyOracledatawarehouse.Thevalidityofthesystemisverifiedbythecomparingresult.Technicalsupportand
8、guidancetostudents’life,study,psychologyandotheraspectsofmanagementisprovided.ThesystemwillbecomparedwiththetraditionaluniversitydataintegrationSystembuiltbyOracledatawarehouse.The