資源描述:
《試析基于xml的異構(gòu)數(shù)據(jù)集成研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于XML的異構(gòu)數(shù)據(jù)集成研究重慶大學(xué)碩士學(xué)位論文學(xué)生姓名:張曉劍指導(dǎo)教師:羅軍副教授專業(yè):計算機系統(tǒng)結(jié)構(gòu)學(xué)科門類:工學(xué)重慶大學(xué)計算機學(xué)院二OO八年四月HeterogeneousDataIntegrationStudyBasedOnXMLAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheDegreeofMasterofComputerbyZhangXiaojianSupervisor:AssociateProf.LuoJunMa
2、jor:ComputerSystemArchitectureCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2008重大大學(xué)碩士學(xué)位論文中文摘要摘要隨著計算機網(wǎng)絡(luò)的飛速發(fā)展和信息化建設(shè)的大力推進,各種網(wǎng)絡(luò)中可供利用的信息總量正以驚人的速率增長。但這些為不同應(yīng)用服務(wù)的信息都存儲在許多不同的數(shù)據(jù)源之中,其數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別,且其管理系統(tǒng)也各不相同。為更有效地利用這些信息,需要對多個分布、異構(gòu)和自治的數(shù)據(jù)源中的信息進行集成,向用戶隱藏這
3、些差異,提供給用戶一個統(tǒng)一和透明的數(shù)據(jù)訪問接口,同時還需要保持數(shù)據(jù)在不同系統(tǒng)上的完整性和一致性。因此,在信息集成過程中,如何有效解決這些差異是信息集成研究與應(yīng)用領(lǐng)域所面臨的一大挑戰(zhàn)。近年來,隨著XML這樣一種文檔結(jié)構(gòu)描述語言的不斷發(fā)展和壯大,以XML及其相關(guān)技術(shù)為基礎(chǔ)的半結(jié)構(gòu)化信息表示技術(shù)正在影響著信息技術(shù)領(lǐng)域和計算機技術(shù)領(lǐng)域發(fā)生著重大的變化,本文探討了如何運用XML技術(shù),集成結(jié)構(gòu)化和非結(jié)構(gòu)化的問題。論文從以下幾個方面的內(nèi)容進行了闡述:(1)對集成的數(shù)據(jù)進行了分類,一類是結(jié)構(gòu)化數(shù)據(jù),另一類是非結(jié)構(gòu)化的數(shù)據(jù)。在這里我們把半結(jié)構(gòu)化的數(shù)據(jù)
4、看做是非結(jié)構(gòu)化數(shù)據(jù)的特殊情況。本文提出一種對數(shù)據(jù)進行分類集成的策略,在Mediator/Wrapper的方式下,單獨構(gòu)建一個數(shù)據(jù)集成池,專門用來整合集成結(jié)構(gòu)化數(shù)據(jù)。(2)詳細論述了XHDIS信息集成系統(tǒng)原型的各個功能模塊和系統(tǒng)構(gòu)架。(3)對信息集成中的相關(guān)技術(shù)進行了深入分析,如模式集成及公共數(shù)據(jù)模型和包裝器(Wrapper)模板生成等。(4)由于采用分類集成的策略,因而在非結(jié)構(gòu)化數(shù)據(jù)的處理,本文的重點放在了如何通過定制非結(jié)構(gòu)化數(shù)據(jù)的提取規(guī)制,通過轉(zhuǎn)化成XML數(shù)據(jù)的形式來進行集成。重點討論了以HTML/XML的Web頁面的提取規(guī)則。最
5、后在總結(jié)全文的基礎(chǔ)上,結(jié)合其它與集成系統(tǒng)相關(guān)技術(shù)的發(fā)展趨勢,提出了若干有待進一步深入研究和探討的問題。關(guān)鍵詞:分類集成,公共數(shù)據(jù)模型,模式集成,數(shù)據(jù)池,數(shù)據(jù)顆粒I重大大學(xué)碩士學(xué)位論文英文摘要ABSTRACTWiththerapiddevelopmentofcomputernetworksandthestrongadvanceofinformationconstruction,nowtheamountofinformationavailableon-lineisproliferatingatatremendousrated.Howev
6、er,allthoseinformationformanydifferentapplicationsisindependentlystoredinagreatvarietyofdatasourcesandmanagedbydifferentsystems,andtheircontents,structuresandqualityaredifferentinthousandsways.Inordertoutilizethisinformationmoreeffectively,thereisaneedtointegrateinform
7、ationfrommultipledistributed,heterogeneousandautonomoussources,andmakedifferencesinvisibleandprovideuniformandtransparentaccesstothedataforallusers.Inaddition,itisnecessarytopreservedataintegrityandconsistencyoverdifferentsystems.Thus,howtoresolvethosedifferenceseffici
8、entlyisaseverechallengeinthedomainaboutapplicationandresearchofinformationintegration.Theseyears,withincreasingdevelo