資源描述:
《基于xml的異構數(shù)據集成研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、基于XML的異構數(shù)據集成研究重慶大學碩士學位論文學生姓名:張曉劍指導教師:羅軍副教授專業(yè):計算機系統(tǒng)結構學科門類:工學重慶大學計算機學院二OO八年四月HeterogeneousDataIntegrationStudyBasedOnXMLAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheDegreeofMasterofComputerbyZhangXiaojianSupervisor:AssociateProf.LuoJunMajor:C
2、omputerSystemArchitectureCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2008重大大學碩士學位論文中文摘要摘要隨著計算機網絡的飛速發(fā)展和信息化建設的大力推進,各種網絡中可供利用的信息總量正以驚人的速率增長。但這些為不同應用服務的信息都存儲在許多不同的數(shù)據源之中,其數(shù)據內容、數(shù)據格式和數(shù)據質量千差萬別,且其管理系統(tǒng)也各不相同。為更有效地利用這些信息,需要對多個分布、異構和自治的數(shù)據源中的信息進行集成,向用戶隱藏這些差異,提供給用戶一
3、個統(tǒng)一和透明的數(shù)據訪問接口,同時還需要保持數(shù)據在不同系統(tǒng)上的完整性和一致性。因此,在信息集成過程中,如何有效解決這些差異是信息集成研究與應用領域所面臨的一大挑戰(zhàn)。近年來,隨著XML這樣一種文檔結構描述語言的不斷發(fā)展和壯大,以XML及其相關技術為基礎的半結構化信息表示技術正在影響著信息技術領域和計算機技術領域發(fā)生著重大的變化,本文探討了如何運用XML技術,集成結構化和非結構化的問題。論文從以下幾個方面的內容進行了闡述:(1)對集成的數(shù)據進行了分類,一類是結構化數(shù)據,另一類是非結構化的數(shù)據。在這里我們把半結構化的數(shù)據看做是非結構化數(shù)據的特殊情況。
4、本文提出一種對數(shù)據進行分類集成的策略,在Mediator/Wrapper的方式下,單獨構建一個數(shù)據集成池,專門用來整合集成結構化數(shù)據。(2)詳細論述了XHDIS信息集成系統(tǒng)原型的各個功能模塊和系統(tǒng)構架。(3)對信息集成中的相關技術進行了深入分析,如模式集成及公共數(shù)據模型和包裝器(Wrapper)模板生成等。(4)由于采用分類集成的策略,因而在非結構化數(shù)據的處理,本文的重點放在了如何通過定制非結構化數(shù)據的提取規(guī)制,通過轉化成XML數(shù)據的形式來進行集成。重點討論了以HTML/XML的Web頁面的提取規(guī)則。最后在總結全文的基礎上,結合其它與集成系統(tǒng)
5、相關技術的發(fā)展趨勢,提出了若干有待進一步深入研究和探討的問題。關鍵詞:分類集成,公共數(shù)據模型,模式集成,數(shù)據池,數(shù)據顆粒I重大大學碩士學位論文英文摘要ABSTRACTWiththerapiddevelopmentofcomputernetworksandthestrongadvanceofinformationconstruction,nowtheamountofinformationavailableon-lineisproliferatingatatremendousrated.However,allthoseinformationfor
6、manydifferentapplicationsisindependentlystoredinagreatvarietyofdatasourcesandmanagedbydifferentsystems,andtheircontents,structuresandqualityaredifferentinthousandsways.Inordertoutilizethisinformationmoreeffectively,thereisaneedtointegrateinformationfrommultipledistributed,h
7、eterogeneousandautonomoussources,andmakedifferencesinvisibleandprovideuniformandtransparentaccesstothedataforallusers.Inaddition,itisnecessarytopreservedataintegrityandconsistencyoverdifferentsystems.Thus,howtoresolvethosedifferencesefficientlyisaseverechallengeinthedomaina
8、boutapplicationandresearchofinformationintegration.Theseyears,withincreasingdevelo