資源描述:
《基于數(shù)據(jù)元的數(shù)據(jù)集成技術研究》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、第11卷第18期2011年6月科學技術與工程Vol.11No.18June20111671—1815(2011)18-4223-05ScienceTechnologyandEngineering2011Sci.Tech.Engng.計算機技術基于數(shù)據(jù)元的數(shù)據(jù)集成技術研究時貴英文必龍王志寶(東北石油大學計算機與信息技術學院,大慶163318)摘要針對當前數(shù)據(jù)集成方法只能精確到屬性級映射的缺陷,提出了基于數(shù)據(jù)元的數(shù)據(jù)集成方法。用數(shù)據(jù)元語義樹對實體屬性概念的內涵進行語義描述,使實體屬性的語義能被計算機理解。然后通過語義計算實現(xiàn)精確到實例級的語義映射
2、,從而完成數(shù)據(jù)集成。關鍵詞數(shù)據(jù)集成數(shù)據(jù)元語義樹語義映射中圖法分類號TP311.11;文獻標志碼A在我國信息化建設過程中,由于時間或部門不缺少對數(shù)據(jù)模式元素進行精確描述的語義方法。同,使得各企業(yè)開發(fā)了眾多彼此獨立的信息系統(tǒng),本文提出的基于數(shù)據(jù)元的數(shù)據(jù)集成方法,通過對概積累了大量豐富的數(shù)據(jù)資源。隨著企業(yè)規(guī)模的擴念的內涵進行形式化的語義描述,可以實現(xiàn)不同模大和計算機技術的發(fā)展,企業(yè)信息化建設勢在必型之間,乃至實例級的語義映射。行。然而,由于建設時期不同,開發(fā)部門不同、使用設備不同、技術發(fā)展階段不同等原因,使得數(shù)據(jù)存1數(shù)據(jù)元簡介儲管理極為分散,造成了大
3、量的數(shù)據(jù)冗余和數(shù)據(jù)不一致性,形成了眾多的信息孤島,使得數(shù)據(jù)資源難數(shù)據(jù)元是用一組屬性描述定義、標識、表示和以共享訪問。數(shù)據(jù)集成的核心任務是要將互相關允許值的數(shù)據(jù)單元,是在一定的環(huán)境下不必要再細聯(lián)的分布式異構數(shù)據(jù)源集成到一起,使用戶能夠以分的最小數(shù)據(jù)單位。數(shù)據(jù)元是可識別和可定義的,透明的方式訪問這些數(shù)據(jù)源[1]。每個數(shù)據(jù)元都有其基本屬性,如:名稱、定義、數(shù)據(jù)近年來,基于本體[2—5]的數(shù)據(jù)集成方法研究受類型、精度、值域等。一個數(shù)據(jù)元由數(shù)據(jù)元概念和到了高度的關注?;诒倔w的數(shù)據(jù)集成方法是建表示兩部分組成。數(shù)據(jù)元概念(DataElementCon-ce
4、pt)是能以數(shù)據(jù)元的形式表示,且以任何特定的表立全局本體和具體數(shù)據(jù)源的局部本體,以及全局本示法無關的一種概念。當一個表示被聯(lián)合到一個體和局部本體、局部本體之間的映射關系,完成異數(shù)據(jù)概念時就能夠產生一個數(shù)據(jù)元。構數(shù)據(jù)源之間語義上的映射,最后將這種語義上的按照國家標準,數(shù)據(jù)元分為數(shù)據(jù)元概念、通用對應關系轉換為數(shù)據(jù)查詢,完成數(shù)據(jù)集成。但是基數(shù)據(jù)元、應用數(shù)據(jù)元。通用數(shù)據(jù)元提供的是一般的于本體的研究方法僅考慮了模型概念的外延即概內容,而非具體內容,具體內容則由應用數(shù)據(jù)元提念之間的關系,沒有考慮概念的內涵,對實體屬性出。如通用數(shù)據(jù)元可指“日期”、“姓名”,
5、而引伸出的語義只能依靠自然語言描述或分析模型的結構,來的應用數(shù)據(jù)元可以更為具體,如“考試日期”、“入2011年3月25日收到學日期”、“學生姓名”、“教師姓名”等。應用數(shù)據(jù)元第一作者簡介:時貴英(1977—),女,漢族,河北石家莊人,碩士,東規(guī)定為一個獨立應用的數(shù)據(jù)范疇。一個應用數(shù)據(jù)北石油大學計算機與信息技術學院講師,研究方向:計算機軟件工元必須來自某個通用數(shù)據(jù)元,遵循通用數(shù)據(jù)元給出程與集成技術。E-mail:dqpisgy@163.com。的框架。一個數(shù)據(jù)模型中的數(shù)據(jù)項由于限定于數(shù)4224科學技術與工程11卷據(jù)模型的應用范圍,因此是一個應用數(shù)
6、據(jù)元。圖1抽象語義樹通常對應一個通用數(shù)據(jù)元,通過附加規(guī)描述了用于數(shù)據(jù)元結構的術語與傳統(tǒng)的數(shù)據(jù)建模則節(jié)點可派生各種應用數(shù)據(jù)元。在數(shù)據(jù)元的語義術語的關聯(lián),在數(shù)據(jù)模型中,一個數(shù)據(jù)項可以等同樹中,特定節(jié)點是根節(jié)點,對象類可被其它限定詞于一個數(shù)據(jù)元,數(shù)據(jù)模型的數(shù)據(jù)元名稱的典型形式進一步限定。在對數(shù)據(jù)模型中的數(shù)據(jù)項進行描述是實體名稱和實體屬性名稱的合成,如圖2所示。時,由于數(shù)據(jù)項與具體應用場景有關,所以在相應的數(shù)據(jù)元的語義描述上增加應用場景約束,才能真正地描述該數(shù)據(jù)項在數(shù)據(jù)模型中的語義。數(shù)據(jù)項數(shù)據(jù)元以屬性、實體、約束為中心,通過對實體進行直接限定和間接限定
7、,構成對數(shù)據(jù)模型數(shù)據(jù)項語義的完整描述,圖4所示。圖1數(shù)據(jù)元結構圖2數(shù)據(jù)模型中的數(shù)據(jù)元圖4數(shù)據(jù)項的語義樹[6]2數(shù)據(jù)元的語義樹描述方法3基于數(shù)據(jù)元語義樹的映射實現(xiàn)基于數(shù)據(jù)元的數(shù)據(jù)集成需要解決的一個關鍵3.1語義樹中各節(jié)點的權值分配規(guī)則問題是語義的描述方法,本文采用的是語義樹的描設N為語義樹T中的任意一個節(jié)點,以N為根述方法,語義樹提供了一種形式化的語義描述方的子樹記為sub(N),N的子節(jié)點數(shù)為n,N的第i個式,可以方便地描述數(shù)據(jù)元的語義。子節(jié)點記為child(N,i),節(jié)點N的權記為W(T,N),子樹sub(N)的權記為W(sub(N))。語義
8、樹中各節(jié)點的權值分配規(guī)則如下:(1)W(T)=1;(2)W(sub(N))=W(T,N)+n∑W(sub(child(N,i)));i=11(3)W(