Outline
0) Course Info 1) Introduction 2) Data Preparation and Cleaning 3) Schema matching and mapping 4) Virtual Data Integration 5) Data Exchange 6) Data Warehousing 7) Big Data Analytics 8) Data Provenance
1
CS520 - 1) Introduction
Outline 0) Course Info 1) Introduction 2) Data Preparation and - - PowerPoint PPT Presentation
Outline 0) Course Info 1) Introduction 2) Data Preparation and Cleaning 3) Schema matching and mapping 4) Virtual Data Integration 5) Data Exchange 6) Data Warehousing 7) Big Data Analytics 8) Data Provenance 1 CS520 - 1) Introduction Overview
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Stephen ¡King, ¡2012, ¡Misery ¡ Stephen ¡King, ¡2014, ¡… ¡ Stephen ¡Kine, ¡1990, ¡… ¡ Stephen ¡King, ¡2012, ¡Misery ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Structural ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Stephen ¡King, ¡2012, ¡Misery ¡ Stephen ¡King, ¡2014, ¡… ¡ Stephen ¡Kine, ¡1990, ¡… ¡ Larry ¡Kin, ¡… ¡ Stephen ¡King, ¡2012, ¡Misery ¡ Stephen ¡King, ¡2012, ¡Misery ¡ … ¡
Larry ¡King, ¡… ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Male(Id, firstname, lastname) Female(id, firstname, lastname) Person(Id, firstname, lastname, gender) Person(Id, firstname, lastname, male, female)
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Structural ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Person(Id, name, gender, birthday) Person(Id, firstname, lastname, male, female) Manager(Id, name, gender, age)
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Structural ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Person(Id, name, gender, birthday) Person(Id, firstname, lastname, male, female) Manager(Id, name, gender, age)
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Structural ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
SSN ¡ FirstName ¡ VARCHAR(40) ¡ LastName ¡ Age ¡ CHECK(Age ¡> ¡18) ¡ 333-‑333-‑3333 ¡ Peter ¡ Schmeter ¡ 30 ¡ 333-‑333-‑9999 ¡ Hans ¡ Glanz ¡ NULL ¡ SSN ¡ FirstName ¡ VARCHAR(25) ¡ SurName ¡ Age ¡ 3333333333 ¡ Peter ¡ Schmeter ¡ 30 ¡ 3333339999 ¡ Hans ¡ Glanz ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Structural ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
SSN ¡ FirstName ¡ VARCHAR(40) ¡ LastName ¡ Age ¡ CHECK(Age ¡> ¡18) ¡ 333-‑333-‑3333 ¡ Peter ¡ Schmeter ¡ 30 ¡ 333-‑333-‑9999 ¡ Hans ¡ Glanz ¡ NULL ¡ SSN ¡ FirstName ¡ VARCHAR(25) ¡ SurName ¡ Age ¡ 3333333333 ¡ Peter ¡ Schmeter ¡ 30 ¡ 3333339999 ¡ Hans ¡ Glanz ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Person Name Address Address Id City Zip Person Name City Zip
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Person Name {Address Id City Zip } Person Name City Zip
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Equivalence: Human vs Homo sapiens Inclusion: Bird vs Animal Overlap: Animal vs aquatic lifeform Disjunction: Fish vs Mamal
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Person(Name,Age) Human(LastName,Age)
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Person(Title,Name) Movie(Title,Year)
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
Person(Title,Name,Salary) Person(Title,Name,Salary)
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
(IBM,300000000,USA) (International Business Machines Corporation,50000)
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
p-‑complete ¡
p-‑complete ¡
CS520 - 1) Introduction
p-‑complete ¡
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
Heterogeneity ¡ System ¡ Structural ¡ Seman2c ¡
So3ware ¡ Interface ¡ Datamodel ¡ Schema ¡ Naming ¡ Iden2ty ¡ Value ¡ conflicts ¡
v u u t
n
X
i=1
(p[i] − q[i])2
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction
CS520 - 1) Introduction