Semantic Web Mining Bettina Berendt Humboldt-Universitt zu Berlin - - PowerPoint PPT Presentation
Semantic Web Mining Bettina Berendt Humboldt-Universitt zu Berlin - - PowerPoint PPT Presentation
Semantic Web Mining Bettina Berendt Humboldt-Universitt zu Berlin Institut fr Wirtschaftsinformatik www.wiwi.hu- berlin.de/~berendt Semantic Web Mining = Semantic Web Mining = Semantic Web Mining AGENDA 1. Grundkonzepte 2.
Semantic Web Mining = Semantic Web Mining = Semantic Web Mining
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
Web Mining
Knowledge discovery (aka Data mining): “the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1 Web Mining: die Anwendung von Data- Mining-Techniken auf Inhalt, (Hyperlink-) Struktur und Nutzung von Webressourcen.
Webmining-Gebiete: Web content mining Web structure mining Web usage mining
1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in
Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press
Wissens- entdeckung ist iterativ
Adaptiert nach http://www.crisp-dm.org/Images/187343_CRISPart.jpg Pattern discovery Pattern analysis
Das Semantic Web
“The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.” 1 “The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming.” 2
1 Berners-Lee, T., Hendler, J., & Lassila, O. (2001).
The Semantic Web. Sci. American, May.
2 http://www.w3.org/2001/sw/ 3 Berners-Lee, T. (2000). Semantic Web XML2000.
www.w3.org/2000/Talks/1206-xml2k-tbl/
2004-02-10: RDF and OWL are W3C Recom- mendations
Semantic Web Mining: Eine Kurzdefinition
Semantic Web Mining is the combination of two complementary families of methods: Semantic Web methods and Web Mining
- methods. Semantic Web Mining is one of the following three:
(1) "Mining of the Semantic Web": Using Web Mining approaches
- n semantically enriched data as a standardised form of
background knowledge. (2) "Mining for the Semantic Web": Building the Semantic Web by means of Web Mining - using methods of Web Mining in order to infer Semantic Web structures. (3) The iterative process of (1) and (2), in which the semantics
- btained by mining are re-used for mining again.
Stumme, G., Hotho, A., & Berendt, B. (in preparation). Semantic Web Mining – State of the Art and Future Directions.
Data understanding
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
Warum Web Structure Mining?
- Bsp. PageRank bei Google
„Eine Seite ist wichtig, wenn viele andere wichtige Seiten auf sie verweisen.“
Warum Web Content Mining?
- Bsp. Clustering bei Kartoo
Findet Web Mining semantische Relationen? (1)
Joachims, T. (2002). Optimizing search engines using clickthrough data. In
- Proc. of SIGKDD-2002 (pp. 133-142).
NY: ACM
Re-Ranking gemäß Click-Häufigkeit
Warum Web Usage Mining?
- Bsp. Empfehlungssysteme
z.B. Mobasher, B., Dai, H., Luo, T., & Nakagawa, M. (2002). Discovery and evaluation of aggregate usage profiles for Web personalization. Data Mining and Knowledge Discovery, 6, 61-82.
Hauptprobleme des Web Mining
“Der Sinn findet nicht – oder nicht nur – an der syntaktischen Oberfläche statt.”: Synonyme, Homomyme, …; verschiedene Zielgruppen haben unterschiedliche Sprachen und Konzeptwelten. Verknüpfung von Informationen aus verschiedenen Quellen / Inferenzen > Muster-Erkennung
Findet Web Mining semantische Relationen? (2): Homonyme
Findet Web Mining semantische Relationen? (3): Homonyme u. Metaphern
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
RDF introduction filetype:.ppt .site:.edu Syntactic approach:
Content (Keyword matching)
“Metadata approach“
Didactic function: presentation or course material Didactic function: presentation \ business_presentation Didactic function: applicable for Western education system Resource language: English Quality measure: endorsed by employment / admission criteria to a US university
- all vague; need background knowledge
Warum Semantic Web?
- Bsp. strukturierte Suche
Standardisierte Metadaten zur Verbesserung der strukturierten Suche
<HTML><HEAD> <META NAME="DC.Creator" CONTENT="(Scheme=Freetext) Thomas Seilnacht <seilnach@i-st.net>"> <META NAME="DC.Title" CONTENT="(Scheme=Freetext) 10 Schritte zum Bau der eigenen Homepage"> <META NAME="DC.Date.Created" CONTENT="(Scheme=Freetext) 1998-10-02"> <META NAME="DC.Form" CONTENT="(Scheme=IMT) text/html"> <META NAME="DC.Identifier" CONTENT="(Scheme=URL) http://www.seilnacht.tuttlingen.com/HTML/Homepage.htm"> <META NAME="DC.Description" CONTENT="(Scheme=Freetext) Anleitung zum Bau einer Homepage mit dem Netscape Communicator"> <META NAME="DC.Subject.Keywords" CONTENT="(Scheme=Freetext) Homepage, HTML, Internet, FTP, Polyview, Programmieren, Frames, JavaScript, CGI-Script, Grundbegriffe, Grafik, Freeware, INFORMATISCHE GRUNDBILDUNG"> <META NAME="DC.Type" CONTENT="Kurs/Onlinekurs/Virtuelles Seminar"> <META NAME="DC.Language" CONTENT="Deutsch"> <META NAME="DC.Description" CONTENT="(Scheme=URL) http://dbs.schule.de/db/mlesen.html?Id=7915&KATEGORIE=medien">
DC : Dublin Core
A metadata standard specifying a minimal set
- f properties of a resource
Semantische Suche: Bsp.
healthcybermap.semanticweb.org/multiaxial.htm Dieses ist ein Konzept aus einer Ontologie von Krankheiten!
Was ist eine Ontologie?
An ontology is „an explicit specification of a shared conceptualisation.“ (Gruber, 1993)
Gruber, T.R. (1993). Towards principles for the design of ontologies used for knowledge
- sharing. In N. Guarino & R. Poli (Eds.), Formal
Ontologies in Conceptual Analysis and Knowledge Representation Deventer, NL: Kluwer. Bozsak, Ehrig, Handschuh, Hotho, Maedche, Motik, Oberle, Schmitz, Staab, Stojanovic, Stojanovic, Studer, Stumme, Sure,Tane, Volz, & Zacharias (2002). KAON - Towards a Large Scale Semantic Web. In Kurt Bauknecht, A. Min Tjoa, & Gerald Quirchmayr (Eds.), E-Commerce and Web Technologies, Third International Conference, EC-Web 2002, Aix-en-Provence, France, September 2-6, 2002, Proceedings (pp. 304-313). Springer: LNCS 2455
Relational Metadata
DAMLPROJ
COOPERATES- WITH
URI-GST URI-SWMining
COOPERATES- WITH WORKS-IN PROJECT RESEARCHER PERSON OBJECT COOPERATES
- WITH
TITLE NAME RESEARCHER PERSON
Ontology
COOPERATES
- WITH
Semantic Web Mining
WWW
- URI-AHO
Andreas Hotho cooperateswith(X,Y) ⇒cooperateswith(Y,X)
WORKS-IN WORKS-IN
Ontologie-basierte Website-Modellierung
Hauptprobleme des Semantic Web
“Wer soll das alles machen?” Anreize und Anomalien
Strategien zur Schaffung des Semantic Web
“institutionell”: Zwang “sozial”: Verteilte Autorenschaft à la Open Source
(example: dmoz.org)
“informatisch / HCI”: Tool-Support “informatisch / Informationsverarbeitung”
Semantic Web Mining! Zwei interessante Anwendungsgebiete mit gemischten Strategien:
- Medizin
- Bildung
The Open Directory Project
- http://www.dmoz.org
- Directory of Web-accessible resources
- Human-maintained (people add resources)
- Uses RDF to:
- Describe category structure
- Describe resources in each category
- See http://dmoz.org/Computers/Internet/Searching/Directories/-
Open_Directory_Project/Sites_Using_ODP_Data/desc.html
- Used as taxonomy (“light-weight ontology”) for Google’s Web index
<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> <Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> .... </Topic> <Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/> </Topic> .... </RDF>
Category Category Structure Structure
<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> ... <Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <link r:resource="http://www3...ca/…./file.html"/> </Topic> <ExternalPage about="http://www…ca/file .html"> <d:Title>John phillips Blown glass</d:Title> <d:Description>A small display of glass by John Phillips</d:Description> </ExternalPage> <Topic r:id="Top/Computers"> <tag catid="4"/> <d:Title>Computers</d:Title> <link r:resource="http://www.cs.tcd.ie/FME/"/> <link r:resource=”http://foo.asdfsa….."/> </Topic> </RDF>
Resources Resources
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
Details und Referenzen in: Berendt, B., Hotho, A., & Stumme, G. (2002). Towards Semantic Web
- Mining. In I. Horrocks & J. Hendler
(Eds.), The Semantic Web - ISWC 2002 (Proceedings of the 1st International Semantic Web Conference (pp. 264-278). LNCS, Heidelberg, Germany: Springer.
Slide 1 root furnishing accomodation event area ... hotel youth hostel ... city region ... wellness hotel
Mining the web for learning ontologies, ...
Derived concept pairs (wellness hotel, area) (hotel, area) (accomodation, area) Association Rule Mining Generalized Conceptual Relation hasLocation(accomodation,area) is-a hierarchy
E x a m p l e
Maedche, A., Pekar, V., & Staab, S. (2002). Ontology Learning Part One - On Discovering Taxonomic Relations from the Web. In N.Zhong, J.Liu, & Y.Y.Yao (Eds.), Web Intelligence (pp. 301-322). Springer. Maedche, A., & Staab, S. (2000).Discovering conceptual relations from text. In W. Horn (Ed.), ECAI 2000, Proceedings of the 14th European Conference on Artificial Intelligence (pp. 321-325). Amsterdam: IOS Press.
Slide 2
..., mining the web for filling the ontology, ...
Knowledge base Hotel: Wellnesshotel GolfCourse: Seaview belongsTo(Seaview, Wellnesshotel) ... Information Extraction,
- eg. [Craven et al, AI Journal 2000]
belongsTo
FORALL X, Y Y: Hotel[cooperatesWith ->> X] <- X:ProjectHotel[cooperatesWith ->> Y].
GolfCourse Organization Hotel name cooperatesWith
Ontology
E x a m p l e
Slide 3
... and using the ontology for mining again.
Knowledge base Hotel: Wellnesshotel GolfCourse: Seaview belongsTo(Seaview, Wellnesshotel) ... ILP Based Association Rule Mining,
- eg. [Dehaspe,
Toivonen,
- J. DMKD 1998]
Hotel(x), GolfCourse(y), belongsTo(y,x) → hasStars(x,5) support = 0.4 % confidence = 89 %
belongsTo
FORALL X, Y Y: Hotel[cooperatesWith ->> X] <- X:ProjectHotel[cooperatesWith ->> Y].
GolfCourse Organization Hotel name cooperatesWith
Ontology
E x a m p l e
Slide 4
Semantic Web Usage Mining
p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:03:51 +0100] "GET /search.html?l=ostsee%20strand&syn=023785&ord=asc HTTP/1.0" 200 1759 p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:05:06 +0100] "GET /search.html?l=ostsee%20strand&p=low&syn=023785&ord=desc HTTP/1.0" 200 8450 p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:06:41 +0100] "GET /mlesen.html?Item=3456&syn=023785 HTTP/1.0" 200 3478
Search by
Location
Search by
Location
and Price Refine search Choose item Look at individual
Hotel.
From logfile analysis ... ... to semantic logfile analysis: Basic idea: associate each requested page with one or more ontological entities, to better understand the process of navigation [Berendt & Spiliopoulou 2000; Berendt 2002; Oberle 2001] Use the gained knowledge to
- understand search strategies
- improve navigation design
- personalization
Eine Typologie des Semantic Web Mining
Mining für das Semantic Web: Usage Mining für das Semantic Web: Content Mining für das Semantic Web: Structure Mining des Semantic Web: Usage Mining des Semantic Web: Content Mining des Semantic Web: Structure
Eine Typologie des Semantic Web Mining
Mining für das Semantic Web: Usage Mining für das Semantic Web: Content Mining für das Semantic Web: Structure Mining des Semantic Web: Usage Mining des Semantic Web: Content Mining des Semantic Web: Structure
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
„Mikrokosmos EDOC“
EDOC & its QuestionshMethod h Results & Discussion h Outlook
HU doctoral dissertations (without Medical Faculty) 50 100 150 200 250 300 350 400 EDOC authors non-EDOC authors
1998 1999 2000 2001
Total no.s of online publications by German universities
http://edoc.hu-berlin.de
Questions and goals of the study (1): EDOC target groups and goals
authors
EDOC authors
readers
EDOC readers EDOC goal: enable everyone who wants to publish online to do so
How would you like to publish your dissertation?
0,0% 20,0% 40,0% 60,0% 80,0% 100,0%
1
book by a publishing house book by a copyshop microfiche
- nline only
Online? Yes, but ... 19,8% 62,2%
1
- nline only
- nline in addition to a book
Do authors not wish to publish online?
Berendt, B., Brenstein, E., Li, Y., & Wendland, B. (2003). Marketing for participation:How can Electronic Dissertation Services win authors? In Proceedings of ETD 2003: Next Steps - Electronic Theses and Dissertations Worldwide. http://edoc.hu-berlin.de/etd2003/berendt-bettina/
Probleme und Fragen / Anforderungsdefinition
Viele Autoren
- erfahren erst spät von EDOC
)
- finden die Benutzung der Formatvorlage belastend
) Umfrage
- haben keine Ausbildung im "strukturierten Schreiben"
) Hilfe durch Semantic Web Content Mining Viele Leser
- nutzen die strukturierte Suche nicht
) Umfrage, Web Usage Mining Wahrnehmung / Nutzung des Dienstes:
- Autoren != Leser
) Semantic Web Usage Mining
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
Non-semantic Web Usage Mining
80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /favicon.ico HTTP/1.1" 200 1406 "-" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0" 80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /dissertationen/style/did.css HTTP/1.1" 200 10301 "http://edoc.hu-berlin.de/conferences/conf2/Kuehne-Hartmut-2002-09- 08/HTML/kuehne-ch1.html" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0" 66.196.72.44 - - [29/Mar/2003:00:02:38 +0100] "GET /../projekte/epdiss/kolloqu/schu/slide4.html HTTP/1.0" 400 379 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" 66.196.72.44 - - [29/Mar/2003:00:03:09 +0100] "GET /humboldt-vl/hofmann- hasso/PDF/Hofmann.pdf HTTP/1.1" 200 94881 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)" 66.196.72.21 - - [29/Mar/2003:00:04:14 +0100] "GET /dissertationen/biologie/kernekewisch- michaela/HTML/kernekewisch-vita.html HTTP/1.0" 200 7418 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" 64.68.82.27 - - [29/Mar/2003:00:04:21 +0100] "GET /download/kume/r-lailach-hesse.PDF HTTP/1.0" 200 179357 "-" "Googlebot/2.1 +http://www.googlebot.com/bot.html)" 193.7.255.242 - - [29/Mar/2003:00:07:08 +0100] "GET /dissertationen/radspieler-alexander- 2000-09-20/HTML/radspieler-ch2.html HTTP/1.1" 304 - "-" "Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)"
Problem: URLs sind nicht semantisch. Eine Analyse der Daten in dieser Form bringt keine Erkenntnis!
Web Usage Mining: Ziele (1) – “lokale Muster”
Häufige Itemsets
- In 30% der Sessions werden die “Nudeln”- und die “Tomatensaucen”-
Produktseiten zusammen aufgerufen.
- Die “Nudeln”- und die “Tortenboden”-Produktseiten werden in 1.2% der Sessions
zusammen aufgerufen.
Assoziationsregeln
- Wenn die “Nudeln”-Seite aufgerufen wird, dann wird die “Tomatensaucen”-Seite in
50% der Fälle aufgerufen.
- Wenn die “Nudeln”-Seite aufgerufen wird, dann wird die Startseite in 90% der Fälle
aufgerufen.
Sequenzielle Muster
- Werden “Nudeln” aufgerufen, so wird in 30% der Fälle danach “Tomatensauce”
- aufgerufen. Dieses geschieht in 20% der Sessions.
- Wird “Tomatensauce” aufgerufen, so wird in 100% der Fälle danach “Nudeln”
- aufgerufen. Dieses geschieht in 10% der Sessions.
- Einfache “Assoziationsregeln + Reihenfolge” und komplexere Verfahren (s.u.)
Clustering
- Kunden-/Nutzersegmentierung
- Bsp. In einer Multi-Channel-E-Commerce-Site:
- Kundentyp 1 (größte Gruppe) besucht alle Seitentypen außer den "Offline-Seiten" und
lässt sich gekaufte Produkte per Post liefern
- Kundentyp 2: besucht primär die "Offline-Seiten" und die
Dienstleistungsinformationen, kauft in einer Filiale ein
Klassifikation (z.B. Entscheidungsbäume)
- 70% der Nutzer, die vom Werbebanner X aus auf die Site gelangen, geben
mehr als 100 Euro für Unterhaltungselektronik aus.
- 90% der Nutzer, die von der Suchmaschine Y aus auf die Site gelangen,
verlassen die Site ohne Kauf.
Sequenzielle und strukturierte Muster
- insb. Markov-Modelle; auch: Bayes-Netze
Graphische Methoden / Visual Data Mining
- (Zum Finden globaler und lokaler Muster)
Web Usage Mining: Ziele (2) – “globale Muster”
Ontologie-basierte Verhaltensmodellierung – Grundidee (1)
Atomare Anwendungs-Ereignisse: Der Zugriff auf eine Webseite signalisiert Interesse an dem Konzept / den Konzepten und Relationen, um die es in dieser Seite geht – hinsichtlich des gesehenen Inhalts wie des angeforderten Dienstes
- Komplexe Anwendungs-Ereignisse: Sequenzen, reguläre
Ausdrücke, etc., die aus atomaren Anwendungs-Ereignissen bestehen.
- Bsp.: Spiliopoulou, Pohle und Teltzrow (Proc.
Wirtschaftsinformatik 2002) modellieren den aus dem Marketing bekannten Kundenkaufzyklus. Je nachdem, welche seiner charakteristischen Phasen durchlaufen werden (und in welcher Reihenfolge), lässt sich ein Nutzer einem Nutzertypen zuordnen (Moe, J. Consumer Psychology 2002).
- Beispiel: “knowledge builders”
Ontologie-basierte Verhaltensmodellierung – Grundidee (2)
URLs und Anwendungsereignisse
URL Webseite mit Inhalt Gewünschter Dienst Erhaltener Inhalt
Berendt, B., Stumme, G., & Hotho, A. (in press). Usage mining for and on the Semantic
- Web. In H. Kargupta, A. Joshi, K.
Sivakumar, & Y. Yesha (Eds.), Data Mining: Next Generation Challenges and Future
- Directions. Menlo Park, CA:
AAAI/MIT Press.
Semantic Web Usage Mining – Step 1: Konzept-Hierarchie / Domänen-Ontologie
HOME AUTHOR SEARCH DOC OTHER OAI OTHER DISS FULLTEXT LIST DNB AUTHOR KEYWORD META
PROJECT
OTHER DOC MASTER ABSTRACT
ADVICE TEMPLATE FAQ LATEX
HINWEISE
DIML README … … … … … …
ACCESS CONFERENCE PUBLIC READ STUDY CMS ABSTRACT ACCESS RESULT … … … … … …
- 1. Ein Zugriff (request) entspricht [dem Interesse an]
a) einem Konzept b) einer (Multi-)Menge von Konzepten c) einer strukturierten Menge von Konzepten
- 2. Ein Merkmalsträger ist
i. eine Session, betrachtet als eine (Multi-)Menge von Zugriffen ii. eine Session, betrachtet als eine Sequenz von Zugriffen
- iii. eine Session, betrachtet als ein Graph von Zugriffen
- iv. ein Nutzer, modelliert durch
– (ggf. aggregierte) Attribute seiner Session(s) + ggf. – andere Attribute (z.B. Wohnort, Einkommen, Transaktionshistorie)
Resultat der Datenvorbereitung: Datenmodellierung
A B A A B C A B C C A B C
Semantic Web Usage Mining – Schritt 2: Musterentdeckung – Bsp. Sequenzmining
“Find out pages that are usually visited together and inspect the navigation paths between them.”
Sequence miner WUM (http://www.hypknowsys.de)
select t from node as a b, template # _ a * b as t where a.accesses > 100 and a.support > 100 and b.accesses > 50 and b.support > 50 and ( b.support / a.support ) > 0.5
Schritt 3: Resultate und Interpretation
Pattern 1 Pattern 2 Pattern 3
Aggregate tree NavPattern
Here, we see that when visitor start from looking at Public reading paper, 50% of them will stay within this subject area. Same interpretation can be made with Other-Other and Other-Project
Semantic Web Usage Mining – Schritt 2 und 3: Bsp. Assoziationsregeln
Min support = 0.5 & min conf. = 0.9
DSS-LOOKUP=1 5531 ==> AUTHOR=0 DSS-DISS=0 OTHER=0 5303 conf:(0.96)
(Dissertations-)Leser werden i.d.R. nicht neugierig darauf, Autoren zu werden. Sie betrachten auch nicht die “anderen” Angebote des Servers.
- Bsp. 2: Analyse bei gegebener
Domänen-Ontologie: ka2portal.aifb.uni-karlsruhe.de
Gibt es verschiedene “Suchtypen” in diesem Onlinekatalog? Welche (Kombinationen von) Suchoptionen sind populär? Was signalisiert dieses über das inhaltliche Interesse der Nutzer?
Seitengenerierung aus existierendem Domänen-Modell
Site: Die dynamischen Seiten von ka2portal.aifb.uni-karlsruhe.de werden aus einer ontologiebasierten Wissensbasis generiert. Logs: Die Querystrings dieser Seiten sind (wie die Ontologie) in F-Logic ausgedrückt und werden gelogt. Beispiel: Suche Personen nach Organisation (AIFB):
FORALL N,PEOPLE,ORGANISATIONS,PROJECTS,TOPICS<- PEOPLE:Researcher[affiliation->>"http://www.aifb.uni-karlsruhe.de"] and PEOPLE:Person[lastName->>N]. affiliation
- RESEARCHER
- PERSON
- PROJECT
- PUBLICATION
- RESEARCHTOPIC
- EVENT
- ORGANIZATION
- RESEARCHINTEREST
- LASTNAME
- TITLE
- ISABOUT
- EVENTS
- EVENTTITLE
- WORKSATPROJECT
- AUTHOR
- AFFILIATION
- ISWORKEDONBY
- PROGRAMCOMMITTEE
- EMPLOYS
- NAME
- RESEARCHGROUPS
Datenmodellierung auf Basis atomarer Anwendungs-Ereignisse
Die Beispielanfrage mit Konzepten und Relationen: FORALL N,PEOPLE,...<- PEOPLE:Researcher[affiliation->> "http://www.aifb.uni-karlsruhe.de"] and PEOPLE:Person[lastName->>N]. Anfrage / Zugriff = Feature-Vektor von Konzepten + Relationen
- Session =
Feature-Vektor von Konzepten + Relationen, summiert über alle Anfragen in der Session
Oberle, D., Berendt, B., Hotho, A., & Gonzalez, J. (2003). Conceptual user tracking. In E.M. Ruiz, J. Segovia, & P.S. Szczepaniak (Eds.), Web Intelligence, First International Atlantic Web Intelligence Conference, AWIC 2003, Madrid, Spain, May 5-6, 2003, Proceedings (pp. 155-164). Berlin: Springer, LNCS 2663.
- RESEARCHER
- PERSON
- PROJECT
- PUBLICATION
- RESEARCHTOPIC
- EVENT
- ORGANIZATION
- RESEARCHINTEREST
- LASTNAME
- TITLE
- ISABOUT
- EVENTS
- EVENTTITLE
- WORKSATPROJECT
- AUTHOR
- AFFILIATION
- ISWORKEDONBY
- PROGRAMCOMMITTE
E
- EMPLOYS
- NAME
- RESEARCHGROUPS
Ergebnisse: Cluster-Analyse der Sessions
Frage: Unterschiedliche
Nutzergruppen?
Ergebnis:
- Ein Cluster mit Haupt-Interesse an
Publikationen und Projekten,
- eines mit Hauptinteresse an Personen
+ Spezialisierungen dieses Konzepts
Interpretation der Ergebnisse
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
Dissertation Markup Language DiML
http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd
... <!ELEMENT citation (#PCDATA | email | url | note | workauthor | worktitle | articletitle | serialtitle | address | editor | publisher | edition | volume | number | version | pages | pubdate | bible | court | law | cut | pagenumber)*> <!ATTLIST citation id ID #IMPLIED label CDATA #IMPLIED workType (Book | Journal | Misc) #IMPLIED published (yes|no) 'yes'> <!ELEMENT note (#PCDATA | em | u | strong | br | sup | tt | sub | link | name | email | organization | term | foreign | url | footnote | endnote | glossref | indexref | pagenumber | q | citation | imath | im)*> <!ATTLIST note id ID #IMPLIED> <!ELEMENT workauthor (#PCDATA | given | surname | suffix | organization)*> <!ATTLIST workauthor role CDATA #IMPLIED ref IDREF #IMPLIED id ID #IMPLIED> ...
Anwendung der Dissertations- Formatvorlage: Resultat
<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT> <HEAD>Literaturverzeichnis</HEAD> <CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED"> <CUT ID="bib-15-">[1] </CUT><WORKAUTHOR>Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R.</WORKAUTHOR>U<ARTICLETITLE>ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements</ARTICLETITLE>, <WORKTITLE>J.
- Phys. Chem. B</WORKTITLE>, <PUBDATE>2000</PUBDATE>,
<NUMBER>104</NUMBER>, <PAGES>2908</PAGES>, </CITATION> <CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED"> <CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>, </CITATION> ...
Project – System Setup
Windows PC VMware MS Word Linux Shared Folder VBA Makro TTT Script Text File XML File SSH 1 2 3 4 5
TTT System Structure
detect and markup publication informations (gr) detect and markup words (grammar) detect and markup paragraphs (grammar) convert plain text to XML (Perl) detect and markup author, date, title (gr) plain text XML XML XML XML XML Linux
- C. Grover, C.
Matheson, A. Mikheev, and Marc Moens. LT TTT - A Flexible Tokenisation
- Tool. In
Second Int.
- Conf. on
Language Resources and Evaluation, LREC'00, 2000 (pp 1147-1154) http://www.ltg .ed.ac.uk/soft ware/ttt/.
TTT – Step 1 convert plain text to XML (Perl) bibliographic reference - input
- 1. Abagyan, R-A., Totrov, M., Kutznetsov, D.N. (1994): ICM ? a
new method … conformation, J. Comp. Phys. 151: 402-421
- utput
<?xml version='1.0'?> <!DOCTYPE DOCS SYSTEM “/home/tposner/uniWebMining/TTT03/RES/biblio.dtd" > <DOCS> <TEXT>
- 1. Abagyan, R-A., Totrov, M., Kutznetsov, D.N. (1994): ICM ? a new
method … conformation, J. Comp. Phys. 151: 402-421 </TEXT> </DOCS>
TTT – Step 3
segment the p. into individual words
<?xml version='1.0'?> <!DOCTYPE DOCS SYSTEM "/home/tposner/uniWebMining/TTT03/RES/biblio.dtd" > <DOCS> <TEXT> <P> <W C='CD'>1</W><W C='FS'>.</W> <W C='W'>Abagyan</W><W C='CM'>,</W> <W C='W'>R</W><W C='DASH'>-</W><W C='W'>A</W><W C='FS'>.</W><W C='CM'>,</W> <W C='W'>Totrov</W><W C='CM'>,</W> <W C='W'>M</W><W C='FS'>.</W><W C='CM'>,</W> <W C='W'>Kutznetsov</W><W C='CM'>,</W> <W C='W'>D</W><W C='FS'>.</W><W C='W'>N</W><W C='FS'>.</W> <W C='LBR'>(</W><W C='CD'>1994</W><W C='RBR'>)</W><W C='CM'>:</W> <W C='W'>ICM</W> <W C='QM'>?</W> <W C='W'>a</W> <W C='W'>new</W> <W C='W'>method</W> <W C='W'>for</W> <W C='W'>protein</W> <W C='W'>moedeling</W> <W C='W'>and</W> <W C='W'>design</W><W C='FS'>.</W> <W C='W'>Applications</W> <W C='W'>to</W> <W C='W'>docking</W> <W C='W'>and</W> <W C='W'>structure</W> <W C='W'>prediction</W> <W C='W'>from</W> <W C='W'>the</W> <W C='W'>distorted</W> <W C='W'>native</W> <W C='W'>conformation</W><W C='CM'>,</W> <W C='W'>J</W><W C='FS'>.</W> <W C='W'>Comp</W><W C='FS'>.</W> <W C='W'>Phys</W><W C='FS'>.</W> <W C='CD'>151</W><W C='CM'>:</W> <W C='CD'>402</W><W C='DASH'>-</W><W C='CD'>421</W></P> </TEXT> </DOCS>
TTT – Step 4 extract publication information
<JOURNAL><JNAME><W C='W'>J</W><W C='FS'>.</W> <W C='W'>Comp</W><W C='FS'>.</W> <W C='W'>Phys</W><W C='FS'>.</W></JNAME> <VOLUME><W C='CD'>151</W></VOLUME><W C='CM'>:</W> <RANGE><W C='CD'>402</W><W C='DASH'>-</W><W C='CD'>421</W></RANGE></JOURNAL>
DTD biblio.dtd
we need DTD defining the format of the XML document that we process example
<!ELEMENT JOURNAL (#PCDATA|JNAME|VOLUME|RANGE)* > <!ELEMENT AUTHOR (#PCDATA|NAME|ETAL)* > <!ELEMENT NAME (#PCDATA|SURNAME|INVERTED|PRENAME)* > <!ELEMENT JNAME (#PCDATA|W)* > <!ELEMENT PRENAME (#PCDATA|W)* > <!ELEMENT VOLUME (#PCDATA|W)* > <!ELEMENT RANGE (#PCDATA|W)* >
TTT example - tagging name (1)
goal
<NAME> <PRENAME>Van</PRENAME> <SURNAME>Outen</SURNAME> <INVERTED>D.</INVERTED> </NAME>
main rule
<RULE name="name" type="DISJ“ targ_sg="NAME" targ="&S-REW;">
<REL type="REF" match="surname_inverted"> </REL>
</RULE>
TTT example - tagging name (2)
<RULE name="surname_inverted" targ="&A-REW; &B-REW; &C-VAL; &D-REW;">
<REL type="REF" match="prename" m_mod="QUEST" var="A"> </REL> <REL type="REF" match="surname" var="B"> </REL> <REL match="&COMMA;" m_mod="STAR" var="C" > </REL> <REL type="REF" match="inverted_name" var="D"> </REL>
</RULE>
TTT example - tagging name (3)
<RULE name="inverted_name" type="DISJ" targ_sg="INVERTED" targ="&S-VAL;">
<REL type="REF" match="initials" var="A"> </REL> <REL type="REF" match="christian_name" var="A"> </REL>
</RULE>
TTT example - tagging name (4)
<RULE name="initials" targ="&S-VAL;">
<REL type="REF" match="init" m_mod="PLUS" > </REL>
</RULE> <RULE name="init" type="DISJ" targ="&S-VAL;">
<REL type="REF" match="hyphenated_init" > </REL> <REL type="REF" match="simple_init" > </REL>
</RULE>
TTT example - tagging name (5)
<RULE name="hyphenated_init" targ="&S-VAL;">
<REL match = "W/#~^[A-Z]$" ></REL> <REL match="W[C='FS']" > </REL> <REL match="W[C='DASH']" > </REL> <REL match = "W/#~^[A-Z]$" ></REL> <REL match="W[C='FS']" > </REL>
</RULE>
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
Mining des und für das Semantic Web: Content – Ontology Mapping
„Lernen der Integration von Web- Taxonomien“ unter Nutzung struktureller Zusammenhänge
Lernproblem: Einfachster Ansatz:
- Beschreibe Objekte (Webseiten) durch Features (Terme)
- Lerne einen Klassifizierer aufgrund von Objekten, deren
Klassifikation in der Ziel-Taxonomie bekannt ist ignoriert das Wissen in der Quell-Taxonomie
Zhang & Lee (WWW 2004,SIGIR 2004):Vergleich v. 3 Ansätzen
- Enhanced Naive Bayes (Agrawal & Srikant, WWW Conf. 2001)
- Cluster Shrinkage, u.a. mit Transductive Support Vector Machines
- „Co-Bootstrapping“
Quellen
Agrawal, R. & Srikant, R. (2001). On integrating catalogs. In Proceedings of the 10th International World Wide Web Conference (WWW). Hong Kong, 2001, pp. 603- 612. Zhang, D. & Lee, W.S. (2004). Web Taxonomy Integration through Co-
- Bootstrapping. In Proceedings of the 27th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval (SIGIR), Sheffield, UK, Jul 2004. Zhang, D. & Lee, W.S. (2004). Web Taxonomy Integration using Support Vector
- Machines. In Proceedings of the 13th International World Wide Web Conference
(WWW), New York NY, US, May 2004.
Anwendungsmöglicheiten in ETDs
AGENDA
- 1. Grundkonzepte
- 2. Vor- und Nachteile
- 1. Web Mining
- 2. Semantic Web
- 3. Semantic Web Mining – eine Vision
- 4. Ein Mikrokosmos
- 5. Bsp. 1: Web Usage
- 6. Bsp. 2: Web Content
- 7. Bsp. 3: Web Content
- 8. Ausblick
Exkurs: Semantic Web und Metakognition
- http://vasarely.wiwi.hu-berlin.de/lehre/General/references_so_nicht.html
- Alltagsblick auf die Realität – wissenschaftlicher Blick auf die Realität
- „Kritisch reflektierende Haltung“ ggb. einer Quelle: Berücksichtigung
von Kontext, Konzepten / Weltbildern, Zielen und Methoden der AutorInnen
- Google als Paradigma (Literatur Internet und zurück ...)
Berendt, Bettina (2003). Studentische Literaturarbeit in Zeiten des World Wide Web. In Brigitte Berendt, H.-P. Voss, & J. Wildt (Eds.), Neues Handbuch Hochschullehre (G3.3, pp. 1-30). Berlin.
References: Jesus Mena: Beyond the Shopping Cart http://www.intelligententerprise.com Allen S. Crane: Actionable E-Metrics http://www.intelligententerprise.com Gediminas Adomavicius; Alexander Tuzbilin: Using Data Mining Methods to Build Customer Profiles 2001 Matt Cutler, Jim Sterne: E metrics—Business Metrics for the New Economy Stephen Gomory, Robert Hoch, Juhnyoung Lee, Mark Podlaseck, Edith Schonberg: Analysis and Visualization of Metrics for Online Merchandising References: Jesus Mena: Beyond the Shopping Cart http://www.intelligententerprise.com Allen S. Crane: Actionable E-Metrics http://www.intelligententerprise.com Gediminas Adomavicius; Alexander Tuzbilin: Using Data Mining Methods to Build Customer Profiles 2001 Matt Cutler, Jim Sterne: E metrics—Business Metrics for the New Economy Stephen Gomory, Robert Hoch, Juhnyoung Lee, Mark Podlaseck, Edith Schonberg: Analysis and Visualization of Metrics for Online Merchandising
Fazit
- Web Mining kann Wissen aus dem Web destillieren
- Das Semantic Web ist – in manchen Anwendungsbereichen –
möglich und wünschenswert
- Das Semantic Web muss aus lokalen + heterogenen Teilen
bestehen; mapping ist zentral
- Wo menschliche Intelligenz bedeutungstragende Strukturen ins