Semantic Web Mining Bettina Berendt Humboldt-Universitt zu Berlin - - PowerPoint PPT Presentation

semantic web mining
SMART_READER_LITE
LIVE PREVIEW

Semantic Web Mining Bettina Berendt Humboldt-Universitt zu Berlin - - PowerPoint PPT Presentation

Semantic Web Mining Bettina Berendt Humboldt-Universitt zu Berlin Institut fr Wirtschaftsinformatik www.wiwi.hu- berlin.de/~berendt Semantic Web Mining = Semantic Web Mining = Semantic Web Mining AGENDA 1. Grundkonzepte 2.


slide-1
SLIDE 1

Semantic Web Mining

Bettina Berendt

Humboldt-Universität zu Berlin –

Institut für Wirtschaftsinformatik www.wiwi.hu- berlin.de/~berendt

slide-2
SLIDE 2

Semantic Web Mining = Semantic Web Mining = Semantic Web Mining

slide-3
SLIDE 3

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-4
SLIDE 4

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-5
SLIDE 5

Web Mining

Knowledge discovery (aka Data mining): “the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1 Web Mining: die Anwendung von Data- Mining-Techniken auf Inhalt, (Hyperlink-) Struktur und Nutzung von Webressourcen.

Webmining-Gebiete: Web content mining Web structure mining Web usage mining

1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in

Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press

slide-6
SLIDE 6

Wissens- entdeckung ist iterativ

Adaptiert nach http://www.crisp-dm.org/Images/187343_CRISPart.jpg Pattern discovery Pattern analysis

slide-7
SLIDE 7

Das Semantic Web

“The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.” 1 “The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming.” 2

1 Berners-Lee, T., Hendler, J., & Lassila, O. (2001).

The Semantic Web. Sci. American, May.

2 http://www.w3.org/2001/sw/ 3 Berners-Lee, T. (2000). Semantic Web XML2000.

www.w3.org/2000/Talks/1206-xml2k-tbl/

2004-02-10: RDF and OWL are W3C Recom- mendations

slide-8
SLIDE 8

Semantic Web Mining: Eine Kurzdefinition

Semantic Web Mining is the combination of two complementary families of methods: Semantic Web methods and Web Mining

  • methods. Semantic Web Mining is one of the following three:

(1) "Mining of the Semantic Web": Using Web Mining approaches

  • n semantically enriched data as a standardised form of

background knowledge. (2) "Mining for the Semantic Web": Building the Semantic Web by means of Web Mining - using methods of Web Mining in order to infer Semantic Web structures. (3) The iterative process of (1) and (2), in which the semantics

  • btained by mining are re-used for mining again.

Stumme, G., Hotho, A., & Berendt, B. (in preparation). Semantic Web Mining – State of the Art and Future Directions.

Data understanding

slide-9
SLIDE 9

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-10
SLIDE 10

Warum Web Structure Mining?

  • Bsp. PageRank bei Google

„Eine Seite ist wichtig, wenn viele andere wichtige Seiten auf sie verweisen.“

slide-11
SLIDE 11

Warum Web Content Mining?

  • Bsp. Clustering bei Kartoo
slide-12
SLIDE 12

Findet Web Mining semantische Relationen? (1)

slide-13
SLIDE 13

Joachims, T. (2002). Optimizing search engines using clickthrough data. In

  • Proc. of SIGKDD-2002 (pp. 133-142).

NY: ACM

Re-Ranking gemäß Click-Häufigkeit

Warum Web Usage Mining?

  • Bsp. Empfehlungssysteme

z.B. Mobasher, B., Dai, H., Luo, T., & Nakagawa, M. (2002). Discovery and evaluation of aggregate usage profiles for Web personalization. Data Mining and Knowledge Discovery, 6, 61-82.

slide-14
SLIDE 14

Hauptprobleme des Web Mining

“Der Sinn findet nicht – oder nicht nur – an der syntaktischen Oberfläche statt.”: Synonyme, Homomyme, …; verschiedene Zielgruppen haben unterschiedliche Sprachen und Konzeptwelten. Verknüpfung von Informationen aus verschiedenen Quellen / Inferenzen > Muster-Erkennung

slide-15
SLIDE 15

Findet Web Mining semantische Relationen? (2): Homonyme

slide-16
SLIDE 16

Findet Web Mining semantische Relationen? (3): Homonyme u. Metaphern

slide-17
SLIDE 17

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-18
SLIDE 18

RDF introduction filetype:.ppt .site:.edu Syntactic approach:

Content (Keyword matching)

“Metadata approach“

Didactic function: presentation or course material Didactic function: presentation \ business_presentation Didactic function: applicable for Western education system Resource language: English Quality measure: endorsed by employment / admission criteria to a US university

  • all vague; need background knowledge

Warum Semantic Web?

  • Bsp. strukturierte Suche
slide-19
SLIDE 19

Standardisierte Metadaten zur Verbesserung der strukturierten Suche

<HTML><HEAD> <META NAME="DC.Creator" CONTENT="(Scheme=Freetext) Thomas Seilnacht <seilnach@i-st.net>"> <META NAME="DC.Title" CONTENT="(Scheme=Freetext) 10 Schritte zum Bau der eigenen Homepage"> <META NAME="DC.Date.Created" CONTENT="(Scheme=Freetext) 1998-10-02"> <META NAME="DC.Form" CONTENT="(Scheme=IMT) text/html"> <META NAME="DC.Identifier" CONTENT="(Scheme=URL) http://www.seilnacht.tuttlingen.com/HTML/Homepage.htm"> <META NAME="DC.Description" CONTENT="(Scheme=Freetext) Anleitung zum Bau einer Homepage mit dem Netscape Communicator"> <META NAME="DC.Subject.Keywords" CONTENT="(Scheme=Freetext) Homepage, HTML, Internet, FTP, Polyview, Programmieren, Frames, JavaScript, CGI-Script, Grundbegriffe, Grafik, Freeware, INFORMATISCHE GRUNDBILDUNG"> <META NAME="DC.Type" CONTENT="Kurs/Onlinekurs/Virtuelles Seminar"> <META NAME="DC.Language" CONTENT="Deutsch"> <META NAME="DC.Description" CONTENT="(Scheme=URL) http://dbs.schule.de/db/mlesen.html?Id=7915&KATEGORIE=medien">

DC : Dublin Core

A metadata standard specifying a minimal set

  • f properties of a resource
slide-20
SLIDE 20

Semantische Suche: Bsp.

healthcybermap.semanticweb.org/multiaxial.htm Dieses ist ein Konzept aus einer Ontologie von Krankheiten!

slide-21
SLIDE 21

Was ist eine Ontologie?

An ontology is „an explicit specification of a shared conceptualisation.“ (Gruber, 1993)

Gruber, T.R. (1993). Towards principles for the design of ontologies used for knowledge

  • sharing. In N. Guarino & R. Poli (Eds.), Formal

Ontologies in Conceptual Analysis and Knowledge Representation Deventer, NL: Kluwer. Bozsak, Ehrig, Handschuh, Hotho, Maedche, Motik, Oberle, Schmitz, Staab, Stojanovic, Stojanovic, Studer, Stumme, Sure,Tane, Volz, & Zacharias (2002). KAON - Towards a Large Scale Semantic Web. In Kurt Bauknecht, A. Min Tjoa, & Gerald Quirchmayr (Eds.), E-Commerce and Web Technologies, Third International Conference, EC-Web 2002, Aix-en-Provence, France, September 2-6, 2002, Proceedings (pp. 304-313). Springer: LNCS 2455

slide-22
SLIDE 22

Relational Metadata

DAMLPROJ

COOPERATES- WITH

URI-GST URI-SWMining

COOPERATES- WITH WORKS-IN PROJECT RESEARCHER PERSON OBJECT COOPERATES

  • WITH

TITLE NAME RESEARCHER PERSON

Ontology

COOPERATES

  • WITH

Semantic Web Mining

WWW

  • URI-AHO

Andreas Hotho cooperateswith(X,Y) ⇒cooperateswith(Y,X)

WORKS-IN WORKS-IN

Ontologie-basierte Website-Modellierung

slide-23
SLIDE 23

Hauptprobleme des Semantic Web

“Wer soll das alles machen?” Anreize und Anomalien

slide-24
SLIDE 24

Strategien zur Schaffung des Semantic Web

“institutionell”: Zwang “sozial”: Verteilte Autorenschaft à la Open Source

(example: dmoz.org)

“informatisch / HCI”: Tool-Support “informatisch / Informationsverarbeitung”

Semantic Web Mining! Zwei interessante Anwendungsgebiete mit gemischten Strategien:

  • Medizin
  • Bildung
slide-25
SLIDE 25

The Open Directory Project

  • http://www.dmoz.org
  • Directory of Web-accessible resources
  • Human-maintained (people add resources)
  • Uses RDF to:
  • Describe category structure
  • Describe resources in each category
  • See http://dmoz.org/Computers/Internet/Searching/Directories/-

Open_Directory_Project/Sites_Using_ODP_Data/desc.html

  • Used as taxonomy (“light-weight ontology”) for Google’s Web index
slide-26
SLIDE 26

<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> <Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> .... </Topic> <Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/> </Topic> .... </RDF>

Category Category Structure Structure

slide-27
SLIDE 27

<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> ... <Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <link r:resource="http://www3...ca/…./file.html"/> </Topic> <ExternalPage about="http://www…ca/file .html"> <d:Title>John phillips Blown glass</d:Title> <d:Description>A small display of glass by John Phillips</d:Description> </ExternalPage> <Topic r:id="Top/Computers"> <tag catid="4"/> <d:Title>Computers</d:Title> <link r:resource="http://www.cs.tcd.ie/FME/"/> <link r:resource=”http://foo.asdfsa….."/> </Topic> </RDF>

Resources Resources

slide-28
SLIDE 28

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick

Details und Referenzen in: Berendt, B., Hotho, A., & Stumme, G. (2002). Towards Semantic Web

  • Mining. In I. Horrocks & J. Hendler

(Eds.), The Semantic Web - ISWC 2002 (Proceedings of the 1st International Semantic Web Conference (pp. 264-278). LNCS, Heidelberg, Germany: Springer.

slide-29
SLIDE 29

Slide 1 root furnishing accomodation event area ... hotel youth hostel ... city region ... wellness hotel

Mining the web for learning ontologies, ...

Derived concept pairs (wellness hotel, area) (hotel, area) (accomodation, area) Association Rule Mining Generalized Conceptual Relation hasLocation(accomodation,area) is-a hierarchy

E x a m p l e

Maedche, A., Pekar, V., & Staab, S. (2002). Ontology Learning Part One - On Discovering Taxonomic Relations from the Web. In N.Zhong, J.Liu, & Y.Y.Yao (Eds.), Web Intelligence (pp. 301-322). Springer. Maedche, A., & Staab, S. (2000).Discovering conceptual relations from text. In W. Horn (Ed.), ECAI 2000, Proceedings of the 14th European Conference on Artificial Intelligence (pp. 321-325). Amsterdam: IOS Press.

slide-30
SLIDE 30

Slide 2

..., mining the web for filling the ontology, ...

Knowledge base Hotel: Wellnesshotel GolfCourse: Seaview belongsTo(Seaview, Wellnesshotel) ... Information Extraction,

  • eg. [Craven et al, AI Journal 2000]

belongsTo

FORALL X, Y Y: Hotel[cooperatesWith ->> X] <- X:ProjectHotel[cooperatesWith ->> Y].

GolfCourse Organization Hotel name cooperatesWith

Ontology

E x a m p l e

slide-31
SLIDE 31

Slide 3

... and using the ontology for mining again.

Knowledge base Hotel: Wellnesshotel GolfCourse: Seaview belongsTo(Seaview, Wellnesshotel) ... ILP Based Association Rule Mining,

  • eg. [Dehaspe,

Toivonen,

  • J. DMKD 1998]

Hotel(x), GolfCourse(y), belongsTo(y,x) → hasStars(x,5) support = 0.4 % confidence = 89 %

belongsTo

FORALL X, Y Y: Hotel[cooperatesWith ->> X] <- X:ProjectHotel[cooperatesWith ->> Y].

GolfCourse Organization Hotel name cooperatesWith

Ontology

E x a m p l e

slide-32
SLIDE 32

Slide 4

Semantic Web Usage Mining

p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:03:51 +0100] "GET /search.html?l=ostsee%20strand&syn=023785&ord=asc HTTP/1.0" 200 1759 p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:05:06 +0100] "GET /search.html?l=ostsee%20strand&p=low&syn=023785&ord=desc HTTP/1.0" 200 8450 p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:06:41 +0100] "GET /mlesen.html?Item=3456&syn=023785 HTTP/1.0" 200 3478

Search by

Location

Search by

Location

and Price Refine search Choose item Look at individual

Hotel.

From logfile analysis ... ... to semantic logfile analysis: Basic idea: associate each requested page with one or more ontological entities, to better understand the process of navigation [Berendt & Spiliopoulou 2000; Berendt 2002; Oberle 2001] Use the gained knowledge to

  • understand search strategies
  • improve navigation design
  • personalization
slide-33
SLIDE 33

Eine Typologie des Semantic Web Mining

Mining für das Semantic Web: Usage Mining für das Semantic Web: Content Mining für das Semantic Web: Structure Mining des Semantic Web: Usage Mining des Semantic Web: Content Mining des Semantic Web: Structure

slide-34
SLIDE 34

Eine Typologie des Semantic Web Mining

Mining für das Semantic Web: Usage Mining für das Semantic Web: Content Mining für das Semantic Web: Structure Mining des Semantic Web: Usage Mining des Semantic Web: Content Mining des Semantic Web: Structure

slide-35
SLIDE 35

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-36
SLIDE 36

„Mikrokosmos EDOC“

slide-37
SLIDE 37

EDOC & its QuestionshMethod h Results & Discussion h Outlook

HU doctoral dissertations (without Medical Faculty) 50 100 150 200 250 300 350 400 EDOC authors non-EDOC authors

1998 1999 2000 2001

Total no.s of online publications by German universities

http://edoc.hu-berlin.de

slide-38
SLIDE 38

Questions and goals of the study (1): EDOC target groups and goals

authors

EDOC authors

readers

EDOC readers EDOC goal: enable everyone who wants to publish online to do so

slide-39
SLIDE 39

How would you like to publish your dissertation?

0,0% 20,0% 40,0% 60,0% 80,0% 100,0%

1

book by a publishing house book by a copyshop microfiche

  • nline only

Online? Yes, but ... 19,8% 62,2%

1

  • nline only
  • nline in addition to a book

Do authors not wish to publish online?

Berendt, B., Brenstein, E., Li, Y., & Wendland, B. (2003). Marketing for participation:How can Electronic Dissertation Services win authors? In Proceedings of ETD 2003: Next Steps - Electronic Theses and Dissertations Worldwide. http://edoc.hu-berlin.de/etd2003/berendt-bettina/

slide-40
SLIDE 40

Probleme und Fragen / Anforderungsdefinition

Viele Autoren

  • erfahren erst spät von EDOC

)

  • finden die Benutzung der Formatvorlage belastend

) Umfrage

  • haben keine Ausbildung im "strukturierten Schreiben"

) Hilfe durch Semantic Web Content Mining Viele Leser

  • nutzen die strukturierte Suche nicht

) Umfrage, Web Usage Mining Wahrnehmung / Nutzung des Dienstes:

  • Autoren != Leser

) Semantic Web Usage Mining

slide-41
SLIDE 41

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-42
SLIDE 42

Non-semantic Web Usage Mining

80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /favicon.ico HTTP/1.1" 200 1406 "-" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0" 80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /dissertationen/style/did.css HTTP/1.1" 200 10301 "http://edoc.hu-berlin.de/conferences/conf2/Kuehne-Hartmut-2002-09- 08/HTML/kuehne-ch1.html" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0" 66.196.72.44 - - [29/Mar/2003:00:02:38 +0100] "GET /../projekte/epdiss/kolloqu/schu/slide4.html HTTP/1.0" 400 379 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" 66.196.72.44 - - [29/Mar/2003:00:03:09 +0100] "GET /humboldt-vl/hofmann- hasso/PDF/Hofmann.pdf HTTP/1.1" 200 94881 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)" 66.196.72.21 - - [29/Mar/2003:00:04:14 +0100] "GET /dissertationen/biologie/kernekewisch- michaela/HTML/kernekewisch-vita.html HTTP/1.0" 200 7418 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" 64.68.82.27 - - [29/Mar/2003:00:04:21 +0100] "GET /download/kume/r-lailach-hesse.PDF HTTP/1.0" 200 179357 "-" "Googlebot/2.1 +http://www.googlebot.com/bot.html)" 193.7.255.242 - - [29/Mar/2003:00:07:08 +0100] "GET /dissertationen/radspieler-alexander- 2000-09-20/HTML/radspieler-ch2.html HTTP/1.1" 304 - "-" "Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)"

Problem: URLs sind nicht semantisch. Eine Analyse der Daten in dieser Form bringt keine Erkenntnis!

slide-43
SLIDE 43

Web Usage Mining: Ziele (1) – “lokale Muster”

Häufige Itemsets

  • In 30% der Sessions werden die “Nudeln”- und die “Tomatensaucen”-

Produktseiten zusammen aufgerufen.

  • Die “Nudeln”- und die “Tortenboden”-Produktseiten werden in 1.2% der Sessions

zusammen aufgerufen.

Assoziationsregeln

  • Wenn die “Nudeln”-Seite aufgerufen wird, dann wird die “Tomatensaucen”-Seite in

50% der Fälle aufgerufen.

  • Wenn die “Nudeln”-Seite aufgerufen wird, dann wird die Startseite in 90% der Fälle

aufgerufen.

Sequenzielle Muster

  • Werden “Nudeln” aufgerufen, so wird in 30% der Fälle danach “Tomatensauce”
  • aufgerufen. Dieses geschieht in 20% der Sessions.
  • Wird “Tomatensauce” aufgerufen, so wird in 100% der Fälle danach “Nudeln”
  • aufgerufen. Dieses geschieht in 10% der Sessions.
  • Einfache “Assoziationsregeln + Reihenfolge” und komplexere Verfahren (s.u.)
slide-44
SLIDE 44

Clustering

  • Kunden-/Nutzersegmentierung
  • Bsp. In einer Multi-Channel-E-Commerce-Site:
  • Kundentyp 1 (größte Gruppe) besucht alle Seitentypen außer den "Offline-Seiten" und

lässt sich gekaufte Produkte per Post liefern

  • Kundentyp 2: besucht primär die "Offline-Seiten" und die

Dienstleistungsinformationen, kauft in einer Filiale ein

Klassifikation (z.B. Entscheidungsbäume)

  • 70% der Nutzer, die vom Werbebanner X aus auf die Site gelangen, geben

mehr als 100 Euro für Unterhaltungselektronik aus.

  • 90% der Nutzer, die von der Suchmaschine Y aus auf die Site gelangen,

verlassen die Site ohne Kauf.

Sequenzielle und strukturierte Muster

  • insb. Markov-Modelle; auch: Bayes-Netze

Graphische Methoden / Visual Data Mining

  • (Zum Finden globaler und lokaler Muster)

Web Usage Mining: Ziele (2) – “globale Muster”

slide-45
SLIDE 45

Ontologie-basierte Verhaltensmodellierung – Grundidee (1)

Atomare Anwendungs-Ereignisse: Der Zugriff auf eine Webseite signalisiert Interesse an dem Konzept / den Konzepten und Relationen, um die es in dieser Seite geht – hinsichtlich des gesehenen Inhalts wie des angeforderten Dienstes

slide-46
SLIDE 46
  • Komplexe Anwendungs-Ereignisse: Sequenzen, reguläre

Ausdrücke, etc., die aus atomaren Anwendungs-Ereignissen bestehen.

  • Bsp.: Spiliopoulou, Pohle und Teltzrow (Proc.

Wirtschaftsinformatik 2002) modellieren den aus dem Marketing bekannten Kundenkaufzyklus. Je nachdem, welche seiner charakteristischen Phasen durchlaufen werden (und in welcher Reihenfolge), lässt sich ein Nutzer einem Nutzertypen zuordnen (Moe, J. Consumer Psychology 2002).

  • Beispiel: “knowledge builders”

Ontologie-basierte Verhaltensmodellierung – Grundidee (2)

slide-47
SLIDE 47

URLs und Anwendungsereignisse

URL Webseite mit Inhalt Gewünschter Dienst Erhaltener Inhalt

Berendt, B., Stumme, G., & Hotho, A. (in press). Usage mining for and on the Semantic

  • Web. In H. Kargupta, A. Joshi, K.

Sivakumar, & Y. Yesha (Eds.), Data Mining: Next Generation Challenges and Future

  • Directions. Menlo Park, CA:

AAAI/MIT Press.

slide-48
SLIDE 48

Semantic Web Usage Mining – Step 1: Konzept-Hierarchie / Domänen-Ontologie

HOME AUTHOR SEARCH DOC OTHER OAI OTHER DISS FULLTEXT LIST DNB AUTHOR KEYWORD META

PROJECT

OTHER DOC MASTER ABSTRACT

ADVICE TEMPLATE FAQ LATEX

HINWEISE

DIML README … … … … … …

ACCESS CONFERENCE PUBLIC READ STUDY CMS ABSTRACT ACCESS RESULT … … … … … …

slide-49
SLIDE 49
  • 1. Ein Zugriff (request) entspricht [dem Interesse an]

a) einem Konzept b) einer (Multi-)Menge von Konzepten c) einer strukturierten Menge von Konzepten

  • 2. Ein Merkmalsträger ist

i. eine Session, betrachtet als eine (Multi-)Menge von Zugriffen ii. eine Session, betrachtet als eine Sequenz von Zugriffen

  • iii. eine Session, betrachtet als ein Graph von Zugriffen
  • iv. ein Nutzer, modelliert durch

– (ggf. aggregierte) Attribute seiner Session(s) + ggf. – andere Attribute (z.B. Wohnort, Einkommen, Transaktionshistorie)

Resultat der Datenvorbereitung: Datenmodellierung

A B A A B C A B C C A B C

slide-50
SLIDE 50

Semantic Web Usage Mining – Schritt 2: Musterentdeckung – Bsp. Sequenzmining

“Find out pages that are usually visited together and inspect the navigation paths between them.”

Sequence miner WUM (http://www.hypknowsys.de)

select t from node as a b, template # _ a * b as t where a.accesses > 100 and a.support > 100 and b.accesses > 50 and b.support > 50 and ( b.support / a.support ) > 0.5

slide-51
SLIDE 51

Schritt 3: Resultate und Interpretation

Pattern 1 Pattern 2 Pattern 3

Aggregate tree NavPattern

Here, we see that when visitor start from looking at Public reading paper, 50% of them will stay within this subject area. Same interpretation can be made with Other-Other and Other-Project

slide-52
SLIDE 52

Semantic Web Usage Mining – Schritt 2 und 3: Bsp. Assoziationsregeln

Min support = 0.5 & min conf. = 0.9

DSS-LOOKUP=1 5531 ==> AUTHOR=0 DSS-DISS=0 OTHER=0 5303 conf:(0.96)

(Dissertations-)Leser werden i.d.R. nicht neugierig darauf, Autoren zu werden. Sie betrachten auch nicht die “anderen” Angebote des Servers.

slide-53
SLIDE 53
  • Bsp. 2: Analyse bei gegebener

Domänen-Ontologie: ka2portal.aifb.uni-karlsruhe.de

Gibt es verschiedene “Suchtypen” in diesem Onlinekatalog? Welche (Kombinationen von) Suchoptionen sind populär? Was signalisiert dieses über das inhaltliche Interesse der Nutzer?

slide-54
SLIDE 54

Seitengenerierung aus existierendem Domänen-Modell

Site: Die dynamischen Seiten von ka2portal.aifb.uni-karlsruhe.de werden aus einer ontologiebasierten Wissensbasis generiert. Logs: Die Querystrings dieser Seiten sind (wie die Ontologie) in F-Logic ausgedrückt und werden gelogt. Beispiel: Suche Personen nach Organisation (AIFB):

FORALL N,PEOPLE,ORGANISATIONS,PROJECTS,TOPICS<- PEOPLE:Researcher[affiliation->>"http://www.aifb.uni-karlsruhe.de"] and PEOPLE:Person[lastName->>N]. affiliation

slide-55
SLIDE 55
  • RESEARCHER
  • PERSON
  • PROJECT
  • PUBLICATION
  • RESEARCHTOPIC
  • EVENT
  • ORGANIZATION
  • RESEARCHINTEREST
  • LASTNAME
  • TITLE
  • ISABOUT
  • EVENTS
  • EVENTTITLE
  • WORKSATPROJECT
  • AUTHOR
  • AFFILIATION
  • ISWORKEDONBY
  • PROGRAMCOMMITTEE
  • EMPLOYS
  • NAME
  • RESEARCHGROUPS
  • EMAIL

Datenmodellierung auf Basis atomarer Anwendungs-Ereignisse

Die Beispielanfrage mit Konzepten und Relationen: FORALL N,PEOPLE,...<- PEOPLE:Researcher[affiliation->> "http://www.aifb.uni-karlsruhe.de"] and PEOPLE:Person[lastName->>N]. Anfrage / Zugriff = Feature-Vektor von Konzepten + Relationen

  • Session =

Feature-Vektor von Konzepten + Relationen, summiert über alle Anfragen in der Session

Oberle, D., Berendt, B., Hotho, A., & Gonzalez, J. (2003). Conceptual user tracking. In E.M. Ruiz, J. Segovia, & P.S. Szczepaniak (Eds.), Web Intelligence, First International Atlantic Web Intelligence Conference, AWIC 2003, Madrid, Spain, May 5-6, 2003, Proceedings (pp. 155-164). Berlin: Springer, LNCS 2663.

slide-56
SLIDE 56
  • RESEARCHER
  • PERSON
  • PROJECT
  • PUBLICATION
  • RESEARCHTOPIC
  • EVENT
  • ORGANIZATION
  • RESEARCHINTEREST
  • LASTNAME
  • TITLE
  • ISABOUT
  • EVENTS
  • EVENTTITLE
  • WORKSATPROJECT
  • AUTHOR
  • AFFILIATION
  • ISWORKEDONBY
  • PROGRAMCOMMITTE

E

  • EMPLOYS
  • NAME
  • RESEARCHGROUPS
  • EMAIL

Ergebnisse: Cluster-Analyse der Sessions

slide-57
SLIDE 57

Frage: Unterschiedliche

Nutzergruppen?

Ergebnis:

  • Ein Cluster mit Haupt-Interesse an

Publikationen und Projekten,

  • eines mit Hauptinteresse an Personen

+ Spezialisierungen dieses Konzepts

Interpretation der Ergebnisse

slide-58
SLIDE 58

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-59
SLIDE 59

Dissertation Markup Language DiML

http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd

... <!ELEMENT citation (#PCDATA | email | url | note | workauthor | worktitle | articletitle | serialtitle | address | editor | publisher | edition | volume | number | version | pages | pubdate | bible | court | law | cut | pagenumber)*> <!ATTLIST citation id ID #IMPLIED label CDATA #IMPLIED workType (Book | Journal | Misc) #IMPLIED published (yes|no) 'yes'> <!ELEMENT note (#PCDATA | em | u | strong | br | sup | tt | sub | link | name | email | organization | term | foreign | url | footnote | endnote | glossref | indexref | pagenumber | q | citation | imath | im)*> <!ATTLIST note id ID #IMPLIED> <!ELEMENT workauthor (#PCDATA | given | surname | suffix | organization)*> <!ATTLIST workauthor role CDATA #IMPLIED ref IDREF #IMPLIED id ID #IMPLIED> ...

slide-60
SLIDE 60

Anwendung der Dissertations- Formatvorlage: Resultat

<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT> <HEAD>Literaturverzeichnis</HEAD> <CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED"> <CUT ID="bib-15-">[1] </CUT><WORKAUTHOR>Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R.</WORKAUTHOR>U<ARTICLETITLE>ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements</ARTICLETITLE>, <WORKTITLE>J.

  • Phys. Chem. B</WORKTITLE>, <PUBDATE>2000</PUBDATE>,

<NUMBER>104</NUMBER>, <PAGES>2908</PAGES>, </CITATION> <CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED"> <CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; G&ouml;bel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>, </CITATION> ...

slide-61
SLIDE 61

Project – System Setup

Windows PC VMware MS Word Linux Shared Folder VBA Makro TTT Script Text File XML File SSH 1 2 3 4 5

slide-62
SLIDE 62

TTT System Structure

detect and markup publication informations (gr) detect and markup words (grammar) detect and markup paragraphs (grammar) convert plain text to XML (Perl) detect and markup author, date, title (gr) plain text XML XML XML XML XML Linux

  • C. Grover, C.

Matheson, A. Mikheev, and Marc Moens. LT TTT - A Flexible Tokenisation

  • Tool. In

Second Int.

  • Conf. on

Language Resources and Evaluation, LREC'00, 2000 (pp 1147-1154) http://www.ltg .ed.ac.uk/soft ware/ttt/.

slide-63
SLIDE 63

TTT – Step 1 convert plain text to XML (Perl) bibliographic reference - input

  • 1. Abagyan, R-A., Totrov, M., Kutznetsov, D.N. (1994): ICM ? a

new method … conformation, J. Comp. Phys. 151: 402-421

  • utput

<?xml version='1.0'?> <!DOCTYPE DOCS SYSTEM “/home/tposner/uniWebMining/TTT03/RES/biblio.dtd" > <DOCS> <TEXT>

  • 1. Abagyan, R-A., Totrov, M., Kutznetsov, D.N. (1994): ICM ? a new

method … conformation, J. Comp. Phys. 151: 402-421 </TEXT> </DOCS>

slide-64
SLIDE 64

TTT – Step 3

segment the p. into individual words

<?xml version='1.0'?> <!DOCTYPE DOCS SYSTEM "/home/tposner/uniWebMining/TTT03/RES/biblio.dtd" > <DOCS> <TEXT> <P> <W C='CD'>1</W><W C='FS'>.</W> <W C='W'>Abagyan</W><W C='CM'>,</W> <W C='W'>R</W><W C='DASH'>-</W><W C='W'>A</W><W C='FS'>.</W><W C='CM'>,</W> <W C='W'>Totrov</W><W C='CM'>,</W> <W C='W'>M</W><W C='FS'>.</W><W C='CM'>,</W> <W C='W'>Kutznetsov</W><W C='CM'>,</W> <W C='W'>D</W><W C='FS'>.</W><W C='W'>N</W><W C='FS'>.</W> <W C='LBR'>(</W><W C='CD'>1994</W><W C='RBR'>)</W><W C='CM'>:</W> <W C='W'>ICM</W> <W C='QM'>?</W> <W C='W'>a</W> <W C='W'>new</W> <W C='W'>method</W> <W C='W'>for</W> <W C='W'>protein</W> <W C='W'>moedeling</W> <W C='W'>and</W> <W C='W'>design</W><W C='FS'>.</W> <W C='W'>Applications</W> <W C='W'>to</W> <W C='W'>docking</W> <W C='W'>and</W> <W C='W'>structure</W> <W C='W'>prediction</W> <W C='W'>from</W> <W C='W'>the</W> <W C='W'>distorted</W> <W C='W'>native</W> <W C='W'>conformation</W><W C='CM'>,</W> <W C='W'>J</W><W C='FS'>.</W> <W C='W'>Comp</W><W C='FS'>.</W> <W C='W'>Phys</W><W C='FS'>.</W> <W C='CD'>151</W><W C='CM'>:</W> <W C='CD'>402</W><W C='DASH'>-</W><W C='CD'>421</W></P> </TEXT> </DOCS>

slide-65
SLIDE 65

TTT – Step 4 extract publication information

<JOURNAL><JNAME><W C='W'>J</W><W C='FS'>.</W> <W C='W'>Comp</W><W C='FS'>.</W> <W C='W'>Phys</W><W C='FS'>.</W></JNAME> <VOLUME><W C='CD'>151</W></VOLUME><W C='CM'>:</W> <RANGE><W C='CD'>402</W><W C='DASH'>-</W><W C='CD'>421</W></RANGE></JOURNAL>

slide-66
SLIDE 66

DTD biblio.dtd

we need DTD defining the format of the XML document that we process example

<!ELEMENT JOURNAL (#PCDATA|JNAME|VOLUME|RANGE)* > <!ELEMENT AUTHOR (#PCDATA|NAME|ETAL)* > <!ELEMENT NAME (#PCDATA|SURNAME|INVERTED|PRENAME)* > <!ELEMENT JNAME (#PCDATA|W)* > <!ELEMENT PRENAME (#PCDATA|W)* > <!ELEMENT VOLUME (#PCDATA|W)* > <!ELEMENT RANGE (#PCDATA|W)* >

slide-67
SLIDE 67

TTT example - tagging name (1)

goal

<NAME> <PRENAME>Van</PRENAME> <SURNAME>Outen</SURNAME> <INVERTED>D.</INVERTED> </NAME>

main rule

<RULE name="name" type="DISJ“ targ_sg="NAME" targ="&S-REW;">

<REL type="REF" match="surname_inverted"> </REL>

</RULE>

slide-68
SLIDE 68

TTT example - tagging name (2)

<RULE name="surname_inverted" targ="&A-REW; &B-REW; &C-VAL; &D-REW;">

<REL type="REF" match="prename" m_mod="QUEST" var="A"> </REL> <REL type="REF" match="surname" var="B"> </REL> <REL match="&COMMA;" m_mod="STAR" var="C" > </REL> <REL type="REF" match="inverted_name" var="D"> </REL>

</RULE>

slide-69
SLIDE 69

TTT example - tagging name (3)

<RULE name="inverted_name" type="DISJ" targ_sg="INVERTED" targ="&S-VAL;">

<REL type="REF" match="initials" var="A"> </REL> <REL type="REF" match="christian_name" var="A"> </REL>

</RULE>

slide-70
SLIDE 70

TTT example - tagging name (4)

<RULE name="initials" targ="&S-VAL;">

<REL type="REF" match="init" m_mod="PLUS" > </REL>

</RULE> <RULE name="init" type="DISJ" targ="&S-VAL;">

<REL type="REF" match="hyphenated_init" > </REL> <REL type="REF" match="simple_init" > </REL>

</RULE>

slide-71
SLIDE 71

TTT example - tagging name (5)

<RULE name="hyphenated_init" targ="&S-VAL;">

<REL match = "W/#~^[A-Z]$" ></REL> <REL match="W[C='FS']" > </REL> <REL match="W[C='DASH']" > </REL> <REL match = "W/#~^[A-Z]$" ></REL> <REL match="W[C='FS']" > </REL>

</RULE>

slide-72
SLIDE 72

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-73
SLIDE 73

Mining des und für das Semantic Web: Content – Ontology Mapping

slide-74
SLIDE 74

„Lernen der Integration von Web- Taxonomien“ unter Nutzung struktureller Zusammenhänge

Lernproblem: Einfachster Ansatz:

  • Beschreibe Objekte (Webseiten) durch Features (Terme)
  • Lerne einen Klassifizierer aufgrund von Objekten, deren

Klassifikation in der Ziel-Taxonomie bekannt ist ignoriert das Wissen in der Quell-Taxonomie

Zhang & Lee (WWW 2004,SIGIR 2004):Vergleich v. 3 Ansätzen

  • Enhanced Naive Bayes (Agrawal & Srikant, WWW Conf. 2001)
  • Cluster Shrinkage, u.a. mit Transductive Support Vector Machines
  • „Co-Bootstrapping“
slide-75
SLIDE 75

Quellen

Agrawal, R. & Srikant, R. (2001). On integrating catalogs. In Proceedings of the 10th International World Wide Web Conference (WWW). Hong Kong, 2001, pp. 603- 612. Zhang, D. & Lee, W.S. (2004). Web Taxonomy Integration through Co-

  • Bootstrapping. In Proceedings of the 27th Annual International ACM SIGIR

Conference on Research and Development in Information Retrieval (SIGIR), Sheffield, UK, Jul 2004. Zhang, D. & Lee, W.S. (2004). Web Taxonomy Integration using Support Vector

  • Machines. In Proceedings of the 13th International World Wide Web Conference

(WWW), New York NY, US, May 2004.

slide-76
SLIDE 76

Anwendungsmöglicheiten in ETDs

slide-77
SLIDE 77

AGENDA

  • 1. Grundkonzepte
  • 2. Vor- und Nachteile
  • 1. Web Mining
  • 2. Semantic Web
  • 3. Semantic Web Mining – eine Vision
  • 4. Ein Mikrokosmos
  • 5. Bsp. 1: Web Usage
  • 6. Bsp. 2: Web Content
  • 7. Bsp. 3: Web Content
  • 8. Ausblick
slide-78
SLIDE 78

Exkurs: Semantic Web und Metakognition

  • http://vasarely.wiwi.hu-berlin.de/lehre/General/references_so_nicht.html
  • Alltagsblick auf die Realität – wissenschaftlicher Blick auf die Realität
  • „Kritisch reflektierende Haltung“ ggb. einer Quelle: Berücksichtigung

von Kontext, Konzepten / Weltbildern, Zielen und Methoden der AutorInnen

  • Google als Paradigma (Literatur Internet und zurück ...)

Berendt, Bettina (2003). Studentische Literaturarbeit in Zeiten des World Wide Web. In Brigitte Berendt, H.-P. Voss, & J. Wildt (Eds.), Neues Handbuch Hochschullehre (G3.3, pp. 1-30). Berlin.

References: Jesus Mena: Beyond the Shopping Cart http://www.intelligententerprise.com Allen S. Crane: Actionable E-Metrics http://www.intelligententerprise.com Gediminas Adomavicius; Alexander Tuzbilin: Using Data Mining Methods to Build Customer Profiles 2001 Matt Cutler, Jim Sterne: E metrics—Business Metrics for the New Economy Stephen Gomory, Robert Hoch, Juhnyoung Lee, Mark Podlaseck, Edith Schonberg: Analysis and Visualization of Metrics for Online Merchandising References: Jesus Mena: Beyond the Shopping Cart http://www.intelligententerprise.com Allen S. Crane: Actionable E-Metrics http://www.intelligententerprise.com Gediminas Adomavicius; Alexander Tuzbilin: Using Data Mining Methods to Build Customer Profiles 2001 Matt Cutler, Jim Sterne: E metrics—Business Metrics for the New Economy Stephen Gomory, Robert Hoch, Juhnyoung Lee, Mark Podlaseck, Edith Schonberg: Analysis and Visualization of Metrics for Online Merchandising

slide-79
SLIDE 79

Fazit

  • Web Mining kann Wissen aus dem Web destillieren
  • Das Semantic Web ist – in manchen Anwendungsbereichen –

möglich und wünschenswert

  • Das Semantic Web muss aus lokalen + heterogenen Teilen

bestehen; mapping ist zentral

  • Wo menschliche Intelligenz bedeutungstragende Strukturen ins

Web gebracht hat, kann dieses Wissen mit geeigneten Mining- Methoden extrahiert werden Semantic Web Mining ist möglich und nützlich!

slide-80
SLIDE 80

Dank an ...

Noppawan Bunyongasena Altug Kul Thomas Posner & Thomas Dammeier

(deren Seminarpräsentationsfolien zu Einzelergebnissen des EDOC-Projekts ich in dieser Präsentation verwendet habe)