c faloutsos
play

. ( - PowerPoint PPT Presentation

. ( C. Faloutsos)


  1. Αρχές Βάσεων Δεδομένων Β . Μεγαλοοικονόμου Δεικτοδότηση Πολυμέσων ( κάποιες διαφάνειες βασίζονται σε σημειώσεις του C. Faloutsos)

  2. Γενική Θεώρηση � Σχεσιακό μοντέλο – SQL, σχεδιασμός ΒΔ � Δεικτοδότηση , Q-opt, Επεξεργασία δοσοληψιών � Προχωρημένα θέματα � Κατανεμημένες Βάσεις � RAID � Authorization / Stat. DB � Spatial Access Methods � Δεικτοδότηση Πολυμέσων

  3. Πολυμέσα - λεπτομερώς � Πολυμέσα � Motivation / ορισμός προβλήματος � Κύρια ιδέα / time sequences � εικόνες � sub-pattern matching � Αυτόματη εξαγωγή χαρακτηριστικών / FastMap

  4. Πρόβλημα Δοθείσας μίας μεγάλης συλλογής ( πολυμεσικών ) εγγραφών ( πχ . μετοχές ) Επιτρέπει γρήγορα , ερωτήματα ομοιότητας

  5. Εφαρμογές � time series: χρηματοιοκονομικά , marketing (click-streams!), ECGs, ήχος ; � εικόνες : ιατρική , ψηφιακές βιβλιοθήκες , εκπαίδευση , τέχνη � higher-d σήματα : επιστημονικές ΒΔ ( πχ ., αστροφυσική ), ιατρική (MRI ακτινογραφίες ), ψυχαγωγία (video)

  6. Παραδείγματα Ερωτημάτων � Βρες ιατρικές υποθέσεις παρόμοιες και του κ . Παπαδόπουλου � Βρες ζεύγη μετοχών που κινούνται με συγχρονισμό � Βρες ζεύγη εγγράφων που είναι παρόμοια ( λογοκλοπία ;) � Βρες πρόσωπα παρόμοια με του ‘Tiger Woods’

  7. Λεπτομ . ορισμός προβλήματος : Πρόβλημα : � δοθείσας μιας συλλογής πολυμεσικών αντικειμένων , � βρες αυτά που είναι παρόμοια με ένα επιθυμητό αντικείμενο - ερώτημα � για παράδειγμα :

  8. τιμή τιμή 1 365 μέρα τιμή 1 365 μέρα συνάρτηση απόστασης : από ειδικό 1 365 ( πχ , Ευκλείδεια απόσταση ) μέρα

  9. Τύποι ερωτημάτων � Ολική ταύτιση εν . sub-pattern match � ερωτήματα εύρους εν . πλησιέστερων γειτόνων � όλα τα ζεύγη ερώτημα

  10. Στόχοι σχεδίου � Γρήγορα ( γρηγορότερα από σειρ . αναζήτηση ) � ‘ ορθό ’ ( πχ ., όχι ψεύτικοι συναγερμοί , όχι λάθος απορρίψεις )

  11. Πολυμέσα - λεπτομερώς � Πολυμέσα � Motivation / ορισμός προβλήματος � Κύρια ιδέα / time sequences � εικόνες � sub-pattern matching � Αυτόματη εξαγωγή χαρακτηριστικών / FastMap

  12. Κεντρική ιδέα � Πχ ., χρονικές ακολουθίες , ‘ ολική ταύτιση ’, ερωτήματα εύρους , Ευκλείδεια απόσταση τιμή τιμή 1 365 μέρα τιμή 1 365 μέρα 1 365 μέρα

  13. Κεντρική ιδέα � Η ακολουθιακή αναζήτηση δουλεύει – πώς γίνεται γρηγορότερα ;

  14. Ιδέα : ‘GEMINI’ (GEneric Multimedia INdexIng) Εξήγαγε μερικά αριθμητικά χαρακτηριστικά , για ‘ γρήγορο και πρόχειρο ’ έλεγχο

  15. ‘GEMINI’ - Παραστατικά πχ ,. std S1 F(S1) 1 365 μέρα F(Sn) Sn πχ , avg 1 365 μέρα

  16. GEMINI Λύση : ‘ Γρήγορο - και - πρόχειρο ' φίλτρο : � εξήγαγε n χαρακτηριστικά ( αριθμούς , πχ ., avg., κτλ .) � πρόβαλε σε ένα σημείο στο n -d χώρο χαρακτηριστικών � οργάνωσε τα σημεία με έτοιμη spatial access μέθοδο (‘SAM’) � Απόρριξε false alarms

  17. GEMINI Σημαντικό : Ε : πώς να εγγυηθεί απουσία ψευδών απορρίψεων ; A1: διατήρηση αποστάσεων ( αλλά : δύσκολο / ακατόρθωτο ) A2: Lower-bounding λήμμα : αν η αποτύπωση ‘ κάνει τα πράματα να εγγύτερα ’, τότε δεν υπάρχουν ψευδείς απορρίψεις

  18. GEMINI Σημαντικό : Q: how to extract features? A: “ if I have only one number to describe my object, what should this be ?”

  19. Time sequences Q: what features?

  20. Time sequences Q: what features? A: Fourier coefficients (we’ll see them in detail soon)

  21. Time sequences white noise brown noise Fourier spectrum ... in log-log

  22. Time sequences � Eg.:

  23. Time sequences � conclusion: colored noises are well approximated by their first few Fourier coefficients � colored noises appear in nature:

  24. Time sequences � brown noise: stock prices (1/f 2 energy spectrum) � pink noise: works of art (1/f spectrum) � black noises: water reservoirs (1/f b , b>2) � (slope: related to ‘Hurst exponent’, for self-similar traffic, like, eg. Ethernet/web [Schroeder], [Leland+]

  25. Time sequences - results � keep the first 2-3 Fourier coefficients � faster than seq. scan � NO false dismissals (see book) total time cleanup-time r-tree time # coeff. kept

  26. Time sequences - improvements: � improvements/variations: [Kanellakis+Goldin], [Mendelzon+Rafiei] � could use Wavelets, or DCT � could use segment averages [Yi+2000]

  27. Multimedia - Detailed outline � multimedia � Motivation / problem definition � Main idea / time sequences � images (color, shapes) � sub-pattern matching � automatic feature extraction / FastMap

  28. Images - color what is an image? A: 2-d array

  29. Images - color Color histograms, and distance function

  30. Images - color Mathematically, the distance function is:

  31. Images - color Problem: ‘cross-talk’: � Features are not orthogonal -> � SAMs will not work properly � Q: what to do? � A: feature-extraction question

  32. Images - color possible answers: � avg red, avg green, avg blue it turns out that this lower-bounds the histogram distance -> � no cross-talk � SAMs are applicable

  33. Images - color time performance: seq scan w/ avg RGB selectivity

  34. Multimedia - Detailed outline � multimedia � Motivation / problem definition � Main idea / time sequences � images (color; shape) � sub-pattern matching � automatic feature extraction / FastMap

  35. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: how to normalize them?

  36. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: how to normalize them? A: divide by standard deviation) �

  37. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: other ‘features’ / distance functions?

  38. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: other ‘features’ / distance functions? A1: turning angle � A2: dilations/erosions � A3: ... ) �

  39. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � Q: how to do dim. reduction?

  40. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � Q: how to do dim. reduction? � A: Karhunen-Loeve (= centered PCA/SVD)

  41. Images - shapes � Performance: ~10x faster log(# of I/Os) all kept # of features kept

  42. Case study: Informedia � Video database system, developed at CMU � 2+ TB of video data (broadcast news) � retrieval by text, image and face similarity www.informedia.cs.cmu.edu/

  43. Case study: Informedia � next foils: visualization features � by space � by time � by concept

  44. • geo mapping • automatic place recognition • ambiguity resol. + • lookup

  45. time line

  46. concept space

  47. Multimedia - Detailed outline � multimedia � Motivation / problem definition � Main idea / time sequences � images (color; shape) � sub-pattern matching � automatic feature extraction / FastMap

  48. Sub-pattern matching � Problem: find sub -sequences that match the given query pattern

  49. $price $price 1 400 day $price 1 365 30 day 1 300 day

  50. Sub-pattern matching � Q: how to proceed? � Hint: try to turn it into a ‘whole-matching’ problem (how?)

  51. Sub-pattern matching � Assume that queries have minimum duration w; (eg., w =7 days) � divide data sequences into windows of width w (overlapping, or not?)

  52. Sub-pattern matching � Assume that queries have minimum duration w; (eg., w =7 days) � divide data sequences into windows of width w (overlapping, or not?) � A: sliding, overlapping windows. Thus: trails Pictorially:

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend