Collaborative Filtering at Scale Recommender engines with Mahout and - PowerPoint PPT Presentation

Collaborative Filtering at Scale Recommender engines with Mahout and Hadoop Berlin Buzzwords Sean Owen 8 June 2010

+ Mahout is … ! Machine learning … ! Collaborative filtering (recommenders) ! Clustering ! Classification ! Frequent item set mining ! and more ! … at scale ! Much implemented on Hadoop ! Efficient data structures Collaborative Filtering at Scale

+ Collaborative Filtering is … ! Given a user’s preferences for items , guess which other items would be highly preferred ! Only needs preferences; users and items opaque ! Many algorithms! Collaborative Filtering at Scale

+ Collaborative Filtering is … Sean likes “Scarface” a lot (123,654,5.0) � Robin likes “Scarface” somewhat (789,654,3.0) � Grant likes “The Notebook” not at all (345,876,1.0) � … … � Magic Grant may like “Scarface” quite a bit (345,654,4.5) � … … � Collaborative Filtering at Scale

+ Recommending people food Collaborative Filtering at Scale

+ Item-Based Algorithm ! Recommend items similar to a user’s highly-preferred items Collaborative Filtering at Scale

+ Item-Based Algorithm ! Have user’s preference for items ! Know all items and can compute weighted average to estimate user’s preference ! What is the item – item similarity notion? for every item i that u has no preference for yet � for every item j that u has a preference for � compute a similarity s between i and j � add u's preference for j, weighted by s, � to a running average � return the top items, ranked by weighted average � Collaborative Filtering at Scale

+ Item-Item Similarity ! Could be based on content… ! Two foods similar if both sweet, both cold ! BUT in collaborative filtering, based only on preferences (numbers) ! Pearson correlation between ratings ? ! Log-likelihood ratio ? ! Simple co-occurrence : Items similar when appearing often in the same user’s set of preferences Collaborative Filtering at Scale

+ Estimating preference Preference 9 Co-occurrence 5 16 5 5 2 4.5 = 5•9 + 5•16 + 2•5 135 = 9 + 16 + 5 30 Collaborative Filtering at Scale

+ As matrix math ! User’s preferences are a vector ! Each dimension corresponds to one item ! Dimension value is the preference value ! Item-item co-occurrences are a matrix ! Row i / column j is count of item i / j co-occurrence ! Estimating preferences: co-occurrence matrix ! preference (column) vector Collaborative Filtering at Scale

+ As matrix math 16 animals ate both hot dogs and ice cream 16 9 16 5 6 0 135 9 30 19 3 2 5 251 16 19 23 5 4 5 220 60 5 3 5 10 20 2 70 6 2 4 20 9 0 10 animals ate blueberries Collaborative Filtering at Scale

+ A different way to multiply ! Normal : for each row of matrix ! Multiply (dot) row with column vector ! Yields scalar: one final element of recommendation vector ! Inside-out : for each element of column vector ! Multiply (scalar) with corresponding matrix column ! Yield column vector: parts of final recommendation vector ! Sum those to get result ! Can skip for zero vector elements! Collaborative Filtering at Scale

+ As matrix math, again 9 16 5 135 30 19 3 251 5 5 2 19 23 5 220 3 5 10 60 2 4 20 70 Collaborative Filtering at Scale

+ What is MapReduce? ! 1 Input is a series of key-value pairs: (K1,V1) ! 2 map() function receives these, outputs 0 or more (K2, V2) ! 3 All values for each K2 are collected together ! 4 reduce() function receives these, outputs 0 or more (K3,V3) ! Very distributable and parallelizable ! Most large-scale problems can be chopped into a series of such MapReduce jobs Collaborative Filtering at Scale

+ Build user vectors (mapper) ! Input is text file: user,item,preference � ! Mapper receives ! K1 = file position (ignored) ! V1 = line of text file ! Mapper outputs, for each line ! K2 = user ID ! V2 = (item ID, preference) Collaborative Filtering at Scale

+ Build user vectors (reducer) ! Reducer receives ! K2 = user ID ! V2,… = (item ID, preference), … ! Reducer outputs ! K3 = user ID ! V3 = Mahout Vector implementation ! Mahout provides custom Writable implementations for efficient Vector storage Collaborative Filtering at Scale

+ Count co-occurrence (mapper) ! Mapper receives ! K1 = user ID ! V1 = user Vector ! Mapper outputs, for each pair of items ! K2 = item ID ! V2 = other item ID Collaborative Filtering at Scale

+ Count co-occurrence (reducer) ! Reducer receives ! K2 = item ID ! V2,… = other item ID, … ! Reducer tallies each other item; creates a Vector ! Reducer outputs ! K3 = item ID ! V3 = column of co-occurrence matrix as Vector Collaborative Filtering at Scale

+ Partial multiply (mapper #1) ! Mapper receives ! K1 = user ID ! V1 = user Vector ! Mapper outputs, for each item ! K2 = item ID ! V2 = (user ID, preference) Collaborative Filtering at Scale

+ Partial multiply (mapper #2) ! Mapper receives ! K1 = item ID ! V1 = co-occurrence matrix column Vector ! Mapper outputs ! K2 = item ID ! V2 = co-occurrence matrix column Vector Collaborative Filtering at Scale

+ Partial multiply (reducer) ! Reducer receives ! K2 = item ID ! V2,… = (user ID, preference), … and co-occurrence matrix column Vector ! Reducer outputs, for each item ID ! K3 = item ID ! V3 = column vector and (user ID, preference) pairs Collaborative Filtering at Scale

+ Aggregate (mapper) ! Mapper receives ! K1 = item ID ! V1 = column vector and (user ID, preference) pairs ! Mapper outputs, for each user ID ! K2 = user ID ! V2 = column vector times preference Collaborative Filtering at Scale

+ Aggregate (reducer) ! Reducer receives ! K2 = user ID ! V2,… = partial recommendation vectors ! Reducer sums to make recommendation Vector and finds top n values ! Reducer outputs, for top value ! K3 = user ID ! V3 = (item ID, value) Collaborative Filtering at Scale

+ Reality is a bit more complex Collaborative Filtering at Scale

+ Ready to try ! Obtain and build Mahout from Subversion http://mahout.apache.org/versioncontrol.html ! Set up, run Hadoop in local pseudo-distributed mode ! Copy input into local HDFS ! hadoop jar mahout-0.4-SNAPSHOT.job   org.apache.mahout.cf.taste.hadoop.item.RecommenderJob   -Dmapred.input.dir=input   -Dmapred.output.dir=output � Collaborative Filtering at Scale

+ Mahout in Action ! Recommenders ! Data representation ! Non-distributed algorithms ! Distributed algorithms ! Clustering ! Available in weeks ! Classification ! In progress ! http://www.manning.com/owen/ Collaborative Filtering at Scale

+ Questions? ! Gmail: srowen ! user@mahout.apache.org ! http://mahout.apache.org Collaborative Filtering at Scale

Collaborative Filtering at Scale Recommender engines with Mahout and - PowerPoint PPT Presentation

Collaborative Filtering at Scale Recommender engines with Mahout and Hadoop Berlin Buzzwords Sean Owen 8 June 2010 + Mahout is ! Machine learning ! Collaborative filtering (recommenders) ! Clustering ! Classification ! Frequent item set

CS490W: What is Collaborative Filtering? Collaborative Filtering (CF): Making recommendation

Filtering Cubemaps Filtering Cubemaps Angular Extent Filtering and Edge Seam Fixup Methods

Traffic Control Mechanisms Filtering Source address filtering Other forms of filtering

Lesson 7 Rate Conversion Filtering and Downsampling interchange Filtering and Upsampling

Collaborative Filtering Yun-Ta Tsai 1 , Markus Steinberger 2 , Dawid Pajk 3 , Kari Pulli 4 1

Collaborative Filtering Presentation by Alex Hugger Filtering Documents Mittwoch, 28. April 2010

aHomestake Array and Wiener Filtering Array Coherence Wiener Filtering Velocity Measurements

Least-Action Filtering L. C. G. Rogers Statistical Laboratory, University of Cambridge

The Filtering Matrix Interrogating Internet Filtering and Surveillance Practices Worldwide Nart

Statistical Filtering and Control for AI and Robotics Part I. Bayes filtering Riccardo Muradore

1 An Filtering System that Monitors Document Search Engines Can Help, But Not Enough!

FILTERING MACROECONOMIC DATA WienerKolmogorov Filtering of Stationary Sequences The classical

ECE 516: Adaptive Digital Filters Lecture 8 (Kalman Filtering) Mojtaba Soltanalian Kalman

Nonlinear Filtering using Particles and Outline Nonlinear Quadrature Filtering Monte Carlo

ADVANCED TOPICS ON VIDEO PROCESSING Image Spatial Processing Image Spatial Processing FILTERING

Training deep Autoencoders for collaborative filtering Oleksii Kuchaiev & Boris Ginsburg

Item-based vs User-based Collaborative Recommendation Predictions Joel Azzopardi Department of

Recommender Systems Jee-Hyong Lee Information & Intelligence System Lab. Department of

Divide and Conquer: Counting Inversions Rank Analysis Collaborative filtering matches

COMP9313: Big Data Management Recommender System Source from Dr. Xin Cao Recommendations

FXPAL at TRECvid 2007 Collaborative Exploratory Search Collaborative search is overloaded

Cooperative Learning for Everyone Presented by: Debbie Silver, Ed.D.

Classroom-Tested Strategies for Overcoming Student Resistance to Active Learning Connect your

Ac tive Co lla b o ra tive L e a rning a nd F a c ulty De ve lo pme nt in the Re de sig n o

Collaborative Filtering at Scale Recommender engines with Mahout and - PowerPoint PPT Presentation

Collaborative Filtering at Scale Recommender engines with Mahout and Hadoop Berlin Buzzwords Sean Owen 8 June 2010 + Mahout is ! Machine learning ! Collaborative filtering (recommenders) ! Clustering ! Classification ! Frequent item set

CS490W: What is Collaborative Filtering? Collaborative Filtering (CF): Making recommendation

Filtering Cubemaps Filtering Cubemaps Angular Extent Filtering and Edge Seam Fixup Methods

Traffic Control Mechanisms Filtering Source address filtering Other forms of filtering

Lesson 7 Rate Conversion Filtering and Downsampling interchange Filtering and Upsampling

Collaborative Filtering Yun-Ta Tsai 1 , Markus Steinberger 2 , Dawid Pajk 3 , Kari Pulli 4 1

Collaborative Filtering Presentation by Alex Hugger Filtering Documents Mittwoch, 28. April 2010

aHomestake Array and Wiener Filtering Array Coherence Wiener Filtering Velocity Measurements

Least-Action Filtering L. C. G. Rogers Statistical Laboratory, University of Cambridge

The Filtering Matrix Interrogating Internet Filtering and Surveillance Practices Worldwide Nart

Statistical Filtering and Control for AI and Robotics Part I. Bayes filtering Riccardo Muradore

1 An Filtering System that Monitors Document Search Engines Can Help, But Not Enough!

FILTERING MACROECONOMIC DATA WienerKolmogorov Filtering of Stationary Sequences The classical

ECE 516: Adaptive Digital Filters Lecture 8 (Kalman Filtering) Mojtaba Soltanalian Kalman

Nonlinear Filtering using Particles and Outline Nonlinear Quadrature Filtering Monte Carlo

ADVANCED TOPICS ON VIDEO PROCESSING Image Spatial Processing Image Spatial Processing FILTERING

Training deep Autoencoders for collaborative filtering Oleksii Kuchaiev &amp; Boris Ginsburg

Item-based vs User-based Collaborative Recommendation Predictions Joel Azzopardi Department of

Recommender Systems Jee-Hyong Lee Information &amp; Intelligence System Lab. Department of

Divide and Conquer: Counting Inversions Rank Analysis Collaborative filtering matches

COMP9313: Big Data Management Recommender System Source from Dr. Xin Cao Recommendations

FXPAL at TRECvid 2007 Collaborative Exploratory Search Collaborative search is overloaded

Cooperative Learning for Everyone Presented by: Debbie Silver, Ed.D.

Classroom-Tested Strategies for Overcoming Student Resistance to Active Learning Connect your

Ac tive Co lla b o ra tive L e a rning a nd F a c ulty De ve lo pme nt in the Re de sig n o

Training deep Autoencoders for collaborative filtering Oleksii Kuchaiev & Boris Ginsburg

Recommender Systems Jee-Hyong Lee Information & Intelligence System Lab. Department of