Ad click fraud detection Christian Benson and Adam Thuvesen Problem - PowerPoint PPT Presentation

Apr 02, 2023 •564 likes •744 views

Ad click fraud detection Christian Benson and Adam Thuvesen Problem Ad click fraud Mobile Click fraud is a major issue for advertisers Pay per click ads The app creator (publisher) will profit from more clicks

Ad click fraud detection Christian Benson and Adam Thuvesen
Problem ● Ad click fraud ○ Mobile ● Click fraud is a major issue for advertisers ○ Pay per click ads ■ The app creator (publisher) will profit from more clicks ○ Fraudulent automated clicks ■ The advertiser loses
Problem ● How to detect a fraudulent click in a mobile app? ○ Using data from ad clicks
Dataset ● Dataset from Kaggle ● 7 features ○ ip (ip address) ○ app (mobile app) ○ device (type of device) ○ os (operating system) ○ channel (channel id of mobile ad publisher) ○ click time (ad was clicked) ○ attributed time (time of possible download) ○ is attributed (ad led to app download or not)
Dataset ● 187M entries ● Very unbalanced ○ 99.8 % negative samples (not downloaded)
Baseline ● Dummy ● k-NN ● SVM ● Logistic Regression ● Decision Trees ● Random Forest ● Metric ○ ROC-AUC
Architecture Download: 0.01 Raw features Model Training Prediction Not download: 0.99 Training data Test data ● Raw data is used to train model ● Using trained model to predict on test set
Idea ● Decision trees performed well ● Research in the area supported various ensemble of decision trees to be successful in similar problems ● Data preprocessing - extract new features ● Gradient boosted trees ○ Frameworks ■ XGB popular ■ Microsofts LGBM newly gaining attention ● Neural net
How it works - Decision Trees Ensemble of Decision Trees
How it works - Gradient Boosted Trees Gradient Boosted Trees ● Error = bias + variance
Data preprocessing ● Data preprocessing - extract new features ○ Unique occurrences ○ Total count ○ Cumulative count ○ Variance ○ Mean ○ Aggregation ○ Previous/next click ○ Time ● 23-30 features in total
Training ● Trained on 10M entries ● Models ○ Neural net with embedding layer ○ LGBM ○ XGB
Solution ● Feature Engineering ○ Create new features from existing ones ● Gradient Boosted Trees ○ XGB ○ LGBM ● Ensemble of LGBM and XGB models ● Neural net not performing quite as well
Ensemble ● Combining two or more models for better results ● Can be done in several ways ● Logarithmic average
Solution architecture LGBM model LGBM 1 training Prediction LGBM model LGBM 2 training Prediction Feature Ensemble Raw data engineering prediction XGB model 1 XGB training Prediction XGB model 2 XGB training Prediction Training data Test data
Results ● LGBM best model: 0.9784 ● XGB best model: 0.9733 ● Neural net best model: 0.9508 ● Logarithmic ensemble mix including the two best LGBM and the two best XGB: 0.9787
Thank you for listening!

Recommend

Fraud Overview Agenda Fraud Overview Fraud Triangle and Red Flags Fraud Prevention

Fraud Overview Agenda Fraud Overview Fraud Triangle and Red Flags Fraud Prevention Case Studies Our Commitment Spring ISD Source: ACFE & Fraud Overview What Is Fraud? Fraud is any intentional act or

405 views • 18 slides

Using text data to detect fraud Charlotte Werger Data Scientist DataCamp Fraud Detection in

DataCamp Fraud Detection in Python FRAUD DETECTION IN PYTHON Using text data to detect fraud Charlotte Werger Data Scientist DataCamp Fraud Detection in Python You will often encounter text data during fraud detection Types of useful text

755 views • 33 slides

Introduction to fraud detection Charlotte Werger Data Scientist DataCamp Fraud Detection in

DataCamp Fraud Detection in Python FRAUD DETECTION IN PYTHON Introduction to fraud detection Charlotte Werger Data Scientist DataCamp Fraud Detection in Python Meet your instructor Hi my name is Charlotte and I am a Data Scientist DataCamp

863 views • 25 slides

The Fraud Indicator in the UK Professor Mark Button Centre for Counter Fraud Studies Outline of

The Fraud Indicator in the UK Professor Mark Button Centre for Counter Fraud Studies Outline of Presentation General measures of fraud Past measurement of fraud The annual fraud indicator and fraud Theres no fraud here, Ive

684 views • 26 slides

Introduction & Motivation Bart Baesens Professor Data Science at KU Leuven DataCamp Fraud

DataCamp Fraud Detection in R FRAUD DETECTION IN R Introduction & Motivation Bart Baesens Professor Data Science at KU Leuven DataCamp Fraud Detection in R Instructors DataCamp Fraud Detection in R Instructors DataCamp Fraud

930 views • 67 slides

Fraud Prevention: The Prevention and Detection of Fraud Begins with You Takeaways What is

Fraud Prevention: The Prevention and Detection of Fraud Begins with You Takeaways What is fraud? Definition Facts Four factors Fraud risk assessment Four evaluation criteria Common fraud schemes Case studies

707 views • 60 slides

The F word: FRAUD Agenda About Internal Audit Audit team Internal Audit office overview

The F word: FRAUD Agenda About Internal Audit Audit team Internal Audit office overview Fraud and Fraud Schemes Define fraud Learn about different types of fraud and fraud schemes Fraud reporting methods Audit Team Corby

509 views • 32 slides

Normal versus abnormal behaviour Charlotte Werger Data Scientist DataCamp Fraud Detection in

DataCamp Fraud Detection in Python FRAUD DETECTION IN PYTHON Normal versus abnormal behaviour Charlotte Werger Data Scientist DataCamp Fraud Detection in Python Fraud detection without labels Using unsupervised learning to distinguish

820 views • 33 slides

Review of classification methods for fraud detection Charlotte Werger Data Scientist DataCamp

DataCamp Fraud Detection in Python FRAUD DETECTION IN PYTHON Review of classification methods for fraud detection Charlotte Werger Data Scientist DataCamp Fraud Detection in Python What is classification? Goal of classification: Use known

470 views • 30 slides

Click on M odel File for CAD Click on M odel File for CAD Click on Model File for CAD Click

Click on M odel File for CAD Click on M odel File for CAD Click on Model File for CAD Click on Model File for CAD Click on File for CAD Click on Size File for CAD Click on Size File for CAD Click on Size File for CAD

642 views • 39 slides

Risky Business: How Companies Fall Victim to Fraud Presented by: Tony Okray Julie Latchaw

6/5/2016 Risky Business: How Companies Fall Victim to Fraud Presented by: Tony Okray Julie Latchaw Julie Lombardi Member FDIC Agenda: Fraud Statistics Fun With Numbers Check Fraud & ACH Fraud Your Role in Preventing Fraud Fraud

238 views • 13 slides

Duy H. Ho , Raj Marri , Sirisha Rella , Yugyung Lee University of Missouri Kansas City Click

Duy H. Ho , Raj Marri , Sirisha Rella , Yugyung Lee University of Missouri Kansas City Click to add text Click to add text Click to add text Click to add text Click to add text Click to add text Click to add text Click to add text Click

738 views • 20 slides

Outlier Detection Motivation: Fraud Detection http://i.imgur.com/ckkoAOp.gif Jian Pei: CMPT

Outlier Detection Motivation: Fraud Detection http://i.imgur.com/ckkoAOp.gif Jian Pei: CMPT 741/459 Data Mining -- Outlier Detection (1) 2 Techniques: Fraud Detection Features Dissimilarity Groups and noise

878 views • 30 slides

Catch them in the Act Fraud Detection in Real-time Seshika Fernando Technical Lead Fraud: A

Catch them in the Act Fraud Detection in Real-time Seshika Fernando Technical Lead Fraud: A Trillion Dollar Problem Survey results $ 3.5 4 Trillion in Global Losses per year (5% of Global GDP) Payment Fraud Only Merchants are

781 views • 25 slides

Detection of neutral particles detection of neutrons detection of neutrinons detection of low

Detection of neutral particles detection of neutrons detection of neutrinons detection of low energy photons (detection of high energy photons calorimeters) Peter Krizan, Neutron and neutrino detection Detection of neutral particles

1.21k views • 67 slides

Data Mining for Potential Voter Fraud Findings and Recommendations Does voter fraud exist?

Data Mining for Potential Voter Fraud Findings and Recommendations Does voter fraud exist? Most studies dont look for fraud No government agency is looking for voter fraud Getting data from all 50 states is very difficult If you

562 views • 16 slides

The Pompeii Bibliography and Mapping Project: A new Resource for Pompeii, a new Model Complex

The Pompeii Bibliography and Mapping Project: A new Resource for Pompeii, a new Model Complex for Classical Sites Has it been done before? How do I do it? But 15,000+ total citations Pic of GYG (Was) Hard to access: expensive

428 views • 19 slides

Mailing List Discussion: ppvpn@ppvpn.francetelecom.com (Un)Subscribe:

Chair(s): Rick Wilder rwilder@masergy.com Marco Carugi marco.carugi@francetelecom.com Mailing List Discussion: ppvpn@ppvpn.francetelecom.com (Un)Subscribe: sympa@ppvpn.francetelecom.com (UN)SUBSCRIBE ppvpn in the body

764 views • 16 slides

The Better Care Exchange 30 th April 2015 Plan for the session Thanks for joining the webinar to

The Better Care Exchange 30 th April 2015 Plan for the session Thanks for joining the webinar to launch the Better Care Exchange! Were really excited to share information about the tool and discuss how it can help you to deliver better care.

611 views • 22 slides

Document-oriented Prover Interaction with Isabelle/PIDE Makarius Wenzel Univ. Paris-Sud,

Document-oriented Prover Interaction with Isabelle/PIDE Makarius Wenzel Univ. Paris-Sud, Laboratoire LRI December 2013 Project Paral-ITP ANR-11-INSE-001 Abstract LCF-style proof assistants like Coq, HOL, and Isabelle have been traditionally

500 views • 35 slides

The security and fraud exemp3ons in DNT Christopher Soghoian

The security and fraud exemp3ons in DNT Christopher Soghoian Security and fraud exemp3ons can undermine data reten3on policies: Ex. Yahoo The

283 views • 4 slides

Real-Time Bidding & Behavioral Targeting Weinan Zhang Shanghai Jiao Tong University

2019 EE448, Big Data Mining, Lecture 12 Real-Time Bidding & Behavioral Targeting Weinan Zhang Shanghai Jiao Tong University http://wnzhang.net http://wnzhang.net/teaching/ee448/index.html Content of This Course Real-time bidding based

979 views • 69 slides

Botnet Detection and Response The Network is the Infection David Dagon dagon@cc.gatech.edu

Motivation/Overview Taxonomy Detection Response Botnet Detection and Response The Network is the Infection David Dagon dagon@cc.gatech.edu Georgia Institute of Technology College of Computing OARC Workshop, 2005 David Dagon Botnet

675 views • 45 slides

Combating Click Fraud Using Premium Clicks Sid Stamm , RavenWhite Inc. and Indiana University

Combating Click Fraud Using Premium Clicks Sid Stamm , RavenWhite Inc. and Indiana University Joint Work With Ari Juels , RSA Laboratories, RSA/EMC Corp Markus Jakobsson , RavenWhite Inc. Research Performed at RavenWhite Inc. 1 Click

600 views • 46 slides