Allan Oliveira | allan@chaordic.com.br
Sai Hadoop, entra Spark
Domando o Big Data no dia a dia
Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan - - PowerPoint PPT Presentation
Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan Oliveira | allan @chaordic .com.br tpico 1 Emails personalizados Campanha Reduo de Preo Campanha Indecisos O Desafio dos Emails Personalizados Pageviews +600
Allan Oliveira | allan@chaordic.com.br
Sai Hadoop, entra Spark
Domando o Big Data no dia a dia
tópico 1
Emails personalizados
Campanha Redução de Preço
Campanha Indecisos
O Desafio dos Emails Personalizados
Pageviews
Usuários
Evolução de uma arquitetura de emails personalizados
tópico 2
Evolução da arquitetura
A base de tudo
Evolução da arquitetura
A base de tudo
Evolução da arquitetura
A base de tudo
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
O início da história
Evolução da arquitetura
Quando o Hadoop chegou
Evolução da arquitetura
Quando o Hadoop chegou
Evolução da arquitetura
Quando o Hadoop chegou
Evolução da arquitetura
Quando o Hadoop chegou
Evolução da arquitetura
Quando o Hadoop chegou
Evolução da arquitetura
Quando o Hadoop chegou
tópico 3
Sparkgasm!
Uma só plataforma para todos os seus problemas
Sparkgasm!
Uma só plataforma para todos os seus problemas
Sparkgasm!
Uma só plataforma para todos os seus problemas
Sparkgasm!
Uma só plataforma para todos os seus problemas
Sparkgasm!
Uma só plataforma para todos os seus problemas
Sparkgasm!
Como Spark é mais rápido que Hadoop
1 6.75 11 82.5
As dificuldades ao se usar o Spark
tópico 4
Hadoop-client O presente de grego para o Spark
Bugs do Spark
Bugs do Spark
Ignition: o nosso aprendizado
tópico 5
Ignition-Template
Job Runner: Advanced Cluster Control Job/Setup Organization Examples
Ignition-Core
Cluster Management & Job Execution Multi-Setup Runner Utilitary Functions
Projetos open-source da Chaordic
github.com/chaordic/ignition-template github.com/chaordic/ignition-core
montando um cluster robusto
Algoritmo
Puro I/O
Setups
Mail Builder Setup Non-realtime Setup Realtime SetupSem efeitos colaterais! Puro I/O
Setups Jobs
Mail Builder Setup Non-realtime Setup Realtime Setup Mail Builder Job User History Job Entities Update Job Campaign A JobSem efeitos colaterais! Puro I/O
Setups Jobs Reusable Libraries
Mail Builder Setup Non-realtime Setup Realtime Setup Mail Builder Job User History Job Entities Update Job Campaign A Job Mail-team library Chaordic library Realtime Setup Ignition-corecomo a não-saída é tão importante quanto a saída
Success!
(Email) Validated Rec Products Validated Base Products
Success Product Success Product Failed Product Reason Failed Product Reason Success Product Success Product Success Product Failed Product Reason
Failure
(Email Reason) Validated Rec Products Reference Validated Base Products Reference
Failed Product Reason Failed Product Reason Failed Product Reason Failed Product Reason Success Product Success Product Failed Product Reason Failed Product Reason
Reason: numberOfValidRecommendationsIsLessThanMinimum
lidando com dados
mal-comportados
Dado normal
Dados enviesados
Outliers: os vilões
Tratando outliers
rdd.groupByKey()
Tratando outliers
rdd.groupByKey()
Tratando outliers
rdd.groupByKey() rdd.groupByKeyAndTake(max)
Batches near-realtime com Secor, Kafka e S3
S3 http://github.com/pinterest/secor
Venha aprender junto com a gente!
monkeys.chaordic.com.br github.com/chaordic allan@chaordic.com.br #QCONBIGDATA