Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan - - PowerPoint PPT Presentation

sai hadoop entra spark
SMART_READER_LITE
LIVE PREVIEW

Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan - - PowerPoint PPT Presentation

Sai Hadoop, entra Spark Domando o Big Data no dia a dia Allan Oliveira | allan @chaordic .com.br tpico 1 Emails personalizados Campanha Reduo de Preo Campanha Indecisos O Desafio dos Emails Personalizados Pageviews +600


slide-1
SLIDE 1

Allan Oliveira | allan@chaordic.com.br

Sai Hadoop, entra Spark

Domando o Big Data no dia a dia

slide-2
SLIDE 2

tópico 1

Emails personalizados

slide-3
SLIDE 3

Campanha Redução de Preço

slide-4
SLIDE 4

Campanha Indecisos

slide-5
SLIDE 5

O Desafio dos Emails Personalizados

slide-6
SLIDE 6

+600

milhões

Pageviews

slide-7
SLIDE 7

Usuários

+42

milhões

slide-8
SLIDE 8
slide-9
SLIDE 9
slide-10
SLIDE 10

Evolução de uma arquitetura de emails personalizados

tópico 2

slide-11
SLIDE 11

Evolução da arquitetura

A base de tudo

slide-12
SLIDE 12

Evolução da arquitetura

A base de tudo

slide-13
SLIDE 13

Evolução da arquitetura

A base de tudo

slide-14
SLIDE 14

Evolução da arquitetura

O início da história

slide-15
SLIDE 15

Evolução da arquitetura

O início da história

slide-16
SLIDE 16

Evolução da arquitetura

O início da história

slide-17
SLIDE 17

Evolução da arquitetura

O início da história

slide-18
SLIDE 18

Evolução da arquitetura

O início da história

slide-19
SLIDE 19

Evolução da arquitetura

O início da história

slide-20
SLIDE 20

Evolução da arquitetura

O início da história

slide-21
SLIDE 21

Evolução da arquitetura

O início da história

slide-22
SLIDE 22

Evolução da arquitetura

O início da história

slide-23
SLIDE 23

Evolução da arquitetura

O início da história

slide-24
SLIDE 24

Evolução da arquitetura

Quando o Hadoop chegou

slide-25
SLIDE 25

Evolução da arquitetura

Quando o Hadoop chegou

slide-26
SLIDE 26

Evolução da arquitetura

Quando o Hadoop chegou

slide-27
SLIDE 27

Evolução da arquitetura

Quando o Hadoop chegou

slide-28
SLIDE 28

Evolução da arquitetura

Quando o Hadoop chegou

slide-29
SLIDE 29

Evolução da arquitetura

Quando o Hadoop chegou

slide-30
SLIDE 30

gasm

tópico 3

slide-31
SLIDE 31

Sparkgasm!

Uma só plataforma para todos os seus problemas

slide-32
SLIDE 32

Sparkgasm!

Uma só plataforma para todos os seus problemas

slide-33
SLIDE 33

Sparkgasm!

Uma só plataforma para todos os seus problemas

slide-34
SLIDE 34

Sparkgasm!

Uma só plataforma para todos os seus problemas

slide-35
SLIDE 35

Sparkgasm!

Uma só plataforma para todos os seus problemas

slide-36
SLIDE 36

Sparkgasm!

Como Spark é mais rápido que Hadoop

1 6.75 11 82.5

slide-37
SLIDE 37

As dificuldades ao se usar o Spark

tópico 4

slide-38
SLIDE 38

Hadoop-client O presente de grego para o Spark

slide-39
SLIDE 39

Bugs do Spark

slide-40
SLIDE 40

Bugs do Spark

slide-41
SLIDE 41
  • peração necessita

investimento

slide-42
SLIDE 42

Ignition: o nosso aprendizado

tópico 5

slide-43
SLIDE 43

Ignition-Template

Job Runner: Advanced Cluster Control Job/Setup Organization Examples

Ignition-Core

Cluster Management & Job Execution Multi-Setup Runner Utilitary Functions

Projetos open-source da Chaordic

github.com/chaordic/ignition-template github.com/chaordic/ignition-core

slide-44
SLIDE 44

montando um cluster robusto

slide-45
SLIDE 45

Algoritmo

  • Escolher a melhor máquina na melhor AZ cujo preço spot não é muito volátil;
  • Levantar o cluster;
  • Fazer um teste de sanidade no cluster;
  • Rodar o Job (1 ou infinitas vezes);
  • Quando falhar, refazer teste de sanidade;
  • Recriar cluster caso teste de sanidade falhe, usando uma AZ/máquina diferente.
slide-46
SLIDE 46
  • rganizando

projetos

slide-47
SLIDE 47

Puro I/O

Setups

Mail Builder Setup Non-realtime Setup Realtime Setup
slide-48
SLIDE 48

Sem efeitos colaterais! Puro I/O

Setups Jobs

Mail Builder Setup Non-realtime Setup Realtime Setup Mail Builder Job User History Job Entities Update Job Campaign A Job
slide-49
SLIDE 49

Sem efeitos colaterais! Puro I/O

Setups Jobs Reusable Libraries

Mail Builder Setup Non-realtime Setup Realtime Setup Mail Builder Job User History Job Entities Update Job Campaign A Job Mail-team library Chaordic library Realtime Setup Ignition-core
slide-50
SLIDE 50

como a não-saída é tão importante quanto a saída

slide-51
SLIDE 51

Success!

(Email) Validated Rec Products Validated Base Products

Success Product Success Product Failed Product Reason Failed Product Reason Success Product Success Product Success Product Failed Product Reason

slide-52
SLIDE 52

Failure

(Email Reason) Validated Rec Products Reference Validated Base Products Reference

Failed Product Reason Failed Product Reason Failed Product Reason Failed Product Reason Success Product Success Product Failed Product Reason Failed Product Reason

Reason: numberOfValidRecommendationsIsLessThanMinimum

slide-53
SLIDE 53
slide-54
SLIDE 54

lidando com dados

mal-comportados

slide-55
SLIDE 55

Dado normal

slide-56
SLIDE 56

Dados enviesados

slide-57
SLIDE 57

Outliers: os vilões

slide-58
SLIDE 58

Tratando outliers

rdd.groupByKey()

slide-59
SLIDE 59

Tratando outliers

rdd.groupByKey()

slide-60
SLIDE 60

Tratando outliers

rdd.groupByKey() rdd.groupByKeyAndTake(max)

slide-61
SLIDE 61

Batches near-realtime com Secor, Kafka e S3

S3 http://github.com/pinterest/secor

slide-62
SLIDE 62
slide-63
SLIDE 63

Venha aprender junto com a gente!

monkeys.chaordic.com.br github.com/chaordic allan@chaordic.com.br #QCONBIGDATA