 
              Probability ¡and ¡Informa0on ¡ 270C ¡
Defini0on ¡of ¡Probability ¡ • Experiment : ¡toss ¡a ¡coin ¡twice ¡ • Sample ¡space : ¡possible ¡outcomes ¡of ¡an ¡experiment ¡ – S ¡= ¡{HH, ¡HT, ¡TH, ¡TT} ¡ • Event : ¡a ¡subset ¡of ¡possible ¡outcomes ¡ – A={HH}, ¡B={HT, ¡TH} ¡ • Probability ¡of ¡an ¡event ¡ : ¡an ¡number ¡assigned ¡to ¡an ¡ event ¡Pr(A) ¡ – Axiom ¡1: ¡Pr(A) ¡ ≥ ¡0 ¡ – Axiom ¡2: ¡Pr(S) ¡= ¡1 ¡ – Axiom ¡3: ¡For ¡every ¡sequence ¡of ¡disjoint ¡events ¡ – Example: ¡Pr(A) ¡= ¡n(A)/N: ¡frequen0st ¡sta0s0cs ¡
Random ¡Variable ¡and ¡Distribu0on ¡ • A ¡ random ¡variable ¡X ¡ is ¡a ¡numerical ¡outcome ¡of ¡a ¡ random ¡experiment ¡ • The ¡ distribu9on ¡ of ¡a ¡random ¡variable ¡is ¡the ¡collec0on ¡ of ¡possible ¡outcomes ¡along ¡with ¡their ¡probabili0es: ¡ ¡ – Discrete ¡case: ¡ – Con0nuous ¡case: ¡ ¡
Random ¡Variable: ¡Example ¡ • Let ¡S ¡be ¡the ¡set ¡of ¡all ¡sequences ¡of ¡three ¡rolls ¡of ¡a ¡ die. ¡Let ¡X ¡be ¡the ¡sum ¡of ¡the ¡number ¡of ¡dots ¡on ¡the ¡ three ¡rolls. ¡ • What ¡are ¡the ¡possible ¡values ¡for ¡X? ¡ • Pr(X ¡= ¡5) ¡= ¡?, ¡Pr(X ¡= ¡10) ¡= ¡? ¡
Expecta0on ¡ • A ¡random ¡variable ¡X~Pr(X=x). ¡Then, ¡its ¡expecta0on ¡is ¡ ¡ ¡ ¡ – In ¡an ¡empirical ¡sample, ¡x1, ¡x2,…, ¡xN, ¡ ¡ • Con0nuous ¡case: ¡ • ¡Expecta0on ¡of ¡sum ¡of ¡random ¡variables ¡
Expecta0on: ¡Example ¡ • Let ¡S ¡be ¡the ¡set ¡of ¡all ¡sequence ¡of ¡three ¡rolls ¡of ¡a ¡die. ¡ Let ¡X ¡be ¡the ¡sum ¡of ¡the ¡number ¡of ¡dots ¡on ¡the ¡three ¡ rolls. ¡ • What ¡is ¡E(X)? ¡ • Let ¡S ¡be ¡the ¡set ¡of ¡all ¡sequence ¡of ¡three ¡rolls ¡of ¡a ¡die. ¡ Let ¡X ¡be ¡the ¡product ¡of ¡the ¡number ¡of ¡dots ¡on ¡the ¡ three ¡rolls. ¡ • What ¡is ¡E(X)? ¡
Variance ¡ • The ¡variance ¡of ¡a ¡random ¡variable ¡X ¡is ¡the ¡ expecta0on ¡of ¡(X-‑E[x]) 2 ¡: ¡
Bernoulli ¡Distribu0on ¡ • The ¡outcome ¡of ¡an ¡experiment ¡can ¡either ¡be ¡success ¡ (i.e., ¡1) ¡and ¡failure ¡(i.e., ¡0). ¡ • Pr(X=1) ¡= ¡p, ¡Pr(X=0) ¡= ¡1-‑p, ¡or ¡ • E[X] ¡= ¡p, ¡Var(X) ¡= ¡p(1-‑p) ¡
Binomial ¡Distribu0on ¡ • n ¡draws ¡of ¡a ¡Bernoulli ¡distribu0on ¡ – X i ~Bernoulli(p), ¡X= ∑ i=1 n ¡ X i , ¡X~Bin(p, ¡n) ¡ • Random ¡variable ¡X ¡stands ¡for ¡the ¡number ¡of ¡0mes ¡ that ¡experiments ¡are ¡successful. ¡ • E[X] ¡= ¡np, ¡Var(X) ¡= ¡np(1-‑p) ¡
Plots ¡of ¡Binomial ¡Distribu0on ¡
Poisson ¡Distribu0on ¡ • Coming ¡from ¡Binomial ¡distribu0on ¡ – Fix ¡the ¡expecta0on ¡ λ =np ¡ – Let ¡the ¡number ¡of ¡trials ¡n →∞ ¡ A ¡Binomial ¡distribu0on ¡will ¡become ¡a ¡Poisson ¡distribu0on ¡ • E[X] ¡= ¡ λ , ¡Var(X) ¡= ¡ λ ¡
Plots ¡of ¡Poisson ¡Distribu0on ¡
Normal ¡(Gaussian) ¡Distribu0on ¡ • X~N( µ , σ ) ¡ • E[X]= ¡ µ , ¡Var(X)= ¡ σ 2 ¡ • If ¡X 1 ~N( µ 1 , σ 1 ) ¡and ¡X 2 ~N( µ 2 , σ 2 ), ¡X= ¡X 1 + ¡X 2 ¡ ? ¡
Joint ¡Probability ¡ • For ¡events ¡A ¡and ¡B, ¡ joint ¡probability ¡Pr(AB) ¡ stands ¡for ¡the ¡probability ¡that ¡both ¡events ¡ happen. ¡ • Example: ¡A={HH}, ¡B={HT, ¡TH}, ¡what ¡is ¡the ¡joint ¡ probability ¡Pr(AB)? ¡
Independence ¡ • Two ¡events ¡ A ¡and ¡B ¡are ¡independent ¡in ¡case ¡ ¡ ¡ ¡Pr(AB) ¡= ¡Pr(A)Pr(B) ¡ • A ¡set ¡of ¡events ¡{A i } ¡is ¡independent ¡in ¡case ¡
Condi0oning ¡ • If ¡A ¡and ¡B ¡are ¡events ¡with ¡Pr(A) ¡> ¡0, ¡the ¡ condi9onal ¡ probability ¡of ¡B ¡given ¡A ¡is ¡
Condi0onal ¡Independence ¡ • Event ¡A ¡and ¡B ¡are ¡ condi9onally ¡independent ¡given ¡C ¡ in ¡case ¡ ¡ ¡ ¡Pr(AB|C)=Pr(A|C)Pr(B|C) ¡ • A ¡set ¡of ¡events ¡{A i } ¡is ¡condi0onally ¡independent ¡given ¡ C ¡in ¡case ¡ ¡ ¡ ¡
Bayes’ ¡Rule ¡ Given ¡two ¡events ¡A ¡and ¡B ¡and ¡suppose ¡that ¡Pr(A) ¡> ¡0. ¡Then ¡ • Example: ¡ • Pr(R) ¡= ¡0.8 ¡ R: ¡It ¡is ¡a ¡rainy ¡day ¡ Pr(W|R) R ¬ R W: ¡The ¡grass ¡is ¡wet ¡ W 0.7 0.4 Pr(R|W) ¡= ¡? ¡ ¬ W 0.3 0.6
Bayes’ ¡Rule ¡ R ¬ R R: ¡It ¡rains ¡ W 0.7 0.4 W: ¡The ¡grass ¡is ¡wet ¡ ¬ W 0.3 0.6 Informa2on ¡ Pr(W|R) ¡ R ¡ W ¡ Inference ¡ Pr(R|W) ¡
Bayes’ ¡Rule ¡ R ¬ R R: ¡It ¡rains ¡ W 0.7 0.4 W: ¡The ¡grass ¡is ¡wet ¡ ¬ W 0.3 0.6 Informa2on: ¡ Pr(E|H) ¡ Evidence ¡E ¡ Hypothesis ¡H ¡ Posterior ¡ Likelihood ¡ Prior ¡ Inference: ¡ Pr(H|E) ¡
Measures ¡of ¡Complexity ¡
Entropy ¡and ¡Uncertainty ¡
Coding ¡length: ¡ Data ¡processing ¡inequality: ¡ Rela0ve ¡Entropy : ¡
K(x) is the length of a shortest program to compute x K(x|y) is the length of a shortest program to compute x given y as input K(x,y) is the length of a shortest program to compute the pair ( x,y)
M K Calcula0ng ¡ M K − jpg Example: ¡Mondrian-‑1 ¡ M K − jpg = 1 − K = 1 − 0.169 = 0.831 M K − png = 1 − 0.305 = 0.695 N H rgb
Mutual ¡Informa0on, ¡Joint ¡Entropy ¡& ¡ Condi0onal ¡Entropy ¡
Entropy ¡ • Entropy ¡(self-‑informa0on) ¡ – the ¡amount ¡of ¡informa-on ¡in ¡a ¡random ¡variable ¡ – average ¡uncertainty ¡of ¡a ¡random ¡variable ¡ – the ¡average ¡length ¡of ¡the ¡message ¡needed ¡to ¡transmit ¡an ¡ outcome ¡of ¡that ¡variable ¡ – the ¡size ¡of ¡the ¡search ¡space ¡consis0ng ¡of ¡the ¡possible ¡ values ¡of ¡a ¡random ¡variable ¡and ¡its ¡associated ¡probabili0es ¡ – Proper0es ¡ • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡( ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡providing ¡no ¡new ¡informa0on) ¡ • increases ¡with ¡message ¡length ¡
Entropy ¡ ¡-‑ ¡ Example ¡ • Simplified ¡Language ¡ – leler ¡frequencies ¡ – per-‑leler ¡entropy ¡ – coding ¡ p ¡ ¡ ¡t ¡ ¡k ¡ ¡a ¡ ¡i ¡ ¡u ¡ 100 ¡ ¡00 ¡ ¡101 ¡ ¡01 ¡ ¡110 ¡ ¡111 ¡
Joint ¡Entropy ¡& ¡Condi0onal ¡Entropy ¡ • Joint ¡Entropy ¡ – the ¡amount ¡of ¡informa0on ¡needed ¡on ¡average ¡to ¡ specify ¡both ¡their ¡values ¡ • Condi0onal ¡Entropy ¡ how much extra information you still need to supply on average to communicate Y given that the other party knows X 30 ¡
Joint ¡Entropy ¡& ¡Condi0onal ¡Entropy ¡ • Chain ¡Rules ¡for ¡Entropy ¡ 31 ¡
Joint ¡Entropy ¡& ¡Condi0onal ¡Entropy ¡ -‑ ¡Example ¡ • Simplified ¡Language ¡Revisited ¡ – syllable ¡structure ¡ • all ¡words ¡consist ¡of ¡sequences ¡of ¡CV ¡syllables. ¡ • C: ¡consonant, ¡V: ¡vowel ¡ 32 ¡
Joint ¡Entropy ¡& ¡Condi0onal ¡Entropy ¡ • Entropy ¡Rate ¡(per-‑word/per-‑leler ¡entropy) ¡ • Entropy ¡of ¡a ¡Block ¡ 33 ¡
Mutual ¡Informa0on ¡ • Mutual ¡Informa0on ¡ – the ¡reduc0on ¡in ¡uncertainty ¡of ¡one ¡random ¡variable ¡due ¡to ¡knowing ¡ about ¡another ¡ – the ¡amount ¡of ¡informa0on ¡one ¡random ¡variable ¡contains ¡about ¡ another ¡ – measure ¡of ¡independence ¡ • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡two ¡variables ¡are ¡independent ¡ • grows ¡according ¡to ¡... ¡ – the ¡degree ¡of ¡dependence ¡ – the ¡entropy ¡of ¡the ¡variables ¡
Mutual ¡Informa0on ¡ 35 ¡
Mutual ¡Informa0on ¡ • Condi0onal ¡Mutual ¡Informa0on ¡ • Chain ¡Rule ¡ • Pointwise ¡Mutual ¡Informa0on ¡ 36 ¡
Recommend
More recommend