samples = stats.norm(0,1).rvs([1000])

with pm.Model() as model:
    mu = pm.Normal("mu", 0.0, 10.0)
    sigma = pm.Gamma('sigma', alpha=3.0, beta=1.0)
    x = pm.Normal("x", mu=mu, sigma=sigma, observed=samples)
    trace = pm.sample(return_inferencedata=True)

Auto-assigning NUTS sampler...
Initializing NUTS using jitter+adapt_diag...
Multiprocess sampling (4 chains in 4 jobs)
NUTS: [sigma, mu]

Sampling 4 chains for 1_000 tune and 1_000 draw iterations (4_000 + 4_000 draws total) took 2 seconds.


smu, sx = sympy.symbols(r'\mu x')
sx1, sx2 = sympy.symbols(r'x1:3')
ssigma = sympy.Symbol("\sigma", positive=True)

prior_mu = sympy.stats.crv_types.NormalDistribution(0, 10).pdf(smu)
prior_sigma = sympy.stats.crv_types.GammaDistribution(3, 1).pdf(ssigma)
likelihood = sympy.stats.crv_types.NormalDistribution(smu, ssigma).pdf(sx1)*sympy.stats.crv_types.NormalDistribution(smu, ssigma).pdf(sx2)
total = sympy.UnevaluatedExpr(prior_mu)*sympy.UnevaluatedExpr(prior_sigma)*sympy.UnevaluatedExpr(likelihood)
sympy.Matrix([prior_mu, prior_sigma, likelihood])


total


trace_df = trace['posterior'].to_dataframe()
trace_df


trace_df.mean().to_frame()


pm.summary(trace)


# list(statsmodels.nonparametric.kde.kernel_switch.keys())


kdeplot(trace_df['mu'], x_min=-0.5, x_max=0.5)


kdeplot(trace_df['sigma'], x_min=0.75, x_max=1.2)


sns.pairplot(trace_df, height=3);


stheta = sympy.var(r'\theta')
D1 = sympy.Matrix([[(1-stheta)], [stheta]])
D1


display(D1[0]),display(D1[1]);


D2 = sympy.Matrix([[(1-stheta), stheta]])
D2


D = D1*D2
D


def two_coin_tosses_probability_function(theta, d1, d2):
    v = D.subs(stheta, theta)
    v = v[d1,d2] # we use indexing to access a concrete slot in the multi dimensional array
    return v


theta = sympy.Integer(1)/2
display(theta)
two_coin_tosses_probability_function(theta, 1, 0)


sd1, sd2 = sympy.symbols('d1:3') # we define two new sympy symbols for d1 and d2
sd1, sd2

(d1, d2)


D_ = 1*(1-stheta)**sympy.KroneckerDelta(0,sd1)*stheta**sympy.KroneckerDelta(1,sd1)*(1-stheta)**sympy.KroneckerDelta(0,sd2)*stheta**sympy.KroneckerDelta(1,sd2)
D_


def two_coin_tosses_probability_function_(theta, d1, d2):
    v = D_.subs(stheta, theta)
    v = v.subs(sd1,d1)
    v = v.subs(sd2,d2)
    return v


two_coin_tosses_probability_function(theta, 1, 0)


smu, sx = sympy.symbols(r'\mu x')
sx1, sx2 = sympy.symbols(r'x1:3')
si, sj = sympy.symbols('i j', integer=True)
sp0, sp1 = sympy.symbols(r'p:2')
ssigma = sympy.Symbol("\sigma", positive=True)
slambda = sympy.Symbol("\lambda", positive=True)
sympy.Matrix([smu, ssigma, slambda, sx, sx1, sx2, si, sj, sp0, sp1]).T # just for displaying the symbols


sympy.stats.crv_types.NormalDistribution(smu, ssigma).pdf(sx)


sympy.stats.crv_types.ExponentialDistribution(slambda).pdf(sx)


sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(si)


sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(1)


sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(0)


sprior_exponential = sympy.stats.crv_types.ExponentialDistribution(1).pdf(slambda)
sprior_normal = sympy.stats.crv_types.ExponentialDistribution(1).pdf(ssigma)*sympy.stats.crv_types.NormalDistribution(0, 100).pdf(smu)
sprior_mixture_components = sprior_normal*sympy.stats.crv_types.BetaDistribution(1,1).pdf(sp1)
sprior = sprior_exponential*sprior_normal*sprior_mixture_components
smixture_likelihood = \
    (sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(0)*sympy.stats.crv_types.ExponentialDistribution(slambda).pdf(sx1))**sympy.KroneckerDelta(0,si) * \
    (sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(1)*sympy.stats.crv_types.NormalDistribution(smu, ssigma).pdf(sx1))**sympy.KroneckerDelta(1,si) * \
    (sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(0)*sympy.stats.crv_types.ExponentialDistribution(slambda).pdf(sx2))**sympy.KroneckerDelta(0,sj) * \
    (sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(1)*sympy.stats.crv_types.NormalDistribution(smu, ssigma).pdf(sx2))**sympy.KroneckerDelta(1,sj)
smixture = sprior * smixture_likelihood
smixture


smixture_marginal_1 = sympy.summation(smixture, (si, 0, 1), (sj, 0, 1))
smixture_marginal_1


sympy.summation(smixture_likelihood, (si, 0, 1), (sj, 0, 1))


M1 = sympy.Matrix([
    sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(0)*sympy.stats.crv_types.ExponentialDistribution(slambda).pdf(sx1), 
    sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(1)*sympy.stats.crv_types.NormalDistribution(smu, ssigma).pdf(sx1)])
M2 = sympy.Matrix([[
    sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(0)*sympy.stats.crv_types.ExponentialDistribution(slambda).pdf(sx2), 
    sympy.stats.frv_types.BernoulliDistribution(sp1, 1, 0).pmf(1)*sympy.stats.crv_types.NormalDistribution(smu, ssigma).pdf(sx2)]])
M = M1 * M2
E = sprior * sympy.UnevaluatedExpr(M)
E


E_ = E.doit()


E_[0,0]


smixture_marginal_2 = sympy.Add(*[E_[i, j] for i in range(2) for j in range(2)])
smixture_marginal_2


sympy.simplify(smixture_marginal_1 - smixture_marginal_2)

		mu	sigma
chain	draw
0	0	-0.025535	0.995429
	1	-0.000475	0.982951
	2	0.036382	0.960661
	3	0.069528	0.960479
	4	0.052084	0.957739
...	...	...	...
3	995	0.014148	1.015268
	996	-0.010790	0.948807
	997	0.061342	1.008478
	998	0.041587	1.006843
	999	0.046756	0.997424

	mean	sd	hdi_3%	hdi_97%	mcse_mean	mcse_sd	ess_bulk	ess_tail	r_hat
mu	0.020	0.031	-0.038	0.074	0.001	0.0	3294.0	3168.0	1.0
sigma	0.981	0.023	0.941	1.024	0.000	0.0	3464.0	2734.0	1.0

Monte Carlo Fundamental Concepts¶

Table of Contents

Boundary between statistics and machine learning / AI¶

Monte Carlo sampling methodology¶

A word of caution about the picture of "Bayes updating"¶

Statistical Models¶

Quality of a model: model comparison, model selection, model averaging¶

How to construct models: keep the Bayes' theorem and the law of total probability (extending the conversation) always in mind¶

Bayes' theorem¶

Law of total probability (extending the conversation)¶

What is the "right" representation of (multi-dimensional) probability distributions?¶

Operations on probability distributions: marginalization and conditional probability¶

Calculations with random variables: convolutions and other nasty stuff¶

Density Estimation¶

The algorithm has to always perform the same heavy lifting: there is no ancestral sampling¶

Appendix¶

Examples of mixed discrete continuous probability functions¶

Two independent coin tosses¶

Two component mixture model¶

	0
mu	0.019798
sigma	0.981421