Teorema Central do Limite

Introdução e Condições Iniciais

O Teorema Central do Limite (TCL) é um dos resultados mais famosos e mais bonitos da Teoria da Probabilidade.

Sejam \(X_1, X_2, ...\) variáveis aleatórias independentes e identicamente distribuídas (\(iid\)) com média e variância existentes e finitas, isto é \(-\infty < \mu < +\infty\) e \(0 < \sigma^2 < +\infty\).

Além disso, defina \(\bar{X} = \frac{\sum_{i=1}^{n}{X_i}}{n}\) como sendo a média amostral.

Pela Lei dos Grandes Números, sabemos que \(\bar{X} \xrightarrow{n \rightarrow + \infty} \mu\), mas a qual taxa? Como que é a distribuição dessa quantidade?

Convergência em Distribuição

Definição. Sejam \(X, X_1, X_2, ...\) variáveis aleatórias com, respectivamente, funções de distribuições \(F, F_1, F_2, ...\). Dizemos que \(X_n\) converge em distribuição para \(X\), quando \(n \rightarrow +\infty\), se \(F_n(x) \rightarrow F(x)\) para todo \(x\) ponto de continuidade de \(F\).

Notação: \(X_n \xrightarrow{D} X\) ou \(X_n \xrightarrow{D} F\).

Teorema Central do Limite

Podemos reescrever a quantidade da introdução como sendo \(\bar{X} - \mu \xrightarrow{n \rightarrow + \infty} 0\). Assim, uma das maneiras de buscar entender a distribuição de uma quantidade quando ela vai zero é multiplicá-la por uma quantidade que vai para infinito de uma maneira que seu valor de convergência não “exploda” (ou “degenere”) para o infinito e nem para zero. De fato se multiplicarmos a quantidade acima por \(n\) elevando-o à um exponencial buscando controlar as taxas de convergência. Neste caso, o exponencial é o valor de \(\frac{1}{2}\), ou seja, \(\sqrt{n}\).¹

Logo, o TCL pode ser definido por:

\(\sqrt{n} \left(\bar{X} - \mu \right) \xrightarrow{n \rightarrow + \infty} N(0, \sigma^{2})\) em distribuição

Ou, alternativamente, na sua forma mais popular:

\[ \sqrt{n} \left(\frac{\bar{X} - \mu}{\sigma} \right) \xrightarrow{D} N(0, 1) \tag{1}\]

O TCL retrata um dos teoremas mais lindos de toda a probabilidade tendo em vista que com poucas condições iniciais (neste caso, média e variância finitas) conseguimos provar que a média amostral \(\bar{X}\) padronizada converge em distribuição para a distribuição normal padrão. Observe que o teorema não faz nenhuma alusão ao tipo de variável aleatória, podendo ser discreto ou contínuo, e nem sobre o suporte da distribuição, podendo ser positivo, negativo ou ambos.

Este teorema é um dos principais motivos pela ampla difusão da distribuição Normal em diversas áreas do conhecimento científico. Tendo em vista que, dadas às devidas condições, a média amostral pode ser aproximada pela distribuição normal padrão, as aplicações desses resultados são diversos.

Prova. Faça \(S_n = X_1 + X_2 + ... +X_n\) e multiplicando e dividindo por \(n\) o termo da Equação 1 chegamos em

\[ \frac{1}{\sqrt{n}}\left(\frac{S_n - n\mu}{\sigma} \right) = \frac{1}{\sqrt{n}}\left(\frac{\sum_{i=1}^nX_i- n\mu}{\sigma} \right) \overset{\text{Expandindo o somatório}}{=} \frac{1}{\sqrt{n}}\sum_{i=1}^n\left(\frac{X_i- \mu}{\sigma} \right) \xrightarrow{D} N(0, 1) \]

Podemos assumir, sem perda de generalidade que \(\mu = 0\) e \(\sigma = 1\), pois poderíamos fazer a prova definindo uma variável aleatória sendo \(Z_i = \frac{X_i- \mu}{\sigma}\), onde esta variável teria média 0 e desvio padrão 1. Sendo assim, basta provar

\[\frac{\sum_{i=1}^n X_i}{\sqrt{n}} \xrightarrow{D} N(0, 1)\]

Para isso, faremos o uso da função geradora de momentos (\(M\)) da quantidade acima e avaliando o seu valor quanto \(n \rightarrow +\infty\) a fim de identificar qual a distribuição limite obtida.² Ou seja:

\(M_{X_n}(x) \xrightarrow{n \rightarrow + \infty} M_{X}(x) \implies X_n \xrightarrow{D} X\)

Por notação, vamos estabelecer \(Q_n = \frac{\sum_{i=1}^n X_i}{\sqrt{n}}\) e aplicar o teorema acima:

\(M_{Q_n}(t) = E\left( e^{t\left(\frac{\sum_{i=1}^n X_i}{\sqrt{n}}\right)} \right) \overset{\text{Prop. de Exponencial}}{=} E\left( e^{\frac{tX_1}{\sqrt{n}}} \times e^{\frac{tX_2}{\sqrt{n}}} \times \dots \times e^{\frac{tX_n}{\sqrt{n}}} \right) \overset{\text{Independência}}{=} \prod_{i=1}^{n}E\left( e^{\frac{tX_i}{\sqrt{n}}} \right)\)

Como todos os \(X_i\) são identicamente distribuídos, podemos simplificar a expressão para:

\(M_{Q_n}(t) = \prod_{i=1}^{n}E\left( e^{\frac{tX_i}{\sqrt{n}}} \right) = E\left( e^{\frac{tX_1}{\sqrt{n}}} \right) \times E\left( e^{\frac{tX_2}{\sqrt{n}}} \right) \times \dots \times E\left( e^{\frac{tX_n}{\sqrt{n}}} \right) = \left( E\left( e^{\frac{tX_i}{\sqrt{n}}} \right) \right)^n, \ \forall i\)

No entanto, note acima que \(E\left( e^{\frac{tX_i}{\sqrt{n}}} \right)\) é exatamente a função geradora de momentos aplicada no ponto \(\frac{t}{\sqrt{n}}\). Logo:

\(M_{Q_n}(t) = \left( M_{X_i}\left( \frac{t}{\sqrt{n}} \right) \right)^n, \ \forall i\)

Por simplificação de notação, vamos suprimir o \(X_i\)³ nos passos seguintes e vamos avaliar esta expressão quando \(n \rightarrow +\infty\).

Observe que da maneira como está estruturado \(\left( M\left( \frac{t}{\sqrt{n}} \right) \right)^n\) converge para uma indefinição do tipo \(1^\infty\), pois \(\left( M\left( \frac{t}{\sqrt{n}} \right) \right)^n = \left( E\left( e^{\frac{tX}{\sqrt{n}}} \right) \right)^n \rightarrow \left( E\left( e^0 \right) \right)^\infty\).

Para tratar essa indefinição, aplicaremos o logaritmo natural (\(log\)) na expressão e, depois de avaliado o limite, podemos reverter o valor aplicando o exponencial. Logo,

\[log\left(\left( M\left( \frac{t}{\sqrt{n}} \right) \right)^n \right) = n\times log\left( M\left( \frac{t}{\sqrt{n}} \right) \right)\]

Quando aplicamos \(n \rightarrow +\infty\) caímos numa indefinição do tipo \(+\infty \times 0\), logo vamos reescrever a equação para \(n\times log\left( M\left( \frac{t}{\sqrt{n}} \right) \right) = \frac{log\left( M\left( \frac{t}{\sqrt{n}} \right) \right)}{\frac{1}{n}}\) e, desta maneira, caírmos numa indefinição do tipo \(\frac{0}{0}\) para aplicarmos l’Hôpital. Como o \(n\) é um número inteiro natural e para melhor tratativa algébrica, vamos fazer uma transforção de variável para facilitar o desenvolvimento e poder aplicar a derivada em um número real. Assim,

\[ \lim_{n\to\infty}\frac{log\left( M\left( \frac{t}{\sqrt{n}} \right) \right)}{\frac{1}{n}} \overset{y=\frac{1}{\sqrt{n}}, \ y \in \mathbb{R} }{=} \lim_{y\to 0}\frac{log\left( M\left( yt \right) \right)}{y^2} \]

Que é uma indefinição do tipo \(\frac{0}{0}\). Logo, aplicando l’Hôpital:⁴

\[ \lim_{y\to 0}\frac{tM'(yt)}{M(yt)}\frac{1}{2y} \]

Este limite continua sendo uma indefinição do tipo \(\frac{0}{0}\), porque pela definição da função geradora do momento, quando aplicamos as suposições no ponto \(t=0\) temos:

\[ \begin{aligned} M(t) = E\left(e^{tX}\right) \implies M(0) = 1 \\ \mu = 0 \implies M'(0) = 0 \\ \sigma^2 = 1 \implies M''(0) = 1 \end{aligned} \] Logo, simplificando os limites e aplicando l’Hôpital novamente temos:

\[ \lim_{y\to 0}\frac{tM'(yt)}{M(yt)}\frac{1}{2y} \overset{\lim_{y\to 0}{M(yt)}=1}{=} \lim_{y\to 0}\frac{tM'(yt)}{2y} = \lim_{y\to 0}\frac{t^2M''(yt)}{2} = \frac{t^2}{2} \lim_{y\to 0}M''(yt) = \frac{t^2}{2} \]

Aplicando o exponencial para reverter o logaritmo aplicado originalmente temos:

\[M_{Q_n}(t) \xrightarrow{n \rightarrow +\infty} e^{\frac{t^2}{2}}\]

Que coindide com a função geradora de momentos da Normal Padrão.

\(\square\)

Uma discussão mais aprofundada do Teorema Central do Limite pode ser encontrada no Capítulo 7 de James (2023) ou no Capítulo 6 de DeGroot e Schervish (2012).

Diferentes formulações e versões do TCL

Fazendo \(S_n = X_1 + X_2 + ... +X_n\), James (2023) trata o problema central do limite atavés do estudo da convergência em distribuição das somas parciais normalizadas e formula o TCL como sendo:

\[\frac{{S}_n - E({S}_n)}{\sqrt{Var(S_n)}} \xrightarrow{D} N(0, 1)\]

Outras maneiras de representar o TCL são:

\[\frac{\bar{X} - E(\bar{X})}{\sqrt{Var(\bar{X})}} \xrightarrow{D} N(0, 1)\]

\[\sqrt{n} \bar{X} \xrightarrow{D} N(\mu, \sigma^2)\]

Exemplo Computacional: O caso Binomial

Se \(X_i \overset{iid}{\sim} Bernoulli(p)\), então \(S_n = \sum_{i=1}^{n}X_i \sim Binomial(n, p)\).

A seguir, apresentamos a distribuição da quantidade:

\[\frac{{S}_n - E({S}_n)}{\sqrt{Var(S_n)}} = \frac{{S}_n - np}{\sqrt{np(1-p)}} \xrightarrow{D} N(0, 1)\]

No R:

Mostrar Código

library(ggplot2)

set.seed(123)

# Parâmetros
n_simulacoes <- 1000 # Número de Simulações
n_lancamentos <- 300 # Número de lançamentos por simulação
prob_cara <- 0.5     # Probabilidade de sair cara

# Simulação
Sn <- replicate(n_simulacoes, {
  
  lancamentos <- sample(c(0,1), n_lancamentos, replace = TRUE, prob = c(1 - prob_cara, prob_cara))
  sum(lancamentos)
  
})

# Valores Normal Padrão
valores_pad <- (Sn - n_lancamentos * prob_cara) / sqrt(n_lancamentos * prob_cara * (1 - prob_cara))

# Dados para o gráfico
dados <- data.frame(valores = valores_pad)

# Valores Teóricos
media_pop <- 0
desvio_padrao_pop <- 1

# Gráfico
ggplot(dados, aes(x = valores)) +
  geom_histogram(aes(y = ..density..), fill = "skyblue", color = "black", alpha = 0.7) +
  stat_function(fun = dnorm, args = list(mean = media_pop, sd = desvio_padrao_pop), col = "red", size = 1) +
  labs(title = "Teorema Central do Limite - Moeda Honesta",
       x = "Média Padronizada dos Lançamentos",
       y = "Densidade")

No Python:

Mostrar Código

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# Parâmetros
n_simulacoes = 1000  # Número de Simulações
n_lancamentos = 300  # Número de lançamentos por simulação
prob_cara = 0.5      # Probabilidade de sair cara

# Simulação
Sn = np.array([
    np.sum(np.random.choice([0, 1], size=n_lancamentos, p=[1 - prob_cara, prob_cara]))
    for _ in range(n_simulacoes)
])

# Valores Normal Padrão
valores_pad = (Sn - n_lancamentos * prob_cara) / np.sqrt(n_lancamentos * prob_cara * (1 - prob_cara))

# Valores Teóricos
media_pop = 0
desvio_padrao_pop = 1

# Gráfico
plt.figure(figsize=(6, 4))
count, bins, ignored = plt.hist(valores_pad, bins=30, density=True, color='skyblue', edgecolor='black', alpha=0.7)

# Curva Teórica Normal Padrão
x = np.linspace(min(bins), max(bins), 1000)
plt.plot(x, norm.pdf(x, media_pop, desvio_padrao_pop), color='red', lw=2, label='Normal(0,1)')

# Labels e Título
plt.title("Teorema Central do Limite - Moeda Honesta")
plt.xlabel("Média Padronizada dos Lançamentos")
plt.ylabel("Densidade")
plt.legend()

# Exibir
plt.grid(True)
plt.tight_layout()
plt.show()

Usando o TCL pra aproximar probabilidades da Binomial pela Normal

Esta aproximação, também conhecida como Teorema de De Moivre–Laplace, ilustra como o TCL pode ser usado para aproximar a distribuição discreta Binomial pela distribuição contínua Normal.

Lembrando que se \(X_i \overset{iid}{\sim} Bernoulli(p)\), então \(X = \sum_{i=1}^{n}X_i \sim Binomial(n, p)\) (pela notação, \(X = S_n\) do exemplo computacional anterior) e queremos calcular a probabilidade da variável aleatória \(X\) estar entre dois valores inteiros \(a\) e \(b\) o que pode ser computacionalmente intenso. Nesse sentido, vamos aproximar essa probabilidade através do TCL usando o fato de que \(\frac{\bar{X} - E(\bar{X})}{\sqrt{Var(\bar{X})}} \xrightarrow{D} N(0, 1)\):

\[ P(a \le X \le b) = P\left( \frac{a-np}{\sqrt{np(1-p)}} \le \frac{X-np}{\sqrt{np(1-p)}} \le \frac{b-np}{\sqrt{np(1-p)}} \right) \approx \Phi\left( \frac{b-np}{\sqrt{np(1-p)}} \right) - \Phi\left( \frac{a-np}{\sqrt{np(1-p)}} \right) \]

Esta expressão representa a diferença das distribuição acumuladas da Normal Padrão entre os pontos \(\frac{b-np}{\sqrt{np(1-p)}}\) e \(\frac{a-np}{\sqrt{np(1-p)}}\).

Correção de Continuidade

Observe que esta aproximação se mostra útil, no entanto temos que ter um cuidado adicional ao aproximarmos distribuições contínuas de discretas para evitarmos conclusões equivocadas. Por exemplo, suponha que gostaríamos de usar esta aproximação para calcular a probabilidade de a variável assumir um ponto específico \(a\), então podemos concluir, erroneamente, que:

\[P(X = a) = P(a \le X \le a) \neq \Phi(a) - \Phi(a) = 0, \ \forall a\]

Logo, podemos melhorar essa aproximação de probabilidade através de uma especificação de um intervalo contínuo no entorno do valor \(a\):

\[P(X=a) \overset{a \ é \ inteiro!}{=} P\left( a - \frac{1}{2} \lt X \lt a + \frac{1}{2} \right) \approx \Phi\left( a - \frac{1}{2} \right) - \Phi\left( a + \frac{1}{2} \right)\]

Links Úteis

Aula de Harvard de Lei dos Grandes Números e Teorema Central do Limite

Página da Wikipedia do Teorema Central do Limite

Referências

Curtiss, J. H. 1942. «A note on the theory of moment generating functions». Ann. Math. Stat. 13 (4): 430–33.

DeGroot, M. H., e M. J. Schervish. 2012. Probability and Statistics. Addison-Wesley.

James, Barry R. 2023. Probabilidade: um curso em nível intermediário. 5.ª ed. IMPA.

Magalhães, M. N. 2006. Probabilidade e Variáveis Aleatórias. 3.ª ed. Edusp.

Notas de rodapé

Uma discussão sobre este fator de convergência é discutido aqui ↩︎
Este teorema é um caso particular do Teorema de Continuidade de Levy para funções características. Ele pode ser melhor detalhado em Curtiss (1942) ou aqui.↩︎
Magalhães (2006) também realiza esta simplificação de notação em uma prova similar do TCL fazendo uso da Função Característica.↩︎
Lembrando que \(\frac{d\log(f(x))}{dx} = \frac{1}{f(x)} \cdot \frac{df(x)}{dx} = \frac{f'(x)}{f(x)}\)↩︎