Borre Rex: BLOQUE 4 PROBABILIDAD Y ESTADISTICA

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLE ALEATORIA CONTINUA.

En teoría de la probabilidad una distribución de probabilidad se llama continua si su función de distribución es continua. Puesto que la función de distribución de una variable aleatoria X viene dada por

F_X(x) = P( X \le x )

, la definición implica que en una distribución de probabilidad continua X se cumple P[X = a] = 0 para todo número real a, esto es, la probabilidad de que X tome el valor a es cero para cualquier valor de a. Si la distribución de X es continua, se llama a X variable aleatoria continua.

En las distribuciones de probabilidad continuas, la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:

F(x) = P( X \le x ) = \int_{-\infty}^{x} f(t)\, dt

Mientras que en una distribución de probabilidad discreta un suceso con probabilidad cero es imposible, no se da el caso en una variable aleatoria continua. Por ejemplo, si se mide la anchura de una hoja de roble, el resultado 3,5 cm es posible, pero tiene probabilidad cero porque hay infinitos valores posibles entre 3 cm y 4 cm. Cada uno de esos valores individuales tiene probabilidad cero, aunque la probabilidad de ese intervalo no lo es. Esta aparente paradoja se resuelve por el hecho de que la probabilidad de que X tome algún valor en un conjunto infinito como un intervalo, no puede calcularse mediante la adición simple de probabilidades de valores individuales. Formalmente, cada valor tiene una probabilidad infinitesimal que estadísticamente equivale a cero.

Existe una definición alternativa más rigurosa en la que el término "distribución de probabilidad continua" se reserva a distribuciones que tienen función de densidad de probabilidad. Estas funciones se llaman, con más precisión, variables aleatorias absolutamente continuas (véase el Teorema de Radon-Nikodym). Para una variable aleatoria X absolutamente continua es equivalente decir que la probabilidad P[X = a] = 0 para todo número real a, en virtud de que hay un incontables conjuntos de medida de Lebesgue cero (por ejemplo, el conjunto de Cantor).

Una variable aleatoria con la distribución de Cantor es continua de acuerdo con la primera definición, pero según la segunda, no es absolutamente continua. Tampoco es discreta, ni una media ponderada de variables discretas y absolutamente continuas.

En aplicaciones prácticas, las variables aleatorias a menudo ofrece una distribución discreta o absolutamente continua, aunque también aparezcan de forma natural mezclas de los dos tipos.

DEFINICIÓN.

Para una variable continua hay infinitos valores posibles de la variable y entre cada dos de ellos se pueden definir infinitos valores más. En estas condiciones no es posible deducir la probabilidad de un valor puntual de la variable; como se puede hacer en el caso de variables discretas, pero es posible calcular la probabilidad acumulada hasta un cierto valor (función de distribución de probabilidad), y se puede analizar como cambia la probabilidad acumulada en cada punto (estos cambios no son probabilidades sino otro concepto: la función de densidad.

En el caso de variable continua la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:

F(x) = P( X \le x ) = \int_{-\infty}^{x} f(x)\, dx

Sea

X

una variable continua, una distribución de probabilidad o función de densidad de probabilidad (FDP) de

X

es una función

f(x)

tal que, para cualesquiera dos números

a

b

siendo

a \le b

P( a \le X \le b )= \int_{a}^{b} f(x)\, dx

La gráfica de

f(x)

se conoce a veces como curva de densidad, la probabilidad de que

X

tome un valor en el intervalo

[a,b]

es el área bajo la curva de la función de densidad; así, la función mide concentración de probabilidad alrededor de los valores de una variable aleatoria continua.

P(a \le X \le b)=

área bajo la curva de

f(x)

entre

a

b

Para que

f(x)

sea una FDP (

FDP=f(x)

) legítima, debe satisfacer las siguientes dos condiciones:

f(x)

\ge \;

0 para toda

x

\int_{-\infty}^{\infty} f(x)\, dx=1

Ya que la probabilidad es siempre un número positivo, la FDP es una función no decreciente que cumple:

\lim_{x \to \infty} F(x) = 1

. Es decir, la probabilidad de todo el espacio muestral es 1.

\lim_{x \to -\infty} F(x) = 0

. Es decir, la probabilidad del suceso nulo es cero.

Algunas FDP están declaradas en rangos de

-\infty \;

\infty \;

, como la de la distribución normal.

DISTRIBUCIÓN NORMAL.

En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales.^{[cita requerida]}

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.

De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de la estadística en psicología y sociología sea conocido comométodo correlacional.

La distribución normal también es importante por su relación con la estimación por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.

Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de la normal son:

caracteres morfológicos de individuos como la estatura;
caracteres fisiológicos como el efecto de un fármaco;
caracteres sociológicos como el consumo de cierto producto por un mismo grupo de individuos;
caracteres psicológicos como el cociente intelectual;
nivel de ruido en telecomunicaciones;
errores cometidos al medir ciertas magnitudes;
etc.

La distribución normal también aparece en muchas áreas de la propia estadística. Por ejemplo, la distribución muestral de las medias muestrales es aproximadamente normal, cuando la distribución de la población de la cual se extrae la muestra no es normal.¹ Además, la distribución normal maximiza la entropía entre todas las distribuciones con media y varianzaconocidas, lo cual la convierte en la elección natural de la distribución subyacente a una lista de datos resumidos en términos de media muestral y varianza. La distribución normal es la más extendida en estadística y muchos tests estadísticos están basados en una supuesta "normalidad".

En probabilidad, la distribución normal aparece como el límite de varias distribuciones de probabilidad continuas ydiscretas.

HISTORIA.

La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo del año 1733,² que fue reimpreso en la segunda edición de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximación de la distribución binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace.

Laplace usó la distribución normal en el análisis de errores de experimentos. El importante método de mínimos cuadrados fue introducido porLegendre en 1805. Gauss, que afirmaba haber usado el método desde 1794, lo justificó rigurosamente en 1809 asumiendo una distribución normal de los errores. El nombre de Gauss se ha asociado a esta distribución porque la usó con profusión cuando analizaba datos astronómicos³y algunos autores le atribuyen un descubrimiento independiente del de De Moivre.⁴ Esta atribución del nombre de la distribución a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stigler.

El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie campana) por primera vez en 1872 para unadistribución normal bivariante de componentes independientes. El nombre de "distribución normal" fue otorgado independientemente por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.^{[cita requerida]} A pesar de esta terminología, otras distribuciones de probabilidad podrían ser más apropiadas en determinados contextos; véase la discusión sobre ocurrencia, más abajo.

DEFINICIÓN.

La función de distribución de la distribución normal está definida como sigue:

\begin{align} \Phi_{\mu,\sigma^2}(x) &{}=\int_{-\infty}^x\varphi_{\mu,\sigma^2}(u)\,du\\ &{}=\frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{(u - \mu)^2}{2\sigma^2}}\, du ,\quad x\in\mathbb{R}\\ \end{align}

Por tanto, la función de distribución de la normal estándar es:

\Phi(x) = \Phi_{0,1}(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{u^2}{2}} \, du, \quad x\in\mathbb{R}.

Esta función de distribución puede expresarse en términos de una función especial llamada función error de la siguiente forma:

\Phi(x) =\frac{1}{2} \Bigl[ 1 + \operatorname{erf} \Bigl( \frac{x}{\sqrt{2}} \Bigr) \Bigr], \quad x\in\mathbb{R},

y la propia función de distribución puede, por consiguiente, expresarse así:

\Phi_{\mu,\sigma^2}(x) =\frac{1}{2} \Bigl[ 1 + \operatorname{erf} \Bigl( \frac{x-\mu}{\sigma\sqrt{2}} \Bigr) \Bigr], \quad x\in\mathbb{R}.

El complemento de la función de distribución de la normal estándar,

1 - \Phi(x)

, se denota con frecuencia

Q(x)

, y es referida, a veces, como simplemente función Q, especialmente en textos de ingeniería.⁵ ⁶ Esto representa la cola de probabilidad de la distribución gaussiana. También se usan ocasionalmente otras definiciones de la función Q, las cuales son todas ellas transformaciones simples de

\Phi

.⁷

La inversa de la función de distribución de la normal estándar (función cuantil) puede expresarse en términos de la inversa de la función de error:

\Phi^{-1}(p) = \sqrt2 \;\operatorname{erf}^{-1} (2p - 1), \quad p\in(0,1),

y la inversa de la función de distribución puede, por consiguiente, expresarse como:

\Phi_{\mu,\sigma^2}^{-1}(p) = \mu + \sigma\Phi^{-1}(p) = \mu + \sigma\sqrt2 \; \operatorname{erf}^{-1}(2p - 1), \quad p\in(0,1).

Esta función cuantil se llama a veces la función probit. No hay una primitiva elemental para la función probit. Esto no quiere decir meramente que no se conoce, sino que se ha probado la inexistencia de tal función. Existen varios métodos exactos para aproximar la función cuantil mediante la distribución normal (véase función cuantil).

Los valores Φ(x) pueden aproximarse con mucha precisión por distintos métodos, tales como integración numérica, series de Taylor, series asintóticas y fracciones continuas.

Límite inferior y superior estrictos para la función de distribución

Para grandes valores de x la función de distribución de la normal estándar

\scriptstyle\Phi(x)

es muy próxima a 1 y

\scriptstyle\Phi(-x)\,{=}\,1\,{-}\,\Phi(x)

está muy cerca de 0. Los límites elementales

\frac{x}{1+x^2}\varphi(x)<1-\Phi(x)<\frac{\varphi(x)}{x}, \qquad x>0,

en términos de la densidad

\scriptstyle\varphi

son útiles.

Usando el cambio de variable v = u²/2, el límite superior se obtiene como sigue:

\begin{align} 1-\Phi(x) &=\int_x^\infty\varphi(u)\,du\\ &<\int_x^\infty\frac ux\varphi(u)\,du =\int_{x^2/2}^\infty\frac{e^{-v}}{x\sqrt{2\pi}}\,dv =-\biggl.\frac{e^{-v}}{x\sqrt{2\pi}}\biggr|_{x^2/2}^\infty =\frac{\varphi(x)}{x}. \end{align}

De forma similar, usando

\scriptstyle\varphi'(u)\,{=}\,-u\,\varphi(u)

y la regla del cociente,

\begin{align} \Bigl(1+\frac1{x^2}\Bigr)(1-\Phi(x))&=\Bigl(1+\frac1{x^2}\Bigr)\int_x^\infty\varphi(u)\,du\\ &=\int_x^\infty \Bigl(1+\frac1{x^2}\Bigr)\varphi(u)\,du\\ &>\int_x^\infty \Bigl(1+\frac1{u^2}\Bigr)\varphi(u)\,du =-\biggl.\frac{\varphi(u)}u\biggr|_x^\infty =\frac{\varphi(x)}x. \end{align}

Resolviendo para

\scriptstyle 1\,{-}\,\Phi(x)\,

proporciona el límite inferior.

Funciones generadoras

Función generadora de momentos

La función generadora de momentos se define como la esperanza de e^(tX). Para una distribución normal, la función generadora de momentos es:

M_X(t) = \mathrm{E} \left[ e^{tX} \right] = \int_{-\infty}^{\infty} \frac{1}{\sigma \sqrt{2\pi} } e^{-\frac{(x - \mu)^2}{2 \sigma^2}} e^{tx} \, dx = e^{\mu t + \frac{\sigma^2 t^2}{2}}

como puede comprobarse al completar el cuadrado en el exponente.

Función característica

La función característica se define como la esperanza de e^itX, donde i es la unidad imaginaria. De este modo, la función característica se obtiene reemplazando t por it en la función generadora de momentos.

Para una distribución normal, la función característica es⁸

\begin{align} \chi_X(t;\mu,\sigma) &{} = M_X(i t) = \mathrm{E} \left[ e^{i t X} \right] \\ &{}= \int_{-\infty}^{\infty} \frac{1}{\sigma \sqrt{2\pi}} e^{- \frac{(x - \mu)^2}{2\sigma^2}} e^{i t x} \, dx \\ &{}= e^{i \mu t - \frac{\sigma^2 t^2}{2}}. \end{align}

PROPIEDADES.

Algunas propiedades de la distribución normal son:

Es simétrica respecto de su media, μ;

Distribución de probabilidad alrededor de la media en una distribución N(μ, σ²).
La moda y la mediana son ambas iguales a la media, μ;
Los puntos de inflexión de la curva se dan para x = μ − σ y x = μ + σ.
Distribución de probabilidad en un entorno de la media:
1. en el intervalo [μ - σ, μ + σ] se encuentra comprendida, aproximadamente, el 68,26% de la distribución;
2. en el intervalo [μ - 2σ, μ + 2σ] se encuentra, aproximadamente, el 95,44% de la distribución;
3. por su parte, en el intervalo [μ -3σ, μ + 3σ] se encuentra comprendida, aproximadamente, el 99,74% de la distribución. Estas propiedades son de gran utilidad para el establecimiento de intervalos de confianza. Por otra parte, el hecho de que prácticamente la totalidad de la distribución se encuentre a tres desviaciones típicas de la media justifica los límites de las tablas empleadas habitualmente en la normal estándar.
Si X ~ N(μ, σ²) y a y b son números reales, entonces (aX + b) ~ N(aμ+b, a²σ²).
Si X ~ N(μ_x, σ_x²) e Y ~ N(μ_y, σ_y²) son variables aleatorias normales independientes, entonces:
- Su suma está normalmente distribuida con U = X + Y ~ N(μ_x + μ_y, σ_x² + σ_y²) (demostración). Recíprocamente, si dos variables aleatorias independientes tienen una suma normalmente distribuida, deben ser normales (Teorema de Crámer).
- Su diferencia está normalmente distribuida con $V = X - Y \sim N(\mu_X - \mu_Y, \sigma^2_X + \sigma^2_Y)$ .
- Si las varianzas de X e Y son iguales, entonces U y V son independientes entre sí.
- La divergencia de Kullback-Leibler, $D {\rm KL}( X \| Y ) = { 1 \over 2 } \left( \log \left( { \sigma^2_Y \over \sigma^2_X } \right) + \frac{\sigma^2_X}{\sigma^2_Y} + \frac{\left(\mu_Y - \mu_X\right)^2}{\sigma^2_Y} - 1\right).$
Si $X \sim N(0, \sigma^2_X)$ e $Y \sim N(0, \sigma^2_Y)$ son variables aleatorias independientes normalmente distribuidas, entonces:
- Su producto $X Y$ sigue una distribución con densidad $p\,$ dada por
  
  $p(z) = \frac{1}{\pi\,\sigma_X\,\sigma_Y} \; K_0\left(\frac{|z|}{\sigma_X\,\sigma_Y}\right),$ donde $K_0\,$ es una función de Bessel modificada de segundo tipo.
- Su cociente sigue una distribución de Cauchy con $X/Y \sim \mathrm{Cauchy}(0, \sigma_X/\sigma_Y)\,$ . De este modo la distribución de Cauchy es un tipo especial de distribución cociente.
Si $X_1, \dots, X_n$ son variables normales estándar independientes, entonces $X_1^2 + \cdots + X_n^2$ sigue una distribución χ² con n grados de libertad.
Si $X_1,\dots,X_n$ son variables normales estándar independientes, entonces la media muestral $\bar{X}=(X_1+\cdots+X_n)/n$ y la varianza muestral $S^2=((X_1-\bar{X})^2+\cdots+(X_n-\bar{X})^2)/(n-1)$ son independientes. Esta propiedad caracteriza a las distribuciones normales y contribuye a explicar por qué el test-F no es robusto respecto a la no-normalidad).

Estandarización de variables aleatorias normales

Como consecuencia de la Propiedad 1; es posible relacionar todas las variables aleatorias normales con la distribución normal estándar.

X\,

N(\mu, \sigma^2)\,

, entonces

Z = \frac{X - \mu}{\sigma} \!

es una variable aleatoria normal estándar:

Z\,

N(0,1)\,

La transformación de una distribución X ~ N(μ, σ) en una N(0, 1) se llama normalización, estandarización o tipificación de la variable X.

Una consecuencia importante de esto es que la función de distribución de una distribución normal es, por consiguiente,

\Pr(X \le x) = \Phi \left( \frac{x-\mu}{\sigma} \right) = \frac{1}{2} \left( 1 + \operatorname{erf} \left( \frac{x-\mu}{\sigma\sqrt{2}} \right) \right) .

A la inversa, si

Z

es una distribución normal estándar,

Z

N(0,1)

, entonces

X = \sigma Z + \mu\,

es una variable aleatoria normal tipificada de media

\mu\,

y varianza

\sigma^2\,

La distribución normal estándar está tabulada (habitualmente en la forma de el valor de la función de distribución Φ) y las otras distribuciones normales pueden obtenerse como transformaciones simples, como se describe más arriba, de la distribución estándar. De este modo se pueden usar los valores tabulados de la función de distribución normal estándar para encontrar valores de la función de distribución de cualquier otra distribución normal.

Momentos

Los primeros momentos de la distribución normal son:

Número	Momento	Momento central	Cumulante
0	1	1
1	$\mu$	0	$\mu$
2	$\mu^2 + \sigma^2$	$\sigma^2$	$\sigma^2$
3	$\mu^3 + 3\mu\sigma^2$	0	0
4	$\mu^4 + 6 \mu^2 \sigma^2 + 3 \sigma^4$	$3 \sigma^4$	0
5	$\mu^5 + 10 \mu^3 \sigma^2 + 15 \mu \sigma^4$	0	0
6	$\mu^6 + 15 \mu^4 \sigma^2 + 45 \mu^2 \sigma^4 + 15 \sigma^6$	$15 \sigma^6$	0
7	$\mu^7 + 21 \mu^5 \sigma^2 + 105 \mu^3 \sigma^4 + 105 \mu \sigma^6$	0	0
8	$\mu^8 + 28 \mu^6 \sigma^2 + 210 \mu^4 \sigma^4 + 420 \mu^2 \sigma^6 + 105 \sigma^8$	$105 \sigma^8$	0