martes, 1 de octubre de 2013

ESTADÍSTICA 2

CARACTERÍSTICAS DE UNA TABLA:

RANGO:
En estadística descriptiva se denomina rango estadístico (R) o recorrido estadístico, a la diferencia entre el valor máximo y el valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.
EJEMPLOS:
 para una serie de datos de carácter cuantitativo, como lo es la estatura medida en centímetros, tendríamos:
x_1=185, x_2=165, x_3=170, x_4=182, x_5=155
es posible ordenar los datos como sigue:
x_{(1)}=155, x_{(2)}=165, x_{(3)}=170, x_{(4)}=182, x_{(5)}=185
donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:
R=x_{(k)}-x_{(1)}
En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.

ANCHURA DE INTERVALOS DE CLASE:

Tipos de intervalos de clase Este tipo de clase es el más utilizado en los cálculos estadísticos; cuando todas las clases son del mismo tamaño, los cálculos relacionados con la distribución de frecuencia son simplificados considerablemente. En términos generales, este tipo de distribución es el que se utiliza comúnmente en casi todas las investigaciones. 


Ejemplo:CLASEFi
5 – 75
8 – 1010
11 – 1315
14 – 1618
17 – 1911
20 – 225
Totales64

Clase desigual de tamaño Los intervalos de clase son desiguales no son frecuentes en el análisis estadístico, la utilización de los mismos se debe evitar; sin embargo, en algunas 

investigaciones es indispensable su utilización; tal es el caso de las investigaciones que tienen como propósito particular analizar valores que varían en un amplio recorrido de la variable. Cuando se utiliza este tipo de clase de los intervalos de clase deberían ser incrementados de una forma ordenada, de ser posible. Este tipo de clases se utiliza algunas veces para reportar datos relacionados con valuaciones de activos o ingresos personales. 


Ejemplo: CLASEfi
Menos de 150,00067?
150,000 – 239,00036194,500
340,000 – 429,00010384,500
430,000 – 519,0008474,500
520,000 – 609,0007564,500
610,000 – 699,0008654,500
700,000 – 789,0007744,500
790,000 – y más7?
TOTALES135

NCRIc
La amplitud de clase, longitud o ancho de una clase Es el número de valores o variables que concurren a una clase determinada. La amplitud de clase se designa con las letras Ic. Existen diversos criterios para determinar la amplitud de clases, ante esa diversidad de criterios, se ha considerado que lo más importante es dar un ancho de longitud de clase a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la práctica. Existe una fórmula para determinar Ic y se expresa así: Ic=R/NC

Donde: 
Ic = Amplitud de clase 
R= Rango 
NC = Número de clases 
Con la fórmula anterior se puede determinar 

Ic=R/1+322.3(LOG,N)
Sturges el cual establece que: 

Donde: 
Ic = Amplitud de clase 
R = Rango 
N = Número total de datos 
Nota: Normalmente el resultado final es un número fraccionario, el cual no es adecuado para la práctica, sin embargo, se puede aplicar la técnica de redondeo para convertirlo en un número entero. 
Nosotros utilizaremos el método de Sturges para determinar el 
Ejemplo: 
Sean los siguientes datos horas extras laboradas por obreros en un mes. Calcule el rango y el intervalo de clase. 
22 39 37 28 23 39 24 38 31 35 36 28 23 27 38 40 22 23 36 27 
32 33 26 60 39 33 40 27 34 22 30 31 37 33 41 39 58 59 56 41 
54 56 57 58 39 40 34 45 53 52 52 28 36 37 40 26 34 25 23 32 
56 33 58 40 36 25 42 33 45 55 29 52 38 28 38 38 32 42 53 58 
45 43 40 28 60 41 37 42 31 45 30 28 40 37 28 44 40 39 57 60 
=100 DATOS R = X
R = 60 – 22 + 1 
R = 38+1 
R = 39 

Ic=R/1+322.3(LOG,N)
ic=39/1+322.3(log,100)
ic=39/1+322.3(2)
ic=39/7.644
ic=5.1020.
Por lo tanto, el ancho de la clase será de 5. M – Xm + UM Ic de una distribución de frecuencia de clase siempre y cuando el mismo sea aplicable. Ic, conociendo el rango y el número de clases. Cuando se tenga duda en determinar la amplitud de clase de una serie de valores, es de gran utilidad utilizar el método sugerido por Hebert, A. 

Clase de igual tamaño

CATEGORÍA:
La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc.
Cuando la variable se mide cuantitativamente, es decir cuando se expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa.

INTERVALOS DE CLASE Y LIMITES DE CLASE:
Los intervalos de clase se emplean si las variables toman un número grande de valores o la variable es continua.Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clasese le asigna su frecuencia correspondiente.Límites de la claseCada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.RangoEl rango de clase, conocido también como amplitud de clase o recorrido de clase, es el límite dentro de los cuales están comprendidos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio de investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango de una distribución de frecuencia se designa con la letra R.
UM normalmente es igual a 1, y se obtiene al obtener la diferencia entre 2 ó más datos consecutivos de la serie de valores, sin embargo pueden ser menor a la unidad.EJEMPLOABC
OBSERVACIONES6, 9 , 11, 12, 19, 20, 26, 27, 32, 33, 390.5, 0.6, 0.10, 0.11, 0.19, 0.21, 0.226, 9, 21, 33, 39, 48
UNIDAD DE MEDIDA10.13

Para calcular el rango se utiliza la siguiente fórmula:

R
= XM - Xm + UM
Dónde:
R = Rango
X
X
UM = Unidad de Medida, que por lo general es la unidad.
Con los siguientes datos, que corresponden a los años de servicio de 60 empleados de la empresa "X", calcule el rango de la distribución de la frecuencia:
35456789108
4863810710910
83578610978
538781081087
7987657889
810767867610

R
= XM - Xm + UM
Sustituyendo:
R = 10 – 3 + 1 = 8,
Entonces el rango es igual a 8.
Anchura o intervalo de clase
Son las divisiones o categorías en las cuales se agrupa un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre los dos límites (límite Superior de la Clase y Límite Inferior de la Clase).
Límite o frontera de clase
Las clases de una distribución de frecuencia indican las cotas o fronteras de cada clase en la distribución, las clases están formadas por dos números denominados límites aparentes (LA), ejemplo 32 – 37, el primero de estos dos (32) se llama límite inferior aparente (LIA) y el segundo (37) se le denomina límite superior aparente (LSA).
Límites reales
Los límites reales o verdaderos de una clase son aquéllos que se obtienen restándole media unidad de medida al límite aparente inferior de una clase y sumándole media unidad de medida al límite superior aparente de las diferentes clases, es decir, son valores no observables de la variable en estudio, puesto que no lo registra la unidad utilizada. Y se denominarán límite inferior real (LIR) y límite superior real (LSR).
En el ejemplo anterior, los límites reales aparentes quedarían:
CLASELIALSALIRLSR
32-37323731.537.5
M = Dato mayor m = Dato menor

DISTRIBUCIÓN DE FRECUENCIAS:

En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría.1 Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas.
Una distribución de frecuencia es un formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los [datos] y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por pudin otra parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representar gráficamente en un histograma(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos devalores.
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.

MEDIDAS DE TENDENCIA CENTRAL
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
  • Media.
  • Media ponderada.
  • Media geométrica.
  • Media armónica.
  • Mediana.
  • Moda.
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.

MEDIA:

En matemáticas y estadística una media o promedio es una medida de tendencia central que según la Real Academia Española resulta al efectuar una serie determinada de operaciones con un conjunto de números y que, en determinadas condiciones, puede representar por sí solo a todo el conjunto.

MEDIA ARITMÉTICA:
La media aritmética es un promedio estándar que a menudo se denomina "promedio".
 \bar{x} = \frac{1}{n} \sum_{i=1}^n{x_i}
La media se confunde a veces con la mediana o moda. La media aritmética es el promedio de un conjunto de valores, o su distribución; sin embargo, para las distribuciones con sesgo, la media no es necesariamente el mismo valor que la mediana o que la moda. La media, moda y mediana son parámetros característicos de una distribución de probabilidad. Es a veces una forma de medir el sesgo de una distribución tal y como se puede hacer en las distribuciones exponencial y de Poisson.
MEDIA ARITMÉTICA PONDERADA:
A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada. Si X_1,X_2,...,X_nes un conjunto de datos o media muestral y w_1,w_2,...,w_n son números reales positivos, llamados "pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como:
\bar{X}_w = \frac{X_1\cdot w_1 + X_2\cdot w_2 + ... + X_n\cdot w_n}{w_1+w_2+...+w_n} = \frac{\sum_{i=1}^n X_i\cdot w_i}{\sum_{i=1}^n w_i}
La media es invariante frente a transformaciones lineales, cambio de origen y escala, de las variables, es decir si X es una variable aleatoria e Y es otra variable aleatoria que depende linealmente de X, es decir, Y = a·X + b (donde a representa la magnitud del cambio de escala y b la del cambio de origen) se tiene que:
\bar{Y} = a\bar{X} + b

MEDIA PONDERADA

La media ponderada es una medida de tendencia central, que es apropiada cuando en un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso) respecto de los demás datos. Se obtiene del cociente entre la suma de los productos de cada dato por su peso o ponderación y la suma de los pesos.

Para una serie de datos no vacía
X = \{ x_1, x_2, x_3..., x_n \} \,
a la que corresponden los pesos
 W = \{ w_1, w_2, ..., w_n \} \,
la media ponderada se calcula de la siguiente manera

\bar{x} = \frac{ \sum_{i=1}^n x_i w_i }{\sum_{i=1}^n w_i} = \frac{ x_1 w_1  + x_2 w_2  + x_3 w_3 + ... + x_n w_n }{w_1 + w_2 + w_3 + ... + w_n}
Un ejemplo es la obtención de la media ponderada de las notas en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen. Así, se multiplicaría cada nota por su correspondiente peso y el resultado obtenido se divide entre la suma de los pesos asignados.
EJEMPLO:
Datos: X = \{10, 7, 6.4\} \,
Pesos: W = \{5, 3, 2\} \,
Media Ponderada:
\bar{x} = \frac{10\cdot 5 + 7\cdot 3+ 6.4\cdot 2}{5+3+2}= 8.38 \,
MEDIA GEOMÉTRICA:
La media geométrica es un promedio muy útil en conjuntos de números que son interpretados en orden de su producto, no de su suma (tal y como ocurre con la media aritmética). Por ejemplo, las velocidades de crecimiento.
 \bar{x} = \left ( \prod_{i=1}^n{x_i} \right ) ^{1/n}

EJEMPLO:
la media geométrica de la serie de números 34, 27, 45, 55, 22, 34 (seis valores) es  (34\cdot27\cdot45\cdot55\cdot22\cdot34)^{1/6} = 1699493400^{1/6} \approx 34,545

MEDIA ARMÓNICA:
La media armónica es un promedio muy útil en conjuntos de números que se definen en relación con alguna unidad, por ejemplo la velocidad (distancia por unidad de tiempo).
 \bar{x} = n \cdot \left ( \sum_{i=1}^n \frac{1}{x_i} \right ) ^{-1}
EJEMPLOS:
la media armónica de los números: 34, 27, 45, 55, 22, y 34 es:
\frac{6}{\frac{1}{34}+\frac{1}{27}+\frac{1}{45} + \frac{1}{55} + \frac{1}{22}+\frac{1}{34}}\approx 33,018



MEDIANA

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.4 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}


Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

MODA

La moda se refiere al dato más repetido, el valor de la variable con mayor frecuencia absoluta.2 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }
Siendo n_{i} la frecuencia absoluta del intervalo modal y n_{i-1} y n_{i+1} las frecuencias absolutas de los intervalos anterior y posterior, respectivamente.

MEDIANA

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.

EJEMPLOS:

la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}
Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.