jueves, 7 de noviembre de 2013




ANÁLISIS DE DATOS DE DOS VARIABLES.





REPRESENTACIÓN DE DATOS DE DOS VARIABLES.
Datos de dos variables: Estos datos constan de valores diferentes que se obtienen del mismo elemento de la población.

Cada una de las dos variables puede ser naturaleza cualitativa o cuantitativa. Como resultado, los datos de dos variables pueden formarse mediante tres combinaciones de tipos de variables:
* Ambas variables son cualitativas (de atributo): Cuando los datos bivariados resultan de dos variables cualitativas (de atributo o categóricas), a menudo los datos se disponen en una tabla de clasificación o de contingencia
* Una variable es cualitativa (de atributo) y otra es cuantitativa (numérica): Cuando los datos se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa.
* Ambas variables son cuantitativas (numéricas):Cuando los datos son resultados de dos variables cuantitativas, los datos suelen expresarse matemáticamente como pares ordenados (X, Y), donde X es la variable de entrada (algunas veces se denomina variable independiente) y Y es la variable de salida (algunas veces se denomina variable dependiente). Se dice que los datos están ordenados porque siempre se escribe primero un valor X, y se explica que están pareados porque para cada valor X existe un valor Y correspondiente que proviene de la misma fuente.
4.1.1 Tabla de Contingencia
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.


Este tema se centra en el estudio conjunto de dos variables. 

Dos variables cualitativas 

- Tabla de datos 
- Tabla de contingencia 
- Diagrama de barras 
- Tabla de diferencias entre frecuencias empíricas y teóricas 
- Calculo de coeficiente X2 
- Cálculo del coeficiente de contingencia 

Dos variables cuantitativas 

- Tabla de datos conjuntos 
- Diagrama de dispersión 
- Cálculo de covarianza 
- Cálculo del coeficiente de correlación de Pearson 

Además… 

Si dos variables cuantitativas están relacionadas linealmente utilizaremos la recta de 
regresión. 

CONCEPTOS PREVIOS 
Asociación y/o relación entre dos variables: Dos variables están relacionadas entre sí 
cuando ciertos valores de una de las variables se asocian con ciertos valores de la otra 
variable. 

ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS 

Recordamos que la variable cualitativa era aquella que estaba medida en una escala 
nominal o de clasificación (tema 1). Además pueden ser: 

Dicotómicas: Cuando solo representan dos categorías 
Politómicas: Cuando representan un mayor número 

Cuando se dispone de los datos de dos variables cualitativas para todos los sujetos de una 
muestra, se puede elaborar la Tabla de contingencia y su correspondiente diagrama de 
barras (página 125). Los datos de esta tabla son las frecuencias empíricas u observadas y 
se representan por (ne) 

4. CORRELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS 

Nos presentan una tabla de datos conjuntos (página 132) 

Lo primero que hacemos es elaborar el diagrama de dispersión o nube de puntos 
(página 133) 

Una vez realizado el diagrama y tan sólo observándolo, podemos decir que existe una 
relación lineal en las variables X e Y. Es decir, a valores mayores de X corresponderán 
valores mayores de Y y viceversa. 

REGRESIÓN LINEAL 

Cuando existe relación lineal podemos utilizar la recta de regresión para efectuar 
pronósticos de los valores de una variable a partir de otra variable. 

Y = a + bX 

REPRESENTACIÓN DE DATOS
Datos de dos variables.- Estos datos constan de los valores de dos variables diferentes que se obtienen del mismo elemento de la población 
Cuantitativa.- Es aquella que puede medirse numéricamente (edad, talla, altura)
Cualitativa.- son aquellas que no se miden numéricamente sino que se ordenan en categorías (sexo, nacionalidad)
Dos variables continuas
Cuando las dos resultan de dos variables continuas, los datos se disponen en una tabla de contingencia. Con (R) renglones y (C) columnas que se le conoce como una tabla R(C) y a los totales de los renglones y columnas se les denomina frecuencias marginales.
Ejemplo
Treinta estudiantes de la universidad fueron identificados y clasificados aleatoriamente según dos variables 1) genero (masculino/femenino) 2) especialización (filosofía y letras/administración/tecnología) 
Las frecuencias observadas se representan en la siguiente tabla de contingencias:



ESPECIALIZACIÓN
genero | Filosofía y letras | Administración | Tecnología | Total |
Masculino | 5 | 6 | 7 | 18 |
Femenino | 6 | 4 | 2 | 12 |
Total | 11 | 10 | 9 | 30 |




FRECUENCIAS MARGINALES



De acuerdo con el ejemplo anterior la hipótesis que se planea es determinar si las opiniones son independientes de acuerdo a las materias de cada especialización o no son independientes. La llamamos hipótesis nula (Ho). 
Se basa en que se adjuntan las frecuencias observadas en cada una de las seis celdas y las frecuencias que se esperan para cada celda bajo la posición de que la Ho es verdadera o no.



ANÁLISIS DESCRIPTIVO
Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más complejos, un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando2.
Para variables categóricas3, como el sexo, estadio TNM, profesión, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría. Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores. En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la . Como se puede observar, la información que se debe mostrar en cada sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad dichos subgrupos.
Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase . Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman pocos valores (número de hijos, número de recidivas, etc.).
Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo,muestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. Si se divide este rango en intervalos de dos años, el primer tramo está comprendido entre los 18 y 19 años, entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura proporcional a 4. Procediendo así sucesivamente, se construye el histograma que se muestra en la . Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediantediagramas de cajas. La  muestra un gráfico de cajas correspondiente a los datos de la . La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable respecto a los cuantiles de la distribución normal. En la se muestra el gráfico P-P correspondientes a los datos de la que sugiere, al igual que el correspondiente histograma y el diagrama de cajas, que la distribución de la variable se aleja de la normalidad.

COMPARACIÓN DE DOS MAS GRUPOS
Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando.
Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos que tienen algún familiar con antecedentes cardiacos. A partir de dicha muestra podemos representar, como se hace en la , dos grupos de barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el gráfico podría resultar engañoso.
Por otro lado, la comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error, como en la. En él se compara el índice de masa corporal en una muestra de hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos.
Por último, señalar que también en esta situación pueden utilizarse los ya conocidos gráficos de barras, representando aquí como altura de cada barra el valor medio de la variable de interés. Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo . No son más que una serie de puntos conectados entre sí mediante rectas, donde cada punto puede representar distintas cosas según lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada grupo, etc).

RELACIÓN ENTRE VARIABLES NUMÉRICAS

Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria, podemos construir el diagrama de dispersión de la 
. En él puede observarse claramente como existe una relación directa entre ambas variables, y valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de variables cuando se ajusta un modelo de regresión lineal.




lunes, 4 de noviembre de 2013

MEDIDAS DE TENDENCIA CENTRAL

medidas de tendencia central




Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición. En este caso se incluyen también los cuantiles entre estas medidas.



Entre las medidas de tendencia central tenemos:
media
mediana
moda


existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas


media aritmetica:       



La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.
Por ejemplo, las notas de 5 alumnos en una prueba

niño          nota
1               6.0
2                5.4
3                3.1                           primero se suman las notas de todos los niños,posterior mente se dividen
4                7.0                           entre la cantidad de niños des decir  suma = 27.6 / 5 = 5.52
5                6.1



MODA:  


La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.


MEDIANA:
-
La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor. Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2.


En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales
1,1,1,1,1      1,2      2,2,3,3,4   se toma como mediana   1+2/2 =  1.5  

martes, 1 de octubre de 2013

ESTADÍSTICA 2

CARACTERÍSTICAS DE UNA TABLA:

RANGO:
En estadística descriptiva se denomina rango estadístico (R) o recorrido estadístico, a la diferencia entre el valor máximo y el valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.
EJEMPLOS:
 para una serie de datos de carácter cuantitativo, como lo es la estatura medida en centímetros, tendríamos:
x_1=185, x_2=165, x_3=170, x_4=182, x_5=155
es posible ordenar los datos como sigue:
x_{(1)}=155, x_{(2)}=165, x_{(3)}=170, x_{(4)}=182, x_{(5)}=185
donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:
R=x_{(k)}-x_{(1)}
En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.

ANCHURA DE INTERVALOS DE CLASE:

Tipos de intervalos de clase Este tipo de clase es el más utilizado en los cálculos estadísticos; cuando todas las clases son del mismo tamaño, los cálculos relacionados con la distribución de frecuencia son simplificados considerablemente. En términos generales, este tipo de distribución es el que se utiliza comúnmente en casi todas las investigaciones. 


Ejemplo:CLASEFi
5 – 75
8 – 1010
11 – 1315
14 – 1618
17 – 1911
20 – 225
Totales64

Clase desigual de tamaño Los intervalos de clase son desiguales no son frecuentes en el análisis estadístico, la utilización de los mismos se debe evitar; sin embargo, en algunas 

investigaciones es indispensable su utilización; tal es el caso de las investigaciones que tienen como propósito particular analizar valores que varían en un amplio recorrido de la variable. Cuando se utiliza este tipo de clase de los intervalos de clase deberían ser incrementados de una forma ordenada, de ser posible. Este tipo de clases se utiliza algunas veces para reportar datos relacionados con valuaciones de activos o ingresos personales. 


Ejemplo: CLASEfi
Menos de 150,00067?
150,000 – 239,00036194,500
340,000 – 429,00010384,500
430,000 – 519,0008474,500
520,000 – 609,0007564,500
610,000 – 699,0008654,500
700,000 – 789,0007744,500
790,000 – y más7?
TOTALES135

NCRIc
La amplitud de clase, longitud o ancho de una clase Es el número de valores o variables que concurren a una clase determinada. La amplitud de clase se designa con las letras Ic. Existen diversos criterios para determinar la amplitud de clases, ante esa diversidad de criterios, se ha considerado que lo más importante es dar un ancho de longitud de clase a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la práctica. Existe una fórmula para determinar Ic y se expresa así: Ic=R/NC

Donde: 
Ic = Amplitud de clase 
R= Rango 
NC = Número de clases 
Con la fórmula anterior se puede determinar 

Ic=R/1+322.3(LOG,N)
Sturges el cual establece que: 

Donde: 
Ic = Amplitud de clase 
R = Rango 
N = Número total de datos 
Nota: Normalmente el resultado final es un número fraccionario, el cual no es adecuado para la práctica, sin embargo, se puede aplicar la técnica de redondeo para convertirlo en un número entero. 
Nosotros utilizaremos el método de Sturges para determinar el 
Ejemplo: 
Sean los siguientes datos horas extras laboradas por obreros en un mes. Calcule el rango y el intervalo de clase. 
22 39 37 28 23 39 24 38 31 35 36 28 23 27 38 40 22 23 36 27 
32 33 26 60 39 33 40 27 34 22 30 31 37 33 41 39 58 59 56 41 
54 56 57 58 39 40 34 45 53 52 52 28 36 37 40 26 34 25 23 32 
56 33 58 40 36 25 42 33 45 55 29 52 38 28 38 38 32 42 53 58 
45 43 40 28 60 41 37 42 31 45 30 28 40 37 28 44 40 39 57 60 
=100 DATOS R = X
R = 60 – 22 + 1 
R = 38+1 
R = 39 

Ic=R/1+322.3(LOG,N)
ic=39/1+322.3(log,100)
ic=39/1+322.3(2)
ic=39/7.644
ic=5.1020.
Por lo tanto, el ancho de la clase será de 5. M – Xm + UM Ic de una distribución de frecuencia de clase siempre y cuando el mismo sea aplicable. Ic, conociendo el rango y el número de clases. Cuando se tenga duda en determinar la amplitud de clase de una serie de valores, es de gran utilidad utilizar el método sugerido por Hebert, A. 

Clase de igual tamaño

CATEGORÍA:
La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc.
Cuando la variable se mide cuantitativamente, es decir cuando se expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa.

INTERVALOS DE CLASE Y LIMITES DE CLASE:
Los intervalos de clase se emplean si las variables toman un número grande de valores o la variable es continua.Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clasese le asigna su frecuencia correspondiente.Límites de la claseCada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.RangoEl rango de clase, conocido también como amplitud de clase o recorrido de clase, es el límite dentro de los cuales están comprendidos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio de investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango de una distribución de frecuencia se designa con la letra R.
UM normalmente es igual a 1, y se obtiene al obtener la diferencia entre 2 ó más datos consecutivos de la serie de valores, sin embargo pueden ser menor a la unidad.EJEMPLOABC
OBSERVACIONES6, 9 , 11, 12, 19, 20, 26, 27, 32, 33, 390.5, 0.6, 0.10, 0.11, 0.19, 0.21, 0.226, 9, 21, 33, 39, 48
UNIDAD DE MEDIDA10.13

Para calcular el rango se utiliza la siguiente fórmula:

R
= XM - Xm + UM
Dónde:
R = Rango
X
X
UM = Unidad de Medida, que por lo general es la unidad.
Con los siguientes datos, que corresponden a los años de servicio de 60 empleados de la empresa "X", calcule el rango de la distribución de la frecuencia:
35456789108
4863810710910
83578610978
538781081087
7987657889
810767867610

R
= XM - Xm + UM
Sustituyendo:
R = 10 – 3 + 1 = 8,
Entonces el rango es igual a 8.
Anchura o intervalo de clase
Son las divisiones o categorías en las cuales se agrupa un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre los dos límites (límite Superior de la Clase y Límite Inferior de la Clase).
Límite o frontera de clase
Las clases de una distribución de frecuencia indican las cotas o fronteras de cada clase en la distribución, las clases están formadas por dos números denominados límites aparentes (LA), ejemplo 32 – 37, el primero de estos dos (32) se llama límite inferior aparente (LIA) y el segundo (37) se le denomina límite superior aparente (LSA).
Límites reales
Los límites reales o verdaderos de una clase son aquéllos que se obtienen restándole media unidad de medida al límite aparente inferior de una clase y sumándole media unidad de medida al límite superior aparente de las diferentes clases, es decir, son valores no observables de la variable en estudio, puesto que no lo registra la unidad utilizada. Y se denominarán límite inferior real (LIR) y límite superior real (LSR).
En el ejemplo anterior, los límites reales aparentes quedarían:
CLASELIALSALIRLSR
32-37323731.537.5
M = Dato mayor m = Dato menor

DISTRIBUCIÓN DE FRECUENCIAS:

En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría.1 Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas.
Una distribución de frecuencia es un formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los [datos] y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por pudin otra parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representar gráficamente en un histograma(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos devalores.
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.

MEDIDAS DE TENDENCIA CENTRAL
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
  • Media.
  • Media ponderada.
  • Media geométrica.
  • Media armónica.
  • Mediana.
  • Moda.
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.

MEDIA:

En matemáticas y estadística una media o promedio es una medida de tendencia central que según la Real Academia Española resulta al efectuar una serie determinada de operaciones con un conjunto de números y que, en determinadas condiciones, puede representar por sí solo a todo el conjunto.

MEDIA ARITMÉTICA:
La media aritmética es un promedio estándar que a menudo se denomina "promedio".
 \bar{x} = \frac{1}{n} \sum_{i=1}^n{x_i}
La media se confunde a veces con la mediana o moda. La media aritmética es el promedio de un conjunto de valores, o su distribución; sin embargo, para las distribuciones con sesgo, la media no es necesariamente el mismo valor que la mediana o que la moda. La media, moda y mediana son parámetros característicos de una distribución de probabilidad. Es a veces una forma de medir el sesgo de una distribución tal y como se puede hacer en las distribuciones exponencial y de Poisson.
MEDIA ARITMÉTICA PONDERADA:
A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada. Si X_1,X_2,...,X_nes un conjunto de datos o media muestral y w_1,w_2,...,w_n son números reales positivos, llamados "pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como:
\bar{X}_w = \frac{X_1\cdot w_1 + X_2\cdot w_2 + ... + X_n\cdot w_n}{w_1+w_2+...+w_n} = \frac{\sum_{i=1}^n X_i\cdot w_i}{\sum_{i=1}^n w_i}
La media es invariante frente a transformaciones lineales, cambio de origen y escala, de las variables, es decir si X es una variable aleatoria e Y es otra variable aleatoria que depende linealmente de X, es decir, Y = a·X + b (donde a representa la magnitud del cambio de escala y b la del cambio de origen) se tiene que:
\bar{Y} = a\bar{X} + b

MEDIA PONDERADA

La media ponderada es una medida de tendencia central, que es apropiada cuando en un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso) respecto de los demás datos. Se obtiene del cociente entre la suma de los productos de cada dato por su peso o ponderación y la suma de los pesos.

Para una serie de datos no vacía
X = \{ x_1, x_2, x_3..., x_n \} \,
a la que corresponden los pesos
 W = \{ w_1, w_2, ..., w_n \} \,
la media ponderada se calcula de la siguiente manera

\bar{x} = \frac{ \sum_{i=1}^n x_i w_i }{\sum_{i=1}^n w_i} = \frac{ x_1 w_1  + x_2 w_2  + x_3 w_3 + ... + x_n w_n }{w_1 + w_2 + w_3 + ... + w_n}
Un ejemplo es la obtención de la media ponderada de las notas en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen. Así, se multiplicaría cada nota por su correspondiente peso y el resultado obtenido se divide entre la suma de los pesos asignados.
EJEMPLO:
Datos: X = \{10, 7, 6.4\} \,
Pesos: W = \{5, 3, 2\} \,
Media Ponderada:
\bar{x} = \frac{10\cdot 5 + 7\cdot 3+ 6.4\cdot 2}{5+3+2}= 8.38 \,
MEDIA GEOMÉTRICA:
La media geométrica es un promedio muy útil en conjuntos de números que son interpretados en orden de su producto, no de su suma (tal y como ocurre con la media aritmética). Por ejemplo, las velocidades de crecimiento.
 \bar{x} = \left ( \prod_{i=1}^n{x_i} \right ) ^{1/n}

EJEMPLO:
la media geométrica de la serie de números 34, 27, 45, 55, 22, 34 (seis valores) es  (34\cdot27\cdot45\cdot55\cdot22\cdot34)^{1/6} = 1699493400^{1/6} \approx 34,545

MEDIA ARMÓNICA:
La media armónica es un promedio muy útil en conjuntos de números que se definen en relación con alguna unidad, por ejemplo la velocidad (distancia por unidad de tiempo).
 \bar{x} = n \cdot \left ( \sum_{i=1}^n \frac{1}{x_i} \right ) ^{-1}
EJEMPLOS:
la media armónica de los números: 34, 27, 45, 55, 22, y 34 es:
\frac{6}{\frac{1}{34}+\frac{1}{27}+\frac{1}{45} + \frac{1}{55} + \frac{1}{22}+\frac{1}{34}}\approx 33,018



MEDIANA

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.4 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}


Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

MODA

La moda se refiere al dato más repetido, el valor de la variable con mayor frecuencia absoluta.2 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }
Siendo n_{i} la frecuencia absoluta del intervalo modal y n_{i-1} y n_{i+1} las frecuencias absolutas de los intervalos anterior y posterior, respectivamente.

MEDIANA

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.

EJEMPLOS:

la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}
Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.