Diagrama De Caja O Boxplot
Enviado por • 5 de Noviembre de 2014 • 1.000 Palabras (4 Páginas) • 507 Visitas
Diagrama de Caja o Boxplot
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.
Es la representación gráfica, basada en cuartiles, que ayuda a exhibir un conjunto de datos. Para construir un diagrama de caja, solo se necesita cinco estadísticos: el valor mínimo, Q1 (cuartel 1), la mediana, Q3 (cuartel 3) y el valor máximo.
Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica. Son útiles para ver la presencia de valores atípicos.
En 1977 John Tukey (citado por Hildebrand, 1997) publicó un tipo de gráfico estadístico para resumir información utilizando 5 medidas estadísticas: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo. Este tipo de gráfico recibe el nombre de gráfico de caja (boxplot).
Un gráfico de este tipo consiste en un rectángulo (caja), donde los lados más largos muestran el recorrido intercuartílico (RIC). Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero ( recordemos que el segundo cuartil coincide con la mediana).
Este rectángulo se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Estos segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes. ( Freund, Williams y Perles, 1992).
Tomemos un ejemplo: (Gráfico 1)
La variable medida en este caso es : tiempo en segundos para recorrer 100 m
Mediana
Primer cuartil Tercer cuartil
Valor mínimo de la variable Valor máximo de la variable
Los bigotes tienen un límite de prolongación, de modo que aquellos valores atípicos que se separan del cuerpo principal de datos se indican individualmente. A diferencia de otros métodos de presentación de datos, los gráficos de caja muestran los valores atípicos de la variable. Llamaremos valores atípicos de la variable a aquellos que están tan apartados del cuerpo principal de los datos que bien pueden representar los efectos de causas extrañas, como algún error de medición o registro. Su eliminación no se justifica, ya que el propósito del gráfico de caja consiste en brindarnos un mayor conocimiento de la forma en que se distribuyen los datos.
Tukey ( citado por Hildebrand, 1997) introduce un criterio para fijar los extremos de los bigotes. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Barrera interior inferior=Primer cuartil – 1,5 . RIC
Barrera interior superior=Tercer cuartil + 1,5 . RIC
Barrera exterior inferior=Primer cuartil – 3 . RIC
Barrera exterior superior=Tercer cuartil + 3 . RIC
Recordemos que RIC (Recorrido Intercuartílico)
...