Análisis Exploratorio
Enviado por • 23 de Febrero de 2015 • 731 Palabras (3 Páginas) • 199 Visitas
El análisis exploratorio de datos (EDA), según unos, nueva rama de la estadística, según otros, una extensión de la estadística descriptiva, propugna un cambio de actitud y de enfoque metodológico ante el análisis de datos.
El EDA propugna que previo a cualquier análisis estadístico, es necesario un examen cualitativo de los datos, hay que comprender y reflexionar sobre la información que ellos contienen.
La estadística descriptiva clásica se ocupa de describir los datos a través de gráficos y de algunas medidas de tendencia central y de dispersión. El EDA tiene los mismos objetivos pero además pretende detectar anomalías o errores en las distribuciones univariantes de los datos. También intenta descubrir patrones o modelos. Para ello incorpora nuevas técnicas gráficas y busca estadísticos resistentes y robustos basados en las estadísticas de orden y centrados en la mediana.
El EDA potencializa los índices de forma, y la utilización de gráficos, prácticamente, como un índice más, una gráfica bien realizada puede ser más informativa que un conjunto de números.
Estadística descriptiva
Frecuencias e histogramas
Supongamos que se tiene un conjunto de n observaciones , denominado muestra, de una variable aleatoria X o de una población !. Uno de los problemas es conocer la distribución de la muestra. Con este fin se divide a la muestra en rangos o clases continuas de igual longitud, sean los rangos.
Frecuencia relativa
La frecuencia relativa de la clase rj es:
Si la muestra es aleatoria y n es suficientemente grande, se puede hacer la siguiente aproximación
Es la probabilidad empírica (suma de frecuencias), mientras que P es la probabilidad teórica.
Histograma
El gráfico de las frecuencias relativas; en ordenadas los valores fj y en abscisas las clases rj, se denomina histograma. Es claro que la forma del histograma depende del número de clases, no deben ser muchas ni muy pocas. No existe una regla que determine el número de clases, en general deben ser alrededor de y no menos de 5.
Función de distribución (empírica)
También se define la función de distribución acumulada
Donde uno de los pilares de la estadística clásica es la convergencia de la distribución empírica hacia la distribución teórica.
Medidas de tendencia central y de dispersión
Media
Es el índice clásico de tendencia central. Se define por:
Moda
Es el valor o los valores más frecuentes.
Su uso es restringido porque pueden existir varias modas o su frecuencia puede ser irrelevante con respecto a la frecuencia de los otros datos, en especial cuando los datos son de tipo continuo. Si en el ejemplo anterior, calculamos la frecuencia de cada uno de los salarios, vemos que todos tienen la misma frecuencia, no existe una moda, pero si consideramos los 5 rangos
...