ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Análisis Exploratorio


Enviado por   •  23 de Febrero de 2015  •  731 Palabras (3 Páginas)  •  199 Visitas

Página 1 de 3

El análisis exploratorio de datos (EDA), según unos, nueva rama de la estadística, según otros, una extensión de la estadística descriptiva, propugna un cambio de actitud y de enfoque metodológico ante el análisis de datos.

El EDA propugna que previo a cualquier análisis estadístico, es necesario un examen cualitativo de los datos, hay que comprender y reflexionar sobre la información que ellos contienen.

La estadística descriptiva clásica se ocupa de describir los datos a través de gráficos y de algunas medidas de tendencia central y de dispersión. El EDA tiene los mismos objetivos pero además pretende detectar anomalías o errores en las distribuciones univariantes de los datos. También intenta descubrir patrones o modelos. Para ello incorpora nuevas técnicas gráficas y busca estadísticos resistentes y robustos basados en las estadísticas de orden y centrados en la mediana.

El EDA potencializa los índices de forma, y la utilización de gráficos, prácticamente, como un índice más, una gráfica bien realizada puede ser más informativa que un conjunto de números.

Estadística descriptiva

Frecuencias e histogramas

Supongamos que se tiene un conjunto de n observaciones , denominado muestra, de una variable aleatoria X o de una población !. Uno de los problemas es conocer la distribución de la muestra. Con este fin se divide a la muestra en rangos o clases continuas de igual longitud, sean los rangos.

Frecuencia relativa

La frecuencia relativa de la clase rj es:

Si la muestra es aleatoria y n es suficientemente grande, se puede hacer la siguiente aproximación

Es la probabilidad empírica (suma de frecuencias), mientras que P es la probabilidad teórica.

Histograma

El gráfico de las frecuencias relativas; en ordenadas los valores fj y en abscisas las clases rj, se denomina histograma. Es claro que la forma del histograma depende del número de clases, no deben ser muchas ni muy pocas. No existe una regla que determine el número de clases, en general deben ser alrededor de y no menos de 5.

Función de distribución (empírica)

También se define la función de distribución acumulada

Donde uno de los pilares de la estadística clásica es la convergencia de la distribución empírica hacia la distribución teórica.

Medidas de tendencia central y de dispersión

Media

Es el índice clásico de tendencia central. Se define por:

Moda

Es el valor o los valores más frecuentes.

Su uso es restringido porque pueden existir varias modas o su frecuencia puede ser irrelevante con respecto a la frecuencia de los otros datos, en especial cuando los datos son de tipo continuo. Si en el ejemplo anterior, calculamos la frecuencia de cada uno de los salarios, vemos que todos tienen la misma frecuencia, no existe una moda, pero si consideramos los 5 rangos

...

Descargar como (para miembros actualizados) txt (5 Kb)
Leer 2 páginas más »
Disponible sólo en Clubensayos.com