Pruebas de bondad de ajuste y pruebas no paramétricas

letyxya23 de Agosto de 2013

5.277 Palabras (22 Páginas)984 Visitas

Página 1 de 22

El tema a desarrollar para evaluar Unidad 4, es como sigue:

1. Tema: Pruebas de bondad de ajuste y pruebas no paramétricas (Portada de presentación: diseñada por Equipo)

2. Se entregará un documento en MSWord (Descripción de cada tema del contenido) y MSPowerPoint en B/N (Resúmen Ejecutivo a presentar ante el Grupo)

3. Contenido:

+ Introducción

+ ¿Qué es bondad de ajuste y qué son estos tipos de pruebas? (definición, objetivo y aplicaciones)

+ Análisis Ji-Cuadrada

+ Prueba de independencia

+ Prueba de la bondad de ajuste (Generalidades y descripción de ejemplos)

+ Tablas de contingencia (Generalidades y descripción)

+ Pruebas no paramétricas (Generalidades y descripción)

+ Escala de medición (Generalidades y descripción)

+ Métodos Estadísticos VS Métodos no Paramétricos

+ Página de comentarios y conclusiones del Equipo de Trabajo

Entrega y presentación de trabajo: del 26 al 30 de noviembre.

NOTA: entregar documentos en engargolado simple o en carpeta de broche de presión o seguro girator

BONDAD DE AJUSTE

Introduccion

Una de las bases fundamentales del control estadístico de la calidad es la inferencia estadística. Por ello, la determinación del tipo de distribución correspondiente a un conjunto de datos provenientes del estudio es absolutamente necesaria. La prueba de bondad de ajuste permite probar el ajuste de los resultados de un experimento a una distribución de probabilidad teórica sujeto a un error o nivel de confianza.

El método en cuestión se basa en la comparación de las frecuencias absolutas observadas y las frecuencias absolutas esperadas, calculadas a partir de la distribución teórica en análisis.

Definicion.

La bondad de ajuste o coeficiente de determinación (R2) es una manera de medir la aproximación de la recta a la nube de puntos.

R2 puede tomar valores entre 0 y 1 (0 y 100 en términos de tanto por ciento). Cuanto más se aproxime a 1 mejor será el ajuste a la nube de puntos y más fuerte será la relación entre las variables que el modelo quiere captar.

No se debe confundir con el coeficiente de Pearson (r).

Objetivo:

bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos originales y los valores teóricos que se obtienen de la regresión.Obviamente cuanto mejor sea el ajuste, más útil será la regresión a la pretensión de obtener los valores de la variable regresando a partir de la información sobre la variable regresora .

Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresión de un determinado tipo u otro.

Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste (no puede ser el error medio) será el error cuadrático medio, o varianza del residuo, o varianza residual :

Considerando la regresión Y/X:

Que será una cantidad mayor o igual que cero.De forma que cuanto más baja sea mejor será el grado de ajuste.Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá ningún error ).

Del hecho de que yi=y*i+ei ,y de que las variables y* ý e están incorrelacionadas se tiene que:

Donde S2y* es la llamada varianza de la regresión y supone la varianza de la variable regresión:

Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede descomponerse en dos partes una parte explicada por la regresión( la varianza de la regresión) y otra parte no explicada (la varianza residual).

Considerando que la varianza nos mide la dispersión de los datos este hecho hay que entenderlo como que la dispersión total inicial queda, en parte explicada por la regresión y en parte no.Cuanto mayor sea la proporción de varianza explicada (y menor la no explicada) tanto mejor será el ajuste y tanto más útil la regresión.

A la proporción de varianza explicada por la regresión se le llama coeficiente de determinación ( en nuestro caso lineal):

que evidentemente estará siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del tanto por uno explicado por la regresión.

Una consecuencia importante en la práctica es que la varianza residual será obviamente:

Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación: R2 = r2

Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir del coeficiente de correlación:

Aplicación: pendiente

JI CUADRADA

En estadística, la distribución χ² (de Pearson), llamada Chi cuadrado o Ji cuadrado, es una distribución de probabilidad continua con un parámetro que representa los grados de libertad de la variable aleatoria

donde son variables aleatorias normales independientes de media cero y varianza uno. El que la variable aleatoria tenga esta distribución se representa habitualmente así: .

Es conveniente tener en cuenta que la letra griega χ se transcribe al latín como chi1 y se pronuncia en castellano como ji.

Función de densidad

Su función de densidad es:

donde es la función gamma.

Función de distribución acumulada

Su función de distribución es

donde es la función gamma incompleta.

El valor esperado y la varianza de una variable aleatoria X con distribución χ² son, respectivamente, k y 2k.

RELACION CON OTRAS DISTRIBUCIONES.

La distribución χ² es un caso especial de la distribución gamma. De hecho, Como consecuencia, cuando , la distribución χ² es una distribución exponencial de media .

Cuando k es suficientemente grande, como consecuencia del teorema central del límite, puede aproximarse por una distribución normal:

APLICACIONES

La distribución χ² tiene muchas aplicaciones en inferencia estadística. La más conocida es la de la denominada prueba χ² utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimación de varianzas. Pero también está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student.

Aparece también en todos los problemas de análisis de varianza por su relación con la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias independientes con distribución χ².

Ejercicio de Ji cuadrada.

Pendiente

PRUEBA DE INDEPENDENCIA

En el análisis de independencia se considera que la muestra, una vez escogida, se clasifica según los criterios de interés; por ello se supone que las muestras provienen de una población.

En las aplicaciones estadísticas es frecuente interesarse en calcular si dos variables de clasificación, ya sea cuantitativa o cualitativa, son independientes o si están relacionadas. En situaciones como las siguientes, se puede estar interesado en determinar si dos variables están relacionadas:

¿Está relacionado el sexo con tener una educación universitaria?

¿Están relacionadas las enfermedades del corazón con el tabaquismo?

¿Son independientes el tamaño de una familia y el nivel de educación de los padres?

¿Está relacionado el desempleo con el incremento de la criminalidad?

¿El precio está asociado con la calidad de un producto electrodoméstico?

¿El estado nutricional esta asociado con el desempeño académico?

Otra forma de expresar el hecho de que dos variables sean independientes, es diciendo, que no se afectan entre si; esto es que no están relacionadas o asociadas.

Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de segmentación de mercado para las tres cervezas, el grupo de investigación encargado ha planteado la duda de si la preferencia para las tres cervezas es diferente entre los consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género del consumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin embargo, si la preferencia depende del género del consumidor, se ajustarían las promociones para tener en cuenta los distintos mercados meta.

Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera, clara y oscura) es independiente del genero del consumidor (hombre, mujer). Las hipótesis para esta prueba de independencia son:

Ho: La preferencia de la cerveza es independiente del género del consumidor

Ha: La preferencia de la cerveza no es independiente del género del consumidor

Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra y preguntar a cada persona que diga su preferencia entre las cervezas modelo.

Cada persona de la muestra se clasificará en

...

Descargar como (para miembros actualizados) txt (23 Kb)

Leer 21 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com