Estadistica. Para construir un intervalo de confianza
Enviado por andrik.1999 • 8 de Noviembre de 2020 • Apuntes • 3.502 Palabras (15 Páginas) • 137 Visitas
Para construir un intervalo de confianza para la diferencia entre dos proporciones muestrales, necesitamos conocer la distribución muestral de la diferencia. Específicamente, necesitamos saber cómo calcular la desviación estándar o el error estándar de la distribución muestral.
La desviación estándar de la distribución muestral es la desviación "promedio" entre todas las posibles diferencias muestrales ( p 1 - p 2 ) y la verdadera diferencia de población ( P 1 - P 2 ). La desviación estándar de la diferencia entre las proporciones muestrales σ p 1 - p 2 es:
σ p 1 - p 2 = {[P 1 * (1 - P 1 ) / n 1 ] * [(N 1 - n 1 ) / (N 1 - 1)] + [P 2 * (1 - P 2 ) / n 2 ] * [(N 2 - n 2 ) / (N 2 - 1)]}
donde:
P 1 es la proporción de población para la muestra 1, P 2 es la proporción de población para la muestra 2, n 1 es el tamaño de muestra de la población 1, n 2 es el tamaño de muestra de la población 2, N 1 es el número de observaciones en la población 1, y N 2 es el número de observaciones en la población 2. Cuando cada muestra es pequeña (menos del 5% de su población), la desviación estándar se puede aproximar mediante:
σ p 1 - p 2 = sqrt {[P 1 * (1 - P 1 ) / n 1 ] + [P 2 * (1 - P 2 ) / n 2 ]}
Cuando no se conocen los parámetros de la población (P 1 y P 2 ), no se puede calcular la desviación estándar de la distribución muestral. En estas circunstancias, utilice el error estándar. El error estándar (SE) se puede calcular a partir de la siguiente ecuación.
SE p 1 - p 2 =
sqrt {[p 1 * (1 - p 1) / n 1 ] * [(N 1 - n 1 ) / (N 1 - 1)]
+ [p 2 * (1 - p 2 ) / n 2 ] * [(N 2 - n 2 ) / (N 2 - 1)]}
donde p 1 es la proporción muestral para la muestra 1, y donde p 2 es la proporción muestral para la muestra 2. Cuando cada muestra es pequeña (menos del 5% de su población), la desviación estándar se puede aproximar mediante:
SE p 1 - p 2 = sqrt {[p 1 * (1 - p 1 ) / n 1 ] + [p 2 * (1 - p 2 ) / n 2 ]}
Las variaciones y desviaciones estándar son un tipo de medida muy diferente a un promedio, por lo que podemos esperar algunas diferencias importantes en la forma en que se realizan las estimaciones.
Sabemos que la fórmula de la varianza de la población, cuando se usa en una muestra, no da una estimación no sesgada de la varianza de la población. De hecho, tiende a subestimar la varianza real de la población. Por esa razón, existen dos fórmulas para la varianza, una para una población y otra para una muestra. La fórmula de la varianza de la muestra es un estimador insesgado de la varianza de la población. (Desafortunadamente, la desviación estándar de la muestra sigue siendo un estimador sesgado).
Además, tanto la varianza como la desviación estándar son números no negativos. Dado que ninguno puede tomar un valor negativo, el dominio de la distribución de probabilidad para cualquiera de ellos no es ( - ∞ , ∞ ), por tanto, la distribución normal no puede ser la distribución de una varianza o una desviación estándar. El correcto debe tener un dominio de [ 0 , ∞ ). Se puede demostrar que si la población original de datos se distribuye normalmente, entonces la expresión ( n - 1 )s2σ2 tiene una distribución chi-cuadrado con n - 1 grados de libertad.
La distribución chi-cuadrado de la cantidad ( n - 1 )s2σ2nos permite construir intervalos de confianza para la varianza y la desviación estándar (cuando la población original de datos se distribuye normalmente). Por un nivel de confianza 1 - α, tendremos la desigualdad χ21 - α / 2≤( n - 1 )s2σ2≤χ2α / 2. Resolviendo esta desigualdad para la varianza de la poblaciónσ2, y luego la desviación estándar de la población σ, nos lleva al siguiente par de intervalos de confianza.
Vale la pena señalar que dado que la distribución de chi-cuadrado no es simétrica, obtendremos intervalos de confianza que no son simétricos con respecto a la estimación puntual.
Detalles técnicos:
Para una razón de dos varianzas de distribuciones normales, se calcula un intervalo de confianza bilateral de 100 (1 - α)%
Por
Un límite de confianza superior unilateral del 100 (1 - α)% se calcula mediante
De manera similar, el límite de confianza inferior unilateral del 100 (1 - α)% es
Para intervalos de dos lados, la distancia desde la relación de varianza hasta cada uno de los límites es diferente. Por lo tanto, en lugar de especificando la distancia a los límites especificamos el ancho del intervalo, W.
La ecuación básica para determinar el tamaño de la muestra para un intervalo de dos lados cuando se ha especificado W es
Para intervalos unilaterales, se especifica la distancia desde la relación de varianza hasta el límite, D.
La ecuación básica para determinar el tamaño de la muestra para un límite superior unilateral cuando se ha especificado D es
La ecuación básica para determinar el tamaño de la muestra para un límite inferior unilateral cuando se ha especificado D es
Estas ecuaciones se pueden resolver para cualquiera de las cantidades desconocidas en términos de las otras.
¿Qué es el tamaño de la muestra?
El tamaño de la muestra es un término de uso frecuente en estadísticas e investigación de mercado , y uno que surge inevitablemente cuando se encuesta a una gran población de encuestados. Se relaciona con la forma en que se lleva a cabo la investigación en grandes poblaciones.
Entonces, ¿qué es el muestreo y por qué es importante el tamaño de la muestra?
• Cuando encuesta a una gran población de encuestados, está interesado en todo el grupo, pero de manera realista no es posible obtener respuestas o resultados de absolutamente todos. Entonces, toma una muestra aleatoria de individuos que representa a la población en su conjunto.
• El tamaño de la muestra es muy importante para obtener resultados precisos y estadísticamente significativos y ejecutar su estudio con éxito.
• Si su muestra es demasiado pequeña, puede incluir un número desproporcionado de individuos que son valores atípicos y anomalías. Estos sesgan los resultados y no se obtiene una imagen justa de toda la población.
• Si la muestra es demasiado grande, todo el estudio se vuelve complejo, costoso y requiere mucho tiempo de ejecución, y aunque los resultados son más precisos, los beneficios no superan los costos.
...