Apuntes De Analisis Inferencial
Enviado por zhellma • 23 de Febrero de 2013 • 1.819 Palabras (8 Páginas) • 462 Visitas
Análisis Descriptivo Inferencial
Comparación de muestras
La comparación de valores en dos o más subgrupos de una población total es relativamente fácil, bastaría con comparar directamente los dos valores. El mismo procedimiento se utilizaría si se tratase de proporciones o porcentajes calculados.
La situación cambia cuando la comparación se hace con una muestra probabilística. En tal caso el investigador debe realizar pruebas especiales que permitan pronunciarse sobre la significación estadística que pueda tener la diferencia encontrada entre los valores comparados.
Así si un grupo tiene una media de 24 en una variable y otro grupo una media de 26 en la misma variable debemos preguntarnos si esa diferencia también se da en la población de la cual extrajimos la muestra, o la diferencia podría deberse al error de muestreo al cual están sometidas, probabilisticamente, todas las muestras que se toman de una población o universo.
Para resolver problemas como el anterior se usan de pruebas de significación estadística, que son propias para cada medida que se va a comparar.
La secuencia del cálculo necesaria para su realización se expone a continuación:
1º Formulación de una hipótesis nula y de una hipótesis alternativa. Como lo sugiere su nombre, la hipótesis nula plantea que en la población de la cual se extrajo la muestra no existe diferencia entre los valores de los subgrupos que se desean comparar (proporción, media aritmética). Sin embargo, como el investigador supone que existe una diferencia ( y pudo haberlo expresado así en una de las hipótesis de su estudio), formula una hipótesis alternativa que exprese que existe tal diferencia, que la misma es estadísticamente significativa, y que ella se da en la población de la cual se extrajo la muestra.
2º Elección de una distribución de muestreo.
La mayoría de las medidas estadísticas utilizadas en el análisis de datos cuantitativos tienen distribuciones de probabilidad conocidas, como también algunas de ellas tienen ese tipo de distribuciones para diferencias entre dos medidas.
En cada caso, esas distribuciones indican la probabilidad de que un cierto valor encontrado en una muestra se pueda dar en su correspondiente población, o la probabilidad de que una diferencia de una cierta magnitud pueda darse entre subgrupos tomados muestralmente de una misma población
Digamos que si se toman muchas muestras y en cada una de ellas se calcula una misma proporción (como podría ser el caso de personas que están de acuerdo con el control de la natalidad), entonces, el total de las proporciones de esas muestras se distribuye en la forma de la curva normal.
Por esta propiedad de la distribución de frecuencias - que también tienen otras distribuciones muestrales, como la que corresponde a la diferencia entre proporciones - sabemos que un 5% de todas las proporciones, convertidas en puntuaciones Z, quedan más allá de 1,96 unidades z; 2,5% son mayores y 2,5% son menores.
Es decir, la probabilidad de encontrar en una muestra una proporción cuyo valor z sea superior o inferior a 1,96 z, es del 0,05.
En otras palabras, existe una probabilidad del 0,95 (o un nivel de confianza del 95%) que la proporción encontrada se aleje menos de 1,96 z de la media de la distribución, que la verdadera media aritmética de la población. Dicho en forma aproximada, que la diferencia encontrada sea la que corresponda, probabilisticamente, al error de muestreo.
No todas las medidas de las muestras de una población se distribuyen según la curva normal. Algunas de ellas lo hacen según la distribución t de Student, la distribución F, o la Chi cuadrado…
3. Elección de un nivel de significación.
De acuerdo con lo expuesto anteriormente las pruebas de significación estadística se basan en la teoría de las probabilidades. Cuando el investigador realizar una de estas pruebas se pregunta. ¿Cual es la probabilidad de que un valor como el encontrado en mi estudio se dé al azar? Frente a esta pregunta hace una elección que define el riesgo probabilístico que tiene el aceptar su resultado. Podrá decir, por ejemplo, que ese valor transformado a valores z o (T o F según la estadística apropiada) puede darse al azar en un 5% de las veces. Tal porcentaje recibe el nombre de nivel de significación que convencionalmente se designa con la letra alpha.
Los siguientes valores de z definen áreas de la curva normal que comprenden proporciones o porcentajes de casos – valores de muestras- en ambos o en uno u otro lado de la curva normal, a partir de la media aritmética:
a) % de casos a ambos lados del área de la curva a partir de la media aritmética
Z % Casos en los extremos
1,64 90 El 10% restante queda en los dos extremos o zona de rechazo
1,96 95 El 5% restante queda en los dos extremos o zona de rechazo
2,55 99 El 1% restante queda en los dos extremos o zona de rechazo
Las terminaciones de la curva normal se denominan colas de la distribución. Cuando tenemos base para suponer que una de las medidas de las muestras por comparar es mayor o menor que la otra, entonces las hipótesis alternativa se plantea como x1>x2; o x2>x1. En casos como este se utiliza una prueba de significación de una cola. Si no existe esa base se utiliza una prueba de significación de dos colas. , lo cual quiere decir que la diferencia en el universo podría se mayor o menor, en términos probabilísticas, que la encontrada en el estudio.
Respecto al nivel de significación, queremos recordar que un valor de z igual o inferior a 1,64 unidades z puede darse al azar un 5%, a la inversa,
...