ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Intervalo De Confianza


Enviado por   •  3 de Agosto de 2014  •  3.159 Palabras (13 Páginas)  •  755 Visitas

Página 1 de 13

Intervalo de confianza

En estadística, se llama a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ 2 . Es habitual que el parámetro presente una distribución normal.

En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.

Intervalo de confianza para la media

De una población de media y desviación típica se pueden tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las medias muéstrales coincide con la media poblacional:

Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución de medias muéstrales es prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión:

. Esto se representa como sigue . Si estandarizamos, se sigue que:

En una distribución Z ~ N (0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2tales que P [z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)•100 es el porcentaje deseado.

Se desea obtener una expresión tal que

En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará (debido a que es el error que se cometerá, un término opuesto).

Para ello se necesita calcular el punto —o, mejor dicho, su versión estandarizada o valor critico junto con su “opuesto en la distribución” . Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen

Dicho punto es el número tal que:

Y en la versión estandarizada se cumple que:

Así:

Haciendo operaciones es posible despejar para obtener el intervalo:

De lo cual se obtendrá el intervalo de confianza:

Obsérvese que el intervalo de confianza viene dado por la media muestral ± el producto del valor crítico por el error estándar . Si no se conoce y n es grande (habitualmente se toma n ≥ 30):5 , donde s es la desviación típica de una muestra.

Aproximaciones para el valor para los niveles de confianza estándar son 1,96 para y 2,576 para .

I

Intervalos de confianza para la proporción

Vamos a establecer, al igual que para la media, intervalos estimadores para la proporción poblacional P.

Si tenemos el estadístico proporción muestral p.

El intervalo de confianza seria: p ± Zcσp

Siendo:

P: Proporción muestral en la muestra de tamaño n.

Zc: Coeficiente de confianza.

σp: Desviación típica de la distribución muestral de proporciones.

Para el caso de poblaciones infinitas:

Como σp= √(PQ/n)

El intervalo viene dado por:

p ± Zc√(PQ/n)

Para poblaciones finitas, o muestreos sin reemplazamiento: el intervalo seria:

p ± Zc√(PQ/n) √((N-n)/(N-1))

Para los casos en que se desconoce P se puede estimar de acuerdo a lo visto para la estimación puntual de parámetros, utilizando siempre el mejor estimador, de acuerdo con las propiedades correspondientes.

De igual manera tendríamos los intervalos de confianza para la diferencia de medias y proporciones, considerando muestras independientes y los dos tipos de poblaciones que hemos tratado:

Poblaciones finitas:

Para la diferencia demedias, se tiene:

X̅1-X̅2 Zc√(〖σ_1〗^2/n_1 )+√(〖σ_2〗^2/n_2 )

Para la diferencia de Proporciones, seria:

P1 –P2 ±Zc√((P_1 Q_1)/n_1 )+√((P_2 Q_2)/n_2 )

Poblaciones finitas:

Para Diferencia de Proporciones:

P1 –P2 ±Zc√((P_1 Q_1)/n_1 )+√((P_2 Q_2)/n_2 ) √((N-n)/(N-1))

Para Diferencia de medias

X̅1-X̅2 Zc√(〖σ_1〗^2/n_1 )+√(〖σ_2〗^2/n_2 ) √((N-n)/(N-1))

Muestreo

En la práctica nos interesa determinar el tamaño de la muestra mas adecuada para nuestro estudio puesto que el costo entiempo y dinero de nuestra investigación va depender de la buena selección de la misma.

Recordamos que no siempre la muestra mayor arroja los mejores resultados sino que el diseño de la muestra más apropiado es el que conduce a resultados óptimos.

A partir de una muestra aleatoria de tamaño n, se desconoce qué tan cerca (por defecto o exceso) está del parámetro a estimar θ. Por eso se utiliza frecuentemente otro tipo de estimación, la estimación por intervalos, la cual nos permite de acuerdo a un nivel de confianza especificado obtener una información más precisa sobre el parámetro a estimar.

1. Intervalo de confianza para medias con n › 30 (grandes muestras):

µ∈(X ̅-Z_(a/2) σ/√n,X ̅+Z_(a/2) σ/√n)Es una estimación por intervalo de la media de la población para un nivel de confianza del (1-α)%; por ejemplo, si se define un nivel de confianza del 95 %, esto significa que por cada 100 muestras de tamaño n › 30 en 95 de ellas la media de la población cae dentro de este intervalo.

2. Intervalo de confianza para medias con n < 30 (pequeñas muestras):

Se utiliza la t de Student para estos casos y cuando se desconoce la desviación de la población, utilizando la siguiente expresión:µ∈(X ̅-t_(a/2) s/√n,X ̅+t_(a/2) s/√n)Es una estimación por intervalo de la media de la población para un nivel de confianza del (1-α)%.

Distribución t de Student

En probabilidad y estadística, la distribución t (de Student) es una distribución que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.

La Caracterización

Tiene características similares a la distribución normal, su diferencia principal radica en las áreas de los extremos las cuales son más amplias, como consecuencia de que usualmente se trabaja con muestras pequeñas. La sintaxis en Excel es: DISTR.T(x; grados de libertad, colas).

X es el valor numérico al que se ha de evaluar la distribución. Grados de libertad es un entero que indica el número de grados de libertad. Colas especifica el número de colas de la distribución que se ha de devolver. Toma los valores de 1 o 2.

La distribución t de Student es la distribución de probabilidad del cociente

Donde

Z tiene una distribución normal de media nula y varianza 1

V tiene una distribución ji-cuadrado con grados de libertad

Z y V son independientes

Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no-centralidad .

Aparición y especificaciones de la distribución t de Student

Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media μ y varianza σ2. Sea la media muestral. Entonces: Sigue una distribución normal de media 0 y varianza 1.

Sin embargo, dado que la desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente relacionado, Donde Es la varianza muestral y demostró que la función de densidad de T es Donde es igual a n − 1.

La distribución de T se llama ahora la distribución-t de Student.

El parámetro representa el número de grados de libertad. La distribución depende de , pero no de o , lo cual es muy importante en la práctica.

Intervalos de confianza derivados de la distribución t de Student

El procedimiento para el cálculo del intervalo de confianza basado en la t de Student consiste en estimar la desviación típica de los datos S y calcular el error estándar de la media , siendo entonces el intervalo de confianza para la media .

Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las medias de muestras de dos distribuciones normales se distribuye también normalmente, la distribución t puede usarse para examinar si esa diferencia puede razonablemente suponerse igual a cero.

Para efectos prácticos el valor esperado y la varianza son:

E (t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3

Distribución t de Student No Estandarizada

La distribución t puede generalizarse a 3 parámetros, introduciendo un parámetrolocacional y otro de escala . El resultado es unadistribución t de Student No Estandarizada cuya densidad está definida por: Equivalentemente, puede escribirse en términos de (correspondiente a la varianza en vez de a la desviación estándar):

Otras propiedades de esta versión de la distribución t son:2

Tabla de la distribucion t - Student

La tabla da áreas 1 - a , para valores menores o iguales a t y n g.l,

1 – a

n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657

2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925

3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841

4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604

5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032

6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707

7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499

8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355

9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250

10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169

11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106

12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055

13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012

14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977

15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947

16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921

17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898

18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878

19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861

20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831

22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819

23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807

24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797

25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787

26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779

27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771

28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763

29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756

30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750

40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704

60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660

120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617

¥ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576

Es importante resaltar que al ser una distribución simétrica al tener información sobre un valor positivo, se obtiene el dato para el mismo valor con signo negativo.

Un hecho de relevancia significativa, es que se utiliza para calcular probabilidades con respecto al promedio, en estos casos, el divisor al estandarizar los valores se divide sobre S/ Ö n, término que se conoce como el error estándar de la media y mide la variabilidad de la media entre muestra y muestra. A mayor tamaño de muestra, menor es el error estándar de la media.

Por último, se puede afirmar, la distribución t es útil para realizar inferencias acerca de la media poblacional cuando no se conoce s y la población es normal, independiente del n, no obstante, aun cuando la distribución sea un tanto sesgada, la t sigue siendo apropiada, esto se conoce como una distribución robusta, es decir, a cambios moderados de los supuestos, el modelo sigue siendo válido. Como en el caso de la distribución normal, ésta distribución también usa valores tabulados, tal como se aprecian en la tabla precedente, teniendo en cuenta, que a medida que los g.l aumenten los valores tienden a ser igual a los encontrados en la tabla Z.

Ejemplo 1

Los valores de las matriculas de estudiantes en una universidad privada tienen un comportamiento aproximadamente normal, donde el promedio es de 2.100.000. Se seleccionan 8 liquidaciones, siendo los valores los siguientes: 1.950.000, 2.100.000, 2.250.000, 1.890.000, 2.250.000, 1.950.000, 2.050.000, 2.350.000. Determine la probabilidad de que:

El promedio sea menor de 2.000.000.

El promedio se encuentre entre 2.000.000 y 2.200.000

El promedio sea mayor o igual a 2.500.000

Solución:

Sea X = Liquidación matriculas.

m = 2.100.000 ; s = ?

=2.098.750 s=168.644.8085 n=8

a) P(<2.000.000)=P( <2.000.000)

P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)

La probabilidad se encuentra entre 0.9 y 0.95, según la tabla T que se encuentra más adelante, no obstante, al t ser negativo, la probabilidad está entre 0.1 y 0.05, es decir, los valores complementarios.

Para buscar en la tabla, se tiene en cuenta la fila con 7 g.l y se ubica el 1.677, el cual se encuentra entre los valores mencionados. De ahí que sea importante utilizar el Excel, que nos permite calcular la probabilidad exacta.

b) P (2.000.000 << 2.200.000)= P(<2.200.000) ? P( £ 2.000.000).

Luego de tipificar, se tiene:

P(t<3.35) ? P(t<-1.677) = 0.995 ?0.075= 0.92

Existe una alta probabilidad de que el promedio de las matriculas se encuentre entre 2.000.000 y 2.200.000.

c) P(>2.500.000)= P(t> 6.70) = 1- P(t< 6.70)= 1-1=0

Dado que el valor de 6.70 es mucho mayor que el ubicado en la tabla de 3.49 y corresponde a 0.995, es claro, entonces, que para valores mayores de 3.49, la probabilidad será de 1.

Por lo tanto, la probabilidad de que el promedio de matricula sea superiora a 2.500.000 es cero.

Ejemplo 2

Un fabricante de focos afirma que us producto durará un promedio de 500 horas de trabajo. Para conservar este promedio esta persona verifica 25 focos cada mes. Si el valor y calculado cae entre –t 0.05 y t 0.05, él se encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá él sacar de una muestra de 25 focos cuya duración fue?:

520 521 511 513 510

513 522 500 521 495

496 488 500 502 512

510 510 475 505 521

506 503 487 493 500

solucion

v = n-1 = 24

t = 2.22

Se puede concluir que la media poblacional no es 500, porque la muestra poblacional está por encima de esta, y por lo tanto debería estar por encima de 500. Esta distribución es recomendada cuando se requiere estimar la media poblacional y no se conoce la desviación estándar y por lo tanto, hay que estimarla, eso si, siempre y cuando la distribución original sea aproximadamente normal

Chi cuadrado (distribución).

En estadística, la distribución χ² (de Pearson), llamada Chi cuadrado o Ji cuadrado, es una distribución de probabilidad continua con un parámetro que representa los grados de libertad de la variable aleatoria

Donde son variables aleatorias normales independientes de media cero y varianza uno. El que la variable aleatoria tenga esta distribución se representa habitualmente así: .

Función de densidad

Su función de densidad es:

Donde es la función gamma.

Función de distribución acumulada

Su función de distribución es Donde es la función gamma incompleta. El valor esperado y la varianza de una variable aleatoria X con distribución χ² son, respectivamente, k y 2k.

Aplicaciones

La distribución χ² tiene muchas aplicaciones en inferencia estadística. La más conocida es la de la denominada prueba χ² utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimación de varianzas. Pero también está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student.

Aparece también en todos los problemas de análisis de varianza por su relación con la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias independientes con distribución χ².

Teorema del límite central.

El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si Sn es la suma de n variables aleatorias independientes, entonces la función de distribución de Sn se aproxima bien a una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande.

Definición

Sea la función de densidad de la distribución normal definida como1

con una media µ y una varianza σ2. El caso en el que su función de densidad sea , a la distribución se le conoce como normal estándar.

Se define Sn como la suma de n variables aleatorias, independientes, idénticamente distribuidas, y con una media µ y varianza σ2 finitas (σ2≠0): de manera que, la media de Sn es n•µ y la varianza n•σ2, dado que son variables aleatorias independientes. Con tal de hacer más fácil la comprensión del teorema y su posterior uso, se hace una estandarización de Sn como para que la media de la nueva variable sea igual a 0 y la desviación estándar sea igual a 1. Así, las variables Zn convergerán en distribución a la distribución normal estándar N (0,1), cuando n tienda a infinito. Como consecuencia, si Φ(z) es la función de distribución de N(0,1), para cada número real z: donde Pr( ) indica probabilidad y lim se refiere a límite matemático.

Enunciado formal

De manera formal, normalizada y compacta el enunciado del teorema es:

Teorema del límite central: Sea , , ..., un conjunto de variables aleatorias, independientes e idénticamente distribuidas con media μ y varianza σ2 distinta de cero. Sea Entonces .

Es muy común encontrarlo con la variable estandarizada Zn en función de la media muestral , puesto que son equivalentes, así como encontrarlo en versiones no normalizadas como puede ser:

Teorema (del límite central): Sea , , ..., un conjunto de variables aleatoria, independientes e idénticamente distribuidas de una distribución con media μ y varianza σ2≠0. Entonces, si n es suficientemente grande, la variable aleatoria tiene aproximadamente una distribución normal con y .

Características

El teorema del límite central garantiza una distribución normal cuando n es suficientemente grande.

Existen diferentes versiones del teorema, en función de las condiciones utilizadas para asegurar la convergencia. Una de las más simples establece que es suficiente que las variables que se suman sean independientes, idénticamente distribuidas, con valor esperado y varianza finitas.

La aproximación entre las dos distribuciones es, en general, mayor en el centro de las mismas que en sus extremos o colas, motivo por el cual se prefiere el nombre "teorema del límite central" ("central" califica al límite, más que al teorema).

Este teorema, perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos campos relacionados, tales como la inferencia estadística o la teoría de renovación.

Introducción

El intervalo de confianza se define mediante dos valores entre los cuales se encuentra el valor del parámetro con un cierto grado de confianza, se usa para ser referencia de una o más poblaciones de muestra de datos. Se puede decir que el muestreo es la actividad por la cual se toman ciertas muestras de una población de elementos de los cuales vamos a tomar ciertos criterios de decisión, es importante porque a través de él podemos hacer análisis de situaciones de una empresa o de algún campo de la sociedad.

La distribución t de Student es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. La prueba Chi-cuadrado puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente especificada como el modelo matemático de la población que ha generado la muestra también se podría decir que el teorema central del límite es uno de los resultados fundamentales de la estadística. Este teorema nos dice que si una muestra es lo bastante grande, sea cual sea la distribución de la media muestral, seguirá aproximadamente una distribución normal.

...

Descargar como  txt (21.4 Kb)  
Leer 12 páginas más »
txt