Regresion Lineal 1 Industrial Cuarto Semestre
toreto_15013 de Marzo de 2015
4.407 Palabras (18 Páginas)969 Visitas
INSTITUTO TECNOLÓGICO SUPERIOR DE
ÁLAMO TEMAPACHE
ANTOLOGÍA de:
ESTADISTICA INFERENCIAL II
Docente:
Ing. IRMA CAMACHO RAMIREZ
Carrera:
Ingeniería Industrial Administrador
Semestre:
Cuarto
Período:
Febrero 2013- Julio 2013
Km. 6.5 Carretera Potrero del Llano-Tuxpan
Xoyotitla Mpio. de Alamo, Temapache. Ver.
Tel y Fax 01 765 84 40038 y 40039
E-mail: itsalamo@hotmail.com
Página Web: www.itsalamo.edu.mx
Unidad 1: Regresión lineal
Unidad 2: Diseño de experimentos con un factor
Unidad 3: Diseño de bloques x
Unidad 4: Conceptos básicos en diseños factoriales x
Unidad 5 : Series de tiempo x
Unidad 1: REGRESION LINEAL
1.1 REGRESION LINEAL SIMPLE
1.1.1 Prueba de hipótesis en la regresión lineal simple
1.1.2 Calidad de ajuste en regresión lineal simple
1.1.3 Estimación y predicción por intervalos en R.L.S
1.1.4 Uso de sofwer
1.2 Regresión lineal Muliple (RLM)
1.2.1 Prueba de hipótesis en regresión lineal multiple
1.2.2 Intervalos de confianza y predicción en RLM
1.2.3 Uso de sofwer
1.3 Regresión no lineal
UNIDAD 1: Regresión Lineal
El análisis de regresión tiene como objetivo modelar en forma matemática el comportamiento de una variable de respuesta en función de una o más variables independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado con la temperatura de operación. Mediante un modelo matemático es posible describir tal relación, entonces este modelo puede ser usado para propósito de predicción, optimización o control.
Para estimar los parámetros de un modelo de regresión son necesarios los datos, los cuales pueden obtenerse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos.
1.1. Regresión lineal simple
Según dos variables X y Y, suponga que se quiere explicar el comportamiento de Y con base en los valores que toma X. Para esto, se mide el valor de Y sobre un conjunto de n valores de X, con lo que se obtienen n parejas de puntos (x1, y1), (x2,y2),…,(xn, yn). A Y se le llama variable dependiente o variable de respuesta y a X se le conoce como variable independiente o variable regresora. La variable x no necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus valores; en cambio, Y sí es una variable aleatoria. Una manera de estudiar el comportamiento de Y con respecto a X es mediante un modelo de regresión que consiste en ajustar un modelo matemático de la forma:
A las parejas de puntos. Con ello, se puede ver si dado un valor de la variable independiente X es posible predecir el valor promedio de Y.
Supongamos que las variables X y Y están relacionadas linealmente y que para cada valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y puede ser descrita por el modelo:
Donde Ɛ es un error aleatorio con media cero y varianza σ2. También suponga que los errores aleatorios no están correlacionados. La ecuación 11.1 es conocida como el modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero. E(Ɛ)= 0, se puede ver que el valor esperado de la variable Y, para cada valor X, está dado por línea recta
En donde β0 y β1 son los parámetros del modelo y son constante desconocidas. Por lo tanto, para tener bien especificada la ecuación que relaciona las dos variables será necesario estimar los dos parámetros, que tienen los siguientes significados: β0 es el punto en el cual la línea recta intercepta o cruza el eje y, y β1 es la pendiente de la línea, es decir, es la cantidad en que se incrementa o disminuye la variable Y por cada unidad que se incrementa X.
1.1.1. Estimación de parámetros
Ejemplo: en un laboratorio se quiere investigar la forma en que se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Los datos obtenidos en un estudio experimental se muestran en la tabla 11.1
Es claro que la variable de respuesta o variable dependiente es la resistencia, por eso se denota con Y. Para tener un idea de la relación que existe entre X y Y, los 14 pares de datos son graficados con el diagrama de dispersión de la figura 11.1. Se observa que entre X y Y existe una correlación lineal positiva, ya que conforme aumenta X también se incrementa Y, por lo tanto es razonable suponer que la relación entre X y Y la aplique un modelo de regresión lineal simple. Así, cada observación de Y, la podemos expresar como:
Con i = 1, 2,…, n (n=14). Para estimar β0 y β1 ajustemos la recta que explica de mejor manera el comportamiento de los datos en el diagrama de dispersión de la figura 11.1 en otras palabras, debemos encontrar la recta que pasa más cerca de todos
Tabla 11.1: Datos de resistencia de la pulpa, ejemplo 11.1
Porcentaje de fibra Resistencia
4
6
8
10
12
14
16
18
20
22
24
26
28
30 134
145
142
149
144
160
156
157
168
166
167
171
174
183
Los puntos. Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar β0 y β1 es mediante el método de mínimos cuadrados.
El método de mínimos cuadrados, consiste en lo siguiente: si de la ecuación 11.3, despejamos los errores, los elevamos al cuadrado y los sumamos, obtenemos lo siguiente:
De esta forma, se quieren encontrar los valores de β0 y β1 que minimizan la suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las distancias en forma vertical de los puntos a la recta se minimicen, como se ilustra en la figura 11.2.
El procedimiento matemático par minimizar los errores de la ecuación 11.4 y así encontrar los estimadores de mínimos cuadrados de β0 y β1, consiste en derivar a S con respecto a β0, y derivar también a S respecto a B1, , se obtiene:
Al igualar a cero las dos ecuaciones y resolverlas en forma simultánea con respecto a las dos incógnitas (β0 y β1), se obtiene la solución única:
Donde
son las medias muestrales de las dos variables, es decir,
De esta forma, para obtener la recta ajustada es necesario aplicar las formulas anteriores, lo cual es muy sencillo, como se muestra en la tabla 11.2 para los datos de la resistencia de la pulpa.
Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra y resistencia del papel, está dada por
En la figura 11.2 se muestra el ajuste de esta línea. De esta manera, por cada punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de la resistencia de 1.6242 en promedio. La ecuación 11.9 sirve para estimar la resistencia promedio esperada para cualquier porcentaje de fibra utilizada, claro que esa estimación será más precisa en la medida que X esté dentro del intervalo de los valores con los que se hizo la estimación. Por ejemplo, para cada xi, con el que se experimentó, se puede estimar el con base en el modelo; la diferencia entre lo observado y lo estimado o predicho es una estimación del error ,. Tal estimación recibe el nombre de residuo, donde:
En la tabla 11.3 se muestran los residuos y predichos para el ejemplo 11.1. más adelante veremos que estos residuos son de gran utilidad para verificar la calidad del ajuste del modelo.
Un aspecto que es importante resaltar es que los estimadores son variables aleatorias, ya que dependen de los valores observados, . Donde esta manera, es posible evaluar el valor esperado y la varianza de los estimadores. Al respecto, es fácil demostrar los siguientes resultados:
De esta manera son estimadores insesgados de los correspondientes parámetros. Además, como variables aleatorias no son independientes, y su covarianza está dada por
Dadas las expresiones para las varianzas de , se aprecia que para estimarlas es necesario calcular σ2 que, como señalamos en la expresión 11.1, σ2 es la varianza del error aleatorio Ɛ. Así que es natural utilizar los residuos para hacer tal estimación. Para ello, la suma de cuadrados de los residuos o suma de cuadrados del erro está dada por:
Donde:
A partir de la ecuación 11.15 se obtiene que el valor esperado de la suma cuadrado del error está dado por:
Por lo tanto, un estimador insesgado de está dado por:
Como se aprecia en la expresión anterior, recibe el nombre de cuadrado medio del error; y la raíz cuadrada de éste, es decir, , se conoce como error estándar
...