ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Introduccion al aprendizaje estadistico


Enviado por   •  17 de Febrero de 2017  •  Tarea  •  3.074 Palabras (13 Páginas)  •  349 Visitas

Página 1 de 13

Una introducción a la El aprendizaje estadístico con aplicaciones en R

El aprendizaje estadístico

¿Qué es el aprendizaje estadístico? Con el fin de motivar a nuestro estudio de aprendizaje estadístico, comenzamos con una ejemplo sencillo. Supongamos que somos consultores estadísticos contratados por una cliente para proporcionar consejos sobre cómo mejorar las ventas de un producto en particular. los conjunto de datos de publicidad consiste en las ventas de este producto en 200 diferentes mercados, junto con los presupuestos de publicidad para el producto en cada uno de los mercados para los tres medios diferentes: TV, radio y prensa. Los datos son que se muestra en la Figura 2.1. No es posible para nuestro cliente para aumentar directamente las ventas del producto. Por otra parte, pueden controlar la publicidad gasto en cada uno de los tres medios. Por lo tanto, si se determina que existe una asociación entre la publicidad y las ventas, entonces podemos instruimos nuestro cliente para ajustar los presupuestos de publicidad, lo que aumenta indirectamente ventas. En otras palabras, nuestro objetivo es desarrollar un modelo exacto que se puede utilizar para predecir las ventas sobre la base de los tres presupuestos de medios. En esta configuración, los presupuestos de publicidad son variables de entrada mientras que la entrada de ventas es una variable de salida. Las variables de entrada normalmente se designan utilizando la variable salida variable de símbolo X, con un subíndice para distinguirlos. Así X1 podría ser la TV presupuesto, el presupuesto X2 radio y X3 el presupuesto diario. las entradas ir por diferentes nombres, tales como predictores independientes, variables, funciones, predictor independiente variable característica o, a veces sólo las variables. La variable de salida en este caso, las ventas-es variable a menudo llamada la respuesta o variable dependiente, y por lo general se denota respuesta dependiente variable utilizando el símbolo Y. A lo largo de este libro, vamos a utilizar todos estos términos indistintamente.

Figura 2.1. el conjunto de datos de publicidad. La trama muestra las ventas, en miles de unidades, en función de los presupuestos de la televisión, la radio y los periódicos, en miles de dólares, para 200 mercados diferentes. En cada parcela se muestran las simples mínimos cuadrados adaptarse a las ventas a esa variable, tal como se describe en el capítulo 3. En otras palabras, cada uno azul línea representa un modelo sencillo que se puede utilizar para predecir las ventas utilizando TV, radio, y el periódico, respectivamente. De manera más general, suponemos que se observa una respuesta Y y p cuantitativa diferentes predictores, X1, X2, ..., Xp. Suponemos que hay alguna relación entre Y y X = (X1, X2, ..., Xp), que se puede escribir en forma muy general Y = f (X) +. (2,1) Aquí f es alguna función fija pero desconocida de X1, ..., Xp, y es un azar término de error, que es independiente de X y tiene media cero. En esta formulación término de error ción, f representa la información sistemática que proporciona X sobre Y. sistemático Como otro ejemplo, considere el panel izquierdo de la figura 2.2, una parcela de los ingresos en comparación con los años de educación por 30 individuos en el conjunto de datos de resultados. La trama sugiere que uno podría ser capaz de predecir los ingresos utilizando años de Educación. Sin embargo, la función f que conecta la variable de entrada a la variable de salida es desconocido en general. En esta situación, es necesario estimar f basado en los puntos observados. Dado que los ingresos es un conjunto de datos simulados, f es conocido y se muestra por la curva azul en el panel derecho de la Figura 2.2. Las líneas verticales representan los términos de error. Observamos que algunos de los 30 observaciones se encuentran por encima de la curva azul y algunos se encuentran por debajo de ella; En general, el errores han aproximadamente media cero. En general, la función f puede implicar más de una variable de entrada. En la figura 2.3 representamos gráficamente los ingresos en función de los años de educación y antigüedad. Aquí f es una superficie de dos dimensiones que deben ser estima sobre la base de los datos observados.

Figura 2.2. el conjunto de datos de ingresos. Izquierda: Los puntos rojos son los valores observados

de los ingresos (en decenas de miles de dólares) y años de educación para 30 personas.

Derecha: La curva azul representa la verdadera relación subyacente entre

ingresos y años de educación, que es generalmente desconocida (pero que se conoce en

este caso ya que los datos fueron simulados). Las líneas negras representan el error

asociado con cada observación. Tenga en cuenta que algunos errores son positivos (si es una observación

se encuentra por encima de la curva azul) y algunos son negativos (si se encuentra una observación

debajo de la curva). En general, estos errores han aproximadamente media cero.

En esencia, aprendizaje estadístico se refiere a un conjunto de enfoques para estimar

F. En este capítulo describimos algunos de los conceptos teóricos fundamentales que se plantean

en la estimación de f, así como herramientas para la evaluación de las estimaciones obtenidas.

2.1.1 ¿Por qué calcular f?

Hay dos razones principales que podemos desear para estimar f: predicción

y la inferencia. Se discute cada uno de ellos.

Predicción

En muchas situaciones, un conjunto de entradas X son fácilmente disponibles, pero la salida

Y no se puede obtener fácilmente. En esta configuración, ya que los promedios término de error

a cero, podemos predecir Y usando

Y = f (X), (2,2)

donde f representa nuestra estimación de f, e Y representa la predicción resultante

para y . En esta configuración, f es a menudo tratada como un cuadro negro, en el sentido

que uno no se refiere por lo general con la forma exacta de f, siempre que

cede predicciones exactas para y.

Figura 2.3. La trama muestra los ingresos en función de los años de educación

y la antigüedad en el conjunto de datos de resultados. La superficie azul representa el subyacente verdadera

relación entre los ingresos y los años de la educación y la antigüedad,

que se conoce desde se simulan los datos. Los puntos rojos indican la observaron

Los valores de estas cantidades para 30 personas.

Como un ejemplo, supongamos que X1, ..., Xp son características de un paciente de

muestra de sangre que se puede medir fácilmente en un laboratorio, e Y es una variable

que codifica el riesgo del paciente para una reacción adversa grave a una en particular

...

Descargar como (para miembros actualizados) txt (20 Kb) pdf (61 Kb) docx (21 Kb)
Leer 12 páginas más »
Disponible sólo en Clubensayos.com