KNN Regresion Lineal y Redes Neuronales RapidMiner
Enviado por Martin Cisneros • 30 de Noviembre de 2017 • Práctica o problema • 1.093 Palabras (5 Páginas) • 619 Visitas
ALGORITMO K-NN
El método de los k vecinos más cercanos (en inglés, k-nearest neighbors, abreviado k-nn) es un método de clasificación supervisada (Aprendizaje, estimación basada en un conjunto de entrenamiento y prototipos).
Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos. En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.
En el reconocimiento de patrones, el algoritmo k-nn es usado como método de clasificación de objetos (elementos) basado en un entrenamiento mediante ejemplos cercanos en el espacio de los elementos. k-nn es un tipo de aprendizaje vago (lazy learning), donde la función se aproxima solo localmente y todo el cómputo es diferido a la clasificación.
PROBLEMA
Utilizando el algoritmo de clasificación K-NN se busca clasificar por áreas de conocimiento a un grupo de estudiantes de nivel de educación media-superior de los cuales se conocen las calificaciones de todas sus materias para así poder recomendarles una carrera a la cual se puedan dedicar. Los datos serán divididos en dos conjuntos, el conjunto de entrenamiento (80%) y el conjunto de prueba (20% de los datos). El conjunto de entrenamiento se usará para determinar los parámetros del clasificador y el conjunto de prueba se usará para estimar el error de generalización, buscando obtener un error de generalización pequeño para no hacer un sobre entrenamiento.
De esta manera con el algoritmo K-NN se buscará obtener un grupo de prototipos de los k prototipos más cercanos al patrón a clasificar.
PARAMETROS
Debemos seleccionar un K: Normalmente es un numero entero pequeño que determina el numero de clases que revisará de los vecinos más próximos.
Weightned vote: Este parámetro permite que se tomen en cuenta las distancias entre los ejemplos. Puede ser muy útil para examinar si los vecinos más cercanos aportan mas que los mas lejanos.
Measure types: Este parámetro se usa para determinar el tipo de medida que se utilizará para encontrar a los vecinos mas cercanos.
Nominal measure: Solo se encuentra disponible si “Measure Types” está configurado como “Mixed Measures”.
Numerical measure: Solo se encuentra disponible si “Measure Types” está configurado como “Numerical Measures”. Este parámetro no se puede configurar si los datos de entrada son de tipo nominal.
Divergence: Solo se encuentra disponible si “Measure Types” está configurado como “Bregman divergences”.
Kernel Type: Solo se encuentra disponible si “Numerical Measure” está configurado como “Kernel Euclidean Distance”. Se pueden encontrar diferentes tipos de kernel (Nucleo).
- Dot.
- Radial.
- Polynomial.
- Neural.
- Sigmoid.
- Anova.
- Epachnenikov.
- Gaussian Combination.
- Multiquadric.
Por cada kernel se pueden encontrar parámetros que los modifican, dependiendo cada kernel podríamos encontrar:
- Kernel gamma.[pic 1]
- Kernel sigma1.
- Kernel sigma2.
- Kernel sigma3.
- Kernel shift.
- Kernel degree.
- Kernel a.
- Kernel b.
RESULTADOS ESPERADOS
Al final lo que obtendremos será una clasificación en la cual se mostrará con base en el algoritmo, las áreas de estudio en las que se ubican para poder así recomendarles una carrera adecuada a sus aptitudes.
REDES NEURONALES
Es una técnica de Inteligencia Artificial utilizada sobre todo para la clasificación, ésta consiste en mostrarle una serie de “productos” asociados a una “categoría” a la red de manera que ésta “entienda” cuáles son las características que los hacen ser parte de esa categoría, y tras haber aprendido el modelo introducirle nuevos datos y que la red los pueda categorizar por sí sola e inclusive crear nuevas categorías si lo cree necesario.
...