Taxonomía de las Redes Neuronales
corcon5 de Junio de 2013
6.381 Palabras (26 Páginas)489 Visitas
Taxonomía de las Redes Neuronales
Existen dos fases en toda aplicación de las redes neuronales: la fase de aprendizaje o entrenamiento y la fase de prueba. En la fase de entrenamiento, se usa un conjunto de datos o patrones de entrenamiento para determinar los pesos (parámetros de diseño) que definen el modelo neuronal. Una vez entrenado este modelo, se usará en la llamada fase de prueba o funcionamiento directo, en la que se procesan los patrones de prueba que constituyen la entrada habitual de la red, analizándose de esta manera las prestaciones definitivas de la red.
• Fase de Prueba: los parámetros de diseño de la red neuronal se han obtenido a partir de unos patrones representativos de las entradas que se denominan patrones de entrenamiento. Los resultados pueden ser tanto calculados de una vez como adaptados iterativamente, según el tipo de red neuronal, y en función de las ecuaciones dinámicas de prueba. Una vez calculados los pesos de la red, los valores de las neuronas de la última capa, se comparan con la salida deseada para determinar la validez del diseño.
Fase de Aprendizaje: una característica de las redes neuronales es su capacidad de aprender. Aprenden por la actualización o cambio de los pesos sinápticos que caracterizan a las conexiones. Los pesos son adaptados de acuerdo a la información extraída de los patrones de entrenamiento nuevos que se van presentando. Normalmente, los pesos óptimos se obtienen optimizando (minimizando o maximizando) alguna "función de energía". Por ejemplo, un criterio popular en el entrenamiento supervisado es minimizar el least-square-error (error cuadrático medio) entre el valor del maestro y el valor de salida actual.
Redes Neuronales
Fijo No supervisado Supervisado
Red de Hamming Mapa de características Basadas en decisión
Red de Hopfield Aprendizaje competitivo Perceptrón
ADALINE (LMS)
Perceptrón Multicapa
Modelos Temporales Dinámicos
Modelos Ocultos de Markov
Redes Neuronales Supervisadas y no Supervisadas
Las redes neuronales se clasifican comúnmente en términos de sus correspondientes algoritmos o métodos de entrenamiento: redes de pesos fijos, redes no supervisadas, y redes de entrenamiento supervisado. Para las redes de pesos fijos no existe ningún tipo de entrenamiento.
Reglas de entrenamiento Supervisado
Las redes de entrenamiento supervisado han sido los modelos de redes más desarrolladas desde inicios de estos diseños. Los datos para el entrenamiento están constituidos por varios pares de patrones de entrenamiento de entrada y de salida. El hecho de conocer la salida implica que el entrenamiento se beneficia la supervisión de un maestro. Dado un nuevo patrón de entrenamiento, por ejemplo, (m+1)-ésimo, los pesos serán adaptados de la siguiente forma:
Se puede ver un diagrama esquemático de un sistema de entrenamiento supervisado en la siguiente figura:
Reglas de entrenamiento No Supervisado
Para los modelos de entrenamiento No Supervisado, el conjunto de datos de entrenamiento consiste sólo en los patrones de entrada. Por lo tanto, la red es entrenada sin el beneficio de un maestro. La red aprende a adaptarse basada en las experiencias recogidas de los patrones de entrenamiento anteriores. Este es un esquema típico de un sistema "No Supervisado":
Ejemplos típicos son La Regla de Aprendizaje de Hebb, y la Regla de Aprendizaje Competitiva. Un ejemplo del primero consiste en reforzar el peso que conecta dos nodos que se excitan simultáneamente.
Como ejemplo de aprendizaje competitivo, si un patrón nuevo se determina que pertenece a una clase reconocida previamente, entonces la inclusión de este nuevo patrón a esta clase matizará la representación de la misma. Si el patrón de la entrada se determinó que no pertenece a ninguna de las clases reconocidas anteriormente, entonces la estructura y los pesos de la NN serán ajustados para reconocer la nueva clase.
Funciones de Base y Activación
Una red neuronal típica se puede caracterizar por las descripciones funcionales de la red de conexión y la red de activación. Cada célula (unidad de proceso), suministra un valor a su salida. Este valor se propaga a través de la red de conexiones unidirecionales hacia otras células de la red. Asociada a cada conexión hay un peso sináptico denominado por { }, que determina el efecto de la célula j-ésima sobre la célula i-ésima. Las entradas a la célula i-ésima que provienen de las otras células son acumuladas junto con el umbral externo , para dar el valor de red . La forma de hacerlo lo determina matemáticamente la función de base f para dar un valor de activación . La salida final y se puede expresar como una función de la entrada y los pesos .
Función de Base (Función de Red)
Para un estudio analítico, las redes de conexión son matemáticamente representadas por la función de base u(w,x), donde w es la matriz de pesos, y x el vector de entrada. La función de base tiene dos formas típicas:
• Función Lineal de Base (LBF) es una función de tipo hiperplano. Esto es, una función de primer orden. El valor de red es una combinación lineal de las entradas,
• Función de base Radial (RBF) es una función de tipo hiperesférico. Esto implica una función de base de segundo orden no lineal. El valor de red representa la distancia a un determinado patrón de referencia,
La función de segundo orden se puede extender a otra más general llamada función de base elíptica.
Función de Activación (Función de neurona)
El valor de red, expresado por la función de base, u(w,x), será inmediatamente transformada por una función de activación no lineal. Por ejemplo, las funciones de activación más comunes son la función paso, rampa o sigmoidal y gausiana. En particular,
• Función sigmoidal
• Función gausiana
Estructuras de las Redes Neuronales Artificiales
Los aspectos más característicos de las estructuras son la estructura de conexión, el tamaño de la red y la elección entre ACON y OCON.
Estructuras de conexión de atrás hacia delante
Una red neuronal se determina por la neurona y la matriz de pesos . El comportamiento de la red depende en gran medida del comportamiento de la matriz de pesos. Hay tres tipos de capas de neuronas: la de entrada, las ocultas y la de salida. Entre dos capas de neuronas existe una red de pesos de conexión, que puede ser de los siguientes tipos: Hacia delante, hacia atrás, lateral y de retardo, tal como puede verse en la siguiente figura:
1. Conexiones hacia delante: para todos los modelos neuronales, los datos de las neuronas de una capa inferior son propagados hacia las neuronas de la capa superior por medio de las redes de conexiones hacia adelante.
2. Conexiones hacia atrás: estas conexiones llevan los datos de las neuronas de una capa superior a otras de la capa inferior.
3. Conexiones laterales. Un ejemplo típico de este tipo es el circuito "el ganador toma todo" (winner-takes-all), que cumple un papel importante en la elección del ganador.
4. Conexiones con retardo: los elementos de retardo se incorporan en las conexiones para implementar modelos dinámicos y temporales, es decir, modelos que precisan de memoria.
Las conexiones sinópticas pueden ser total o parcialmente interconectadas, como muestra la figura. También es posible que las redes sean de una capa con el modelo de pesos hacia atrás o bien el modelo multicapa hacia adelante. Es posible así mismo, el conectar varias redes de una sola capa para dar lugar a redes más grandes.
Tamaño de las Redes Neuronales
En una red multicapa de propagación hacia delante, puede haber una o más capas ocultas entre las capas de entrada y salida. El tamaño de las redes depende del numero de capas y del número de neuronas ocultas por capa.
• Número de capas: en una red multicapa, hay una o más capas de neuronas ocultas entre la entrada y la salida. El número de capas se cuenta a menudo a partir del número de capas de pesos (en vez de las capas de neuronas).
• Número de unidades ocultas: El número de unidades ocultas está directamente relacionado con las capacidades de la red. Para que el comportamiento de la red sea correcto (esto es, generalización), se tiene que determinar apropiadamente el número de neuronas de la capa oculta.
Aproximaciones ACON frente a OCON
Abordamos el problema de cuantas redes son necesarias para la clasificación en multicategorias. Típicamente, cada nodo de salida se usa para representar una clase. Por ejemplo, en un problema de reconocimiento alfanumérico, hay 36 clases; así que en total habrá 36 nodos de salida. Dado un patrón de entrada en la fase de prueba, el ganador (i.e., la clase que gana) es normalmente el nodo que tiene el valor más alto a la salida.
Dos posibles tipos de arquitectura son "All-Class-in-One-Network" (ACON), esto es, todas las clases en una red y "One-Class-in-One-Network" (OCON), esto es, una red para cada clase. En la aproximación ACON, todas las clases son reconocidas dentro de una única súper red. En algunos casos es ventajoso descomponer esta macro red en varias subredes mas pequeñas. Por ejemplo, una red de 36 salidas se puede descomponer en 12 subredes, cada una responsable de tres salidas. La descomposición mas extrema es la llamada OCON, donde una subred se dedica para una sola clase.
...