Motor de recomendación diseñado en Python
Enviado por homeraxteris • 30 de Septiembre de 2020 • Informe • 1.982 Palabras (8 Páginas) • 104 Visitas
Información People Analytics – aplicación + Fuentes de datos internas
Customer Journey MAP – Tableau y otras plaicaciones de visualización
Motor de recomendación diseñado en Python
Data Lake que iremos migrando gradualmente
7 años Carvajal
Volúmenes de información
Análisis requerido
Cuestionario
Presentación Contacto Inteligente:
La tecnología tiene como objetivo identificar, detectar, clasificar y predecir características interesantes en los datos de origen, tanto de texto como de datos estructurados. El proceso subyacente involucra el modelado, la evaluación y la retroalimentación / refuerzo, este último hace que el método sea "cognitivo", imitando el aprendizaje humano. La esperanza es mejorar los métodos establecidos, lograr una mayor precisión, robustez (cobertura del modelo y capacidad de mantenimiento) y acelerar la producción sin sacrificar el rendimiento o la capacidad de respaldar el efecto. (La disponibilidad y el costo del talento de la ciencia de datos es una preocupación importante).
Parte de la terminología es esotérica (palabras como cognitiva y refuerzo), pero los conceptos son relativamente sencillos. En el aprendizaje automático supervisado, el software infiere reglas de decisión generales, un modelo predictivo, a partir de los datos de entrenamiento. Un analista humano anota características de interés en un conjunto de entrenamiento, seleccionando etiquetas de un conjunto predefinido de tipos o categorías. (Algunas organizaciones utilizan el crowdsourcing para esta tarea que requiere mucha mano de obra).
En el aprendizaje no supervisado, por el contrario, la máquina hace una mejor suposición en cuanto a las categorías, agrupando los casos con características similares. La retroalimentación u otras formas de refuerzo confirman o corrigen las opciones de la máquina
A pesar de los avances, los resultados siguen siendo altamente dependientes de la elección de entradas y algoritmos.
La validación del modelo para garantizar resultados precisos y un rendimiento confiable es un paso esencial.
Dejando de lado las preocupaciones, el caso para el aprendizaje automático es claro. El principal motivador es la capacidad de generar de forma flexible modelos de datos específicos. Los ingredientes para la adopción: recursos informáticos a pedido de bajo costo y gran cantidad de datos, están en su lugar. Sin embargo, los pasos para poner el aprendizaje automático en producción pueden complicarse bastante.
Consideremos IBM Watson, un ejemplo de un sistema cognitivo. Watson alimenta una base de conocimientos mediante la combinación de datos de fuente de texto, extraídos a través de la minería de textos, con información de fuentes de datos estructurados. Hay un proceso de curación involucrado: los humanos evalúan, seleccionan y corrigen el conocimiento adquirido. El sistema interpreta las consultas en lenguaje natural y genera respuestas candidatas. La máquina evalúa las posibilidades y ofrece la respuesta que probablemente responda a la pregunta / consulta.
Lo que tenemos es, en esencia, inteligencia de máquina contextualizada: un sistema generado por aprendizaje automático y centrado en el contexto a través de la clasificación. Los resultados hablan por sí solos: en 2011, un sistema informático Watson que podría vencer a los campeones humanos de Jeopardy. En 2014, Watson estuvo disponible bajo demanda, a través de la nube Bluemix de IBM, y más recientemente, atención médica especializada, para ciudades más inteligentes y para el espectro de desafíos empresariales que involucran lenguaje natural.
A partir de hace poco, el aprendizaje automático a partir de una variedad de fuentes, a menudo de código abierto, desde Google TensorFlow y Microsoft Azure Machine Learning hasta startups como MonkeyLearn y MetaMind, ha llevado el aprendizaje automático a las masas. Sin embargo, las herramientas poderosas en manos poco entrenadas no producirán mejores resultados. La contextualización que hemos discutido se puede aplicar para mejorar los resultados, de manera sistemática, contribuyendo en varias etapas a la precisión, relevancia y utilidad de los modelos y resultados, como lo discutimos ahora.
¿Cómo se puede mejorar la precisión del aprendizaje automático con el contexto clasificado?
Considera cinco maneras
Aplicar clasificación para crear un conjunto de entrenamiento de alta relevancia.
Si entrena a su modelo con datos que no son representativos de las fuentes que utilizará en la producción, sus modelos no se entregarán. Considere: No capacite a un modelo de sentimiento en un conjunto de reseñas de películas si va a analizar las reacciones de Twitter a los anuncios de los fabricantes de automóviles. Mezclarás Harrison Ford y un Ford Focus. En su lugar, recurra solo a las fuentes que proporcionan entradas sobre el tema y aplique una clasificación contextual para asegurarse de que cada entrada sea relevante. En busca de resultados de palabras clave, en "Ford", por ejemplo, no hará el trabajo. Necesita una clasificación de grano fino para garantizar la precisión
Aplicar la clasificación para la preparación automatizada y sensible al contexto del conjunto de entrenamiento.
La anotación (etiquetado de características de interés) para la preparación del conjunto de entrenamiento puede ser un proceso que requiere mucha mano de obra. En muchos casos, deberá contratar anotadores expertos en la materia. En otros casos, puede realizar una anotación de fuente masiva aunque, debido a problemas de calidad, la contratación masiva requiere una administración cuidadosa. En su lugar, considere aplicar recursos lingüísticos para automatizar la anotación.
Comience con los léxicos y los diccionarios geográficos, que son listas de términos, nombres, lugares y otras entidades. Un diccionario de sinónimos enumera sinónimos: un paso más sofisticado pero no lo suficiente como para desambiguar un término polisémico, un término con múltiples significados.
(¿Es Ford un fabricante de automóviles, un actor o un presidente?) Puede aplicar redes léxicas, que capturan las palabras que frecuentemente preceden y siguen un término de interés, y observan la co-ocurrencia de otros términos con un término determinado. También considere la frecuencia contextual de uso cualquiera que sea el dominio. (Si estás trabajando con críticas recientes de películas, lo más probable es que Ford sea Harrison en lugar de Henry).
...