TÓPICOS AVANZADOS DE INTELIGENCIA COMPUTACIONAL
Enviado por miriam172 • 23 de Diciembre de 2020 • Práctica o problema • 766 Palabras (4 Páginas) • 207 Visitas
[pic 1][pic 2][pic 3]
UNIVERSIDAD NACIONAL DEL ALTIPLANO PUNO
FACULTAD MECÁNICA ELÉCTRICA, ELECTRÓNICA Y SISTEMAS
ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS
TÓPICOS AVANZADOS DE INTELIGENCIA COMPUTACIONAL
DOCENTE
FERNANDEZ CHAMBI MAYENKA
TRABAJO
TEST DE BAGS OF WORDS
PRESENTA
MAMANI MAMANI MIRIAM[pic 4][pic 5][pic 6]
miriambh172@gmail.com
Puno – 2020
TEST DE BAGS OF WORDS
TEST 1
Selector de Bolsa de palabras
¿Cuál de las siguientes opciones es el resultado del mapeo de la bolsa de palabras del texto:“The cat is in the box. The cat box”?. Si ha sido tokenizado con NLTK.
Respuesta: b) ('The', 3), ('box', 2), ('cat', 2), ('is', 1), ('in', 1), ('.', 1)
TEST 2
Construyendo un contador de palabras
En este ejercicio, creará su primer contador de bolsa de palabras utilizando un artículo de Wikipedia que se encuentra en el archivo “wiki_text_debigging.txt”, y lo cargará en la variable articulo. Trate de hacer la bolsa de palabras sin mirar el texto completo del artículo y adivinar cuál es el tema. Tenga en cuenta que el texto de este artículo ha tenido muy poco procesamiento previo de la entrada de la base de datos de Wikipedia sin procesar. Complete el código. ¿Cuáles son las 15 palabras más frecuentes?
[pic 7]
TEST 3
Pasos de preprocesamiento de texto
¿Cuáles de los siguientes son pasos útiles para el preprocesamiento de texto?
Respuesta: b) Lemmatization, minúsculas, eliminar tokens indeseados
c) Eliminar stopwords, dejando las mayúsculas
TEST4
Práctica de preprocesamiento de texto
Aplique las técnicas de limpieza de texto y obtenga mejores resultados de NLP, para ello tendrá que eliminar las palabras vacías y los caracteres no alfabéticos, lematizar y realizar una nueva bolsa de palabra con el texto limpio.
Usará la lista lower_tokens obtenido en el Test 02 y la lista english_stops para realizar este ejercicio. Complete el código. ¿Cuáles son las 15 palabras más frecuentes?
[pic 8]
TEST 5
¿Qué son los vectores de palabras y cómo ayudan a NPL?
Respuesta: c) Los vectores de palabras son representaciones matemáticas multidimensionales de palabras creadas mediante métodos de aprendizaje profundo. Nos dan una idea de las relaciones entre las palabras de un corpus.
TEST 6
Crear y consultar un corpus con gensim
Utilice Gensim para investigar las tendencias de palabras y posibles temas interesantes en un conjunto de documentos. Tiene a disposición algunos artículos de Wikipedia, que debe preprocesar al poner en minúsculas todas las palabras, convertirlas en tokens y eliminar las palabras vacías o stopwords y almacenar el resultado en una lista de tokens de documentos denominado articles. Deberá realizar un preprocesamiento ligero y luego generar el diccionario y el corpus Gensim. Complete el código.
[pic 9]
...