Taller Text Mining
Enviado por spiderman_gyq • 7 de Abril de 2013 • 530 Palabras (3 Páginas) • 419 Visitas
Taller Text Mining.
Este taller presenta un ejemplo de Text Mining con R extrayendo texto desde Twitter y luego transformándolo en una matriz document-term, posteriormente muestra las asociaciones y palabras más frecuentes que se encuentren en la matriz, se utiliza la librería Wordcloud para mostrar las palabras más importantes graficamente, finalmente se forman grupos de palabras y tweets mediante clusters.
Se utilizaron varias librerías las que se detallan en cada ejercicio, pero las principales son twitterR, tm y wordcloud. Para el ejercicio hemos utilizado el twitter @ecuainm (www.ecuadorinmediato.com)
1. Obteniendo texto de un Twitter.
Los tweets son extraídos desde Twitter utilizando userTimeline() se encuentra dentro de la librería twitterR.
2.Transformado Texto.
Los tweets primero se convierten en dataFrame y luego a Corpus, que es una colección de documentos de texto, luego de esto el corpus es procesado por funciones provistas por la librería tm. corpus necesita ser modificado esto incluye cambiar letras a minúscula, remover puntuaciones, números y stop-word.
3. Construyendo la matriz de términos.
La matriz term-document representa la relación entre términos y documentos, en donde cada fila se encuentra un término y en cada columna un documento, y la intersección es el número de ocurrencias del término en el documento.
4. Términos Frecuentes y asociaciones.
Se muestra las palabras más populares y las asociaciones entre ellas, en el ejercicio la función findFreqterms() busca los términos frecuentes con una ocurrencia no mayor a 10, y los muestra ordenadas alfabéticamente. Para mostrar el top de palabras frecuentes visualmente necesita realizar un barplot desde la matriz de documentos para obtener los términos frecuentes utiliza la función rowSums(). Para poder realizar este ejercicio se agregaron las siguientes librerías: ggplot2, digest, memoise, plyr, proto,reshape2, stringr, scales, dichromat, labeling.
Se visualiza el gráfico verticalmente.
5.Word Cloud.
Podemos visualizar la importancia de las palabras con la librería wordcloud, en el siguiente ejercicio se convierte la matriz document-term en una matriz normal y calcula la frecuencia de las palabras, luego utilizamos niveles basados en estas frecuencias, utilizamos wordcloud() para graficar los niveles, palabras con frecuencias por debajo de tres no son graficadas, las palabras con mayor frecuencia aparecen en el centro. Librerías utilizadas en este ejercicio: wordcloud, Rcpp.
6.- Clustering words.
Cuando intente encontrar grupos de palabras con agrupaciones jerárquicas, los termino dispersos son removidos,
...