Minería De Textos
Enviado por Andoni90 • 1 de Septiembre de 2013 • 512 Palabras (3 Páginas) • 438 Visitas
La minería de textos se refiere al proceso de derivar información nueva de textos.
Es una de las ramas de la lingüística computacional que trata de obtener informacion y conocimiento a partir de conjuntos de datos que en principio no tienen un orden o no estan dispuestos en origen para transmitir esa informacion
Es una tecnica clave en un mundo como el actual en el que continuamente se recogen datos desde distintas perspectivas y de muchos aspectos diferentes de todas las actividades propias de los seres humanos.
Es imprescindible para entender lo que es la Mineria de Textos o Text Mining, tener claro antes lo que es el Data Mining:
Este ultimo concepto surgió hace ya mas de cinco años para ayudar a la comprensión de los contenidos de las bases de datos. En cualquier acto de comunicación o de tratamiento de información, de lo que se trata es de adquirir conocimiento a partir de unos datos originales. Para el Data Mining los datos son la materia prima bruta a los que los usuarios dan un significado convirtiendolos en información que posteriormente sera tratada y utilizada por los especialistas para convertirlos en conocimiento.
El data mining a conseguido reunir las ventajas de áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, las bases de datos como materia prima. Molina y otros lo definirían como "la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001).
Entendido que es el Data Mining, podemos extrapolar la misma idea a la Minería de Textos o Text mining. Los datos a tratar con esta técnica serán, en lugar de los datos de las bases de datos, los documentos y textos de las organizaciones, administraciones, compañías, etc.
El Text Mining no se debe confundir con la recuperación de la información, que es la recuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc. La información que realmente le interesaría a la minería de textos es aquella contenida en esos documentos pero de manera general, es decir, no esta contenida en un texto en concreto sino que es la información global que tienen todos los registros, textos, documentos... de la colección en común. Es un análisis de los datos compartidos por todos los textos de la colección que se ofrece de manera indirecta, es decir, son informaciones que la colección dará a los especialistas pero que no fue específicamente incluida en esa colección en el momento de su creacion para su posterior difusion a los usuarios.
Por tanto, podemos decir que la Mineria de Textos comprende tres actividades fundamentales:
Recuperación de información, es decir, seleccionar los textos pertinentes.
...