ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Big Data Para Lingüística Computacional


Enviado por   •  17 de Abril de 2013  •  525 Palabras (3 Páginas)  •  787 Visitas

Página 1 de 3

Los análisis de datos son relevantes para todo tipo de información, como son Big Data, Linked Data, Data-Driven Science, y Data Deluge, aún a pesar de esto, mucho contenido en Internet todavía se encuentra en lenguaje natural, como son los libros, publicaciones académicas, noticias, redes sociales, comunidades en línea, etc. Entender el sentido del lenguaje natural cae en el campo de la lingüística computacional (CL).

Muchos conceptos son importantes, por ejemplo la desambiguación del sentido, asimismo, tenemos el etiquetado de reglas semánticas, el parafraseo y vinculación textual, el resumen automático, y otros.

Los modelos y métodos que la lingüística computacional se ha desarrollado para estas tareas sobre los beneficios de varias décadas de recolección de datos y grandes cantidades de texto, que por lo general requieren un control de calidad por parte de las personas.

CL se refiere a estos activos como los recursos, en oposición a las fuentes de información. Considerando el esfuerzo humano como un cuello de botella, viéndose estos recursos se ven bastante disminuidos. Se debe tener en cuenta que el crowdsourcing no es una alternativa viable para controles de calidad. Entiéndase que el reconocimiento y la eliminación de ambigüedades, por ejemplo, requiere reflexión que va más allá de lo que un típico trabajador pueda realizar.

A partir de 2006, los proyectos como DBpedia, freebase.com, WikiTaxonomy, y YAGO han construido enormes bases de conocimiento (KB) de entidades (personas, lugares, etc.), clases semánticas (por ejemplo, los músicos, ríos, canciones de amor, etc.), y las relaciones entre las entidades (por ejemplo, Trabaja-para, Precio-de, Casado-con, Muerto-en).

Con este fin, YAGO ha generado comunidades que comparten conocimientos utilizando como referencia la Wikipedia, e integró los datos obtenidos con los recursos existentes, en el diccionario WordNet, considerándolo como un columna vertebral semántica.

Las KBs resultantes son grandes activos de datos que combinan la presición y calidad de los recursos tradicionales, con la riqueza y la escalabilidad de fuentes web automáticamente indexadas. Esta tendencia sigue en curso, los KBs siguen creciendo, creándose KBs especializados y acelerando la CL de grande cantidades de datos, obteniendo muchos recursos semánticamente interconectados a nivel de entidades en la Web.

El recurso más utilizado de CL es el diccionario WordNet: una colección de palabras y el sentido de estas. Cada palabra, se asigna a uno o más conceptos, y cada concepto está representado por sus palabras sinónimas que expresan el concepto.

Estos conceptos se organizan en una jerarquía DAG, con generalizaciones, hipérnimos y hipónimos. WordNet contiene más de 100,000 conceptos y sentidos de palabras más de 200,000, todos realizado por personas.

Proyectos de KB como

...

Descargar como (para miembros actualizados) txt (4 Kb)
Leer 2 páginas más »
Disponible sólo en Clubensayos.com