Cómputo de los logros de un sitio web mediante el análisis de las sesiones de sus usuarios
Enviado por pinguricharo14 • 2 de Enero de 2012 • Tutorial • 8.135 Palabras (33 Páginas) • 776 Visitas
DEPARTAMENTO DE LENGUAJES, SISTEMAS E INGENIERÍA DEL SOFTWARE
Facultad de Informática
Universidad Politécnica de Madrid
RESUMEN DEL TRABAJO DE INVESTIGACIÓN
(Programa de doctorado)
Cómputo de los logros de un sitio web mediante el análisis de las sesiones de sus usuarios
Autor: Esther Hochsztain
Tutora: Ernestina Menasalvas Ruiz
Fecha: Septiembre, 2002
Indice
Indice 2
Resumen del trabajo de investigación 2
1. Algoritmo de evaluación de los logros de un sitio web mediante el cómputo del valor de las sesiones de usuarios 2
2. Metodología para la estimación de la utilidad de una página web 10
Bibliografía analizada 15
Publicaciones que el trabajo ha generado 16
Resumen del trabajo de investigación
Los trabajos realizados se refieren a Web Mining. Se han desarrollado en dos áreas temáticas:
1- Algoritmo para la determinación del valor de una sesión en un sitio web, presentado en los artículos [1], [3] [4] [5]
2- Metodología para la estimación de la utilidad de una página web, presentado en el artículo [2]
A continuación se presentan los conceptos fundamentales de los trabajos realizados.
1. Algoritmo de evaluación de los logros de un sitio web mediante el cómputo del valor de las sesiones de usuarios
1.1) Resumen
La exitosa aplicación de técnicas de minería de datos en la Web requiere que éstas se adapten a los cambios continuos en los objetivos de los sitios web. Una de las razones por las cuales ha fallado la aplicación de técnicas de descubrimiento de conocimiento en datos extraídos de la web es que, en la mayoría de los casos, el análisis se ha concentrado exclusivamente en análisis de páginas y caminos más visitados sin tener en cuenta los objetivos del sitio web. Sin embargo, si se quieren extraer patrones útiles e interesantes, los datos de la web se deberían enriquecer con información relacionada con el negocio.
Se propone un algoritmo para determinar el valor de una sesión de un usuario en la web. Dicho algoritmo, tiene en cuenta las metas del sitio web, el comportamiento y perfil del usuario y los cambios en las políticas y objetivos marcados por los administradores del sitio web. La solución que se propone es innovadora en el sentido en que permite, tener en cuenta puntos de vista de distintos usuarios, e integrar la información del sitio web con las metas del negocio.
La entrada del algoritmo es una matriz de valores en la que cada casilla representa el valor que tiene avanzar desde una determinada página a otra. El artículo presenta también resultados experimentales basados en 2400 sesiones analizadas atendiendo a cuatro diferentes matrices.
Palabras Claves: Minería de datos en la web, análisis basado en grafos, valoración de sesiones de usuario
1.2) Introducción
El continuo crecimiento del World Wide Web, unido al entorno competitivo en el cual se mueven las organizaciones modernas, ha hecho necesario diseñar los sitios web teniendo en cuenta, como aspecto fundamental, el conocimiento que se puede extraer de las navegaciones de los usuarios que lo utilizan. Una de las formas de conocimiento más frecuentemente utilizadas consiste en descubrir cuáles son los caminos de usuario más frecuentes. Sin embargo, esto no es suficiente, haciéndose necesario integrar, por ejemplo, minería de datos con los objetivos del sitio web, con el propósito de conseguir que cada sitio web sea el más atractivo y como consecuencia el más competitivo.
La mayoría de las organizaciones que exploran el comportamiento de sus usuarios en la web utilizan, exclusivamente, datos de las secuencias visitadas (“clickstream”).
Hasta el momento, uno de los principales problemas en la aplicación de técnicas de data minign en datos de la web tiene que ver con la etapa de preprocesamiento de datos.
Los servidores web registran, comúnmente, una entrada por cada acceso en el archivo log. Entre los datos que se recogen se incluye la dirección IP, el tiempo de acceso, el método pedido, el URL de la página solicitada el protocolo de transmisión, un código de retorno y el número de bytes transmitido. El servidor log contiene, no obstante, muchas entradas que son irrelevantes o redundantes para la tarea de minería y que se requiere limpiar antes del preprocesamiento. Después de la limpieza, es necesario identificar y agrupar los datos en sesiones significativas [12]
Las técnicas inteligentes de web mining (intelligent web mining) pueden aprovechar los datos del clickstream una vez preprocesados para extraer conocimiento relacionado con la interacción de los usuarios con la Web [1][2], que se puede utilizar para tomar decisiones críticas de negocio.
Sin embargo, estos datos se deben enriquecer con información relativa al negocio si lo que se espera es ofrecer a las organizaciones conocimiento interesante y útil sobre el mismo y sobre sus clientes de forma que les permita competir. De acuerdo con [3] hoy en día, a menos que se pueda obtener y demostrar ganancia, no se podrá sobrevivir.
En este sentido, en este artículo se propone un algoritmo que a la vez que tiene en cuenta la información registrada en el servidor log mejora el análisis tradicional, puesto que integra información del negocio. El enfoque propuesto tiene en cuenta, para el cálculo de los valores de un enlace, los datos almacenados en el archivo log del servidor, los objetivos del negocio y el conocimiento disponible sobre el área o contexto del negocio.
El algoritmo permite calcular los valores acumulados, durante una sesión, teniendo en cuenta, tanto el análisis del comportamiento de los usuarios como las metas cambiantes del negocio.
La idea básica subyacente al algoritmo es muy similar al proceso de corrección de una prueba de evaluación de los estudiantes. En el caso de los exámenes, dependiendo de sus respuestas los alumnos suman o restan puntos a su calificación. Haciendo una analogía, las páginas visitadas por un visitante lo pueden alejar o acercar a la meta propuesta por la organización. Cuando éste se acerca a la meta, mientras visita las páginas, se añaden puntos; cuando se aleja se restan.
La solución que se propone en este artículo es innovadora porque considera diferentes caminos de evaluación a partir del punto de vista de diferentes usuarios integrando la información proveniente de la web con los objetivos del negocio. De esta manera, se ofrece un marco conceptual para analizar la evolución de las sesiones asignándoles un
...