Minería de uso web para identificar preferencias de navegación en las páginas web de la UNSAAC
Resumen
Anticiparse a lo que desea ver un usuario de una página web hoy en día es muy importante, para hacer tangible esta característica se podrían realizar periódicamente desde encuestas hasta cuestionarios complejos de realizar y complicados de consolidar, en el caso de ser esto posible habría un margen de error. Por consiguiente, para el presente proyecto se tiene como objetivo determinar las preferencias de navegación de los usuarios de las páginas web de la UNSAAC en base a los log del servidor web del dominio www.unsaac.edu.pe.Un log es un archivo que almacena toda la interacción de los usuarios o personas que consultan información en una página web la cual guarda todas estas interacciones sin sesgo alguno.Los log utilizados en el presente proyecto fueron facilitados por la RCU (Red de Comunicaciones UNSAAC) los que corresponden al año 2017, el contenido de estos archivos en crudo no están estructurados, además no cuentan con algún tipo de pre procesamiento o procesamiento alguno.El objetivo del proyecto fue determinar las preferencias de navegación para lo cual se pasaron por dos fases, se realizó la preparación de datos y el descubrimiento de patrones, donde se realizó el pre procesamiento de datos mediante un programa de mi autoría se pasaron los log a una base de datos, en esta instancia se realizó una limpieza previa excluyendo a los log accedidos desde la ip 127.0.0.1, seguidamente se creó una base de datos de transacciones donde se realizó la siguiente limpieza en este caso excluyendo logs que contenían archivos de hojas de estilo, javascript, imágenes, bots de google e iconos, seguidamente se realizó la minería de uso web donde se aplicó la minería de reglas de asociación y finalmente la obtención y análisis de patrones.Se seleccionaron muestras significativas en forma aleatoria simple debido a que la cantidad total de logs ascendieron a 94949716 aproximadamente y el tiempo computacional para procesarlos era alto, se tomó el 3.33% haciendo que la muestra fuera de 3797989, para obtener dicha muestra se utilizó un programa que pueda dar lectura a archivos de más de 1 GB, se procedió a dividir cada uno de los 40 archivos log tomando en cuenta que la navegación del ultimo usuario en el log no se pierda, de allí que el porcentaje de la muestra no sea exacto, pero luego de la limpieza y estructuración se obtuvo 32994 transacciones donde están contenidas las preferencias de navegación.Finalmente se obtuvieron 11 reglas de asociación las cuales representan las preferencias de navegación de los usuarios, con un 90% de confianza a las cuales se les realizaron métricas de validación para descartar que dichas preferencias se deban al azar, también se obtuvo los patrones y las secuencias en que se visitan las distintas páginas de la UNSAAC y el orden en el que lo hacen, con estos resultados se demostró que mediante el proceso de minería de uso web se puede estructurar logs, también se pudo identificar las preferencias de navegación de los usuarios en función a los accesos realizados a la página web de la UNSAAC y demostrar que en archivos cercanos al big data hay preferencias ocultas y valiosas para la institución.
Colecciones
- Tesis [12]