Aplicación de minería de datos educativos a procesos B-Learning. a
b
Julián A. Monsalve , Fredy A. Aponte and Jorge G. Hoyos
c
a
Msc. En software Libre, Ingeniero de sistemas Msc. En software Libre, Ingeniero en Sistemas y Computación Computación c Msc. Ciencias de la Información y las Comunicaciones, Comunicaciones, Ingeniero de Sistemas b
Grupo de investigación GIBRANT, Facultad de Ingeniería de Sistemas Universidad Santo Tomas Seccional Tunja, Colombia
[email protected],
[email protected],
[email protected],
[email protected]
Resumen. El artículo describe la forma en que se aplican los conceptos de la minería de datos educativos a información extraída de varias fuentes de datos de una institución educativa en procesos de b-learning. Se explica el proceso de ingeniería de software en el desarrollo de una herramienta informática en la cual se aplica el modelo de análisis construido por los autores y se utilizan técnicas de minería de datos para el análisis de la información. Con base en el análisis cuantitativo y cualitativo de la información obtenida, se generaron recomendaciones para mejorar el uso de la plataforma virtual con que cuenta la institución.
Palabras clave: Minería de datos educativos, educativos, Minería web, Uso web, Ingeniería Ingeniería de software. Abstract. The article describes how to apply the concepts of educational data mining on information from several data sources in an educational institution in B-learning processes. It explains the process of software engineering in the development of a software tool which, is applied in the analysis model built by the authors and used data mining techniques for analyzing the information. Based on quantitative and qualitative analysis of the information obtained, several recommendations recommendations were built to i mprove the use of the platform in the institution. institution.
Keywords: Educational Data Mining, Mining web, Web use, Software engineering.
INTRODUCCIÓN El gran volumen de información que se almacena en los entornos digitales utilizados en el proceso de enseñanza aprendizaje no se está aprovechando al máximo en algunas instituciones educativas para un mejoramiento continuo del contenido, estructura y uso de los cursos virtuales. Varios autores han realizado investigaciones que utilizan procesos de minería de datos para dar solución a esta problemática, argumentando técnicas específicas para información en entornos educativos. El trabajo se divide en cuatro partes, en la primera se expone un estado de arte de las investigaciones que se han realizado en los últimos años en el tema de minería de datos académicos, manejadores de contenidos educativos, técnicas de minería de datos y minería web. En la segunda parte se explica el modelo de análisis que se creó para la extracción, filtración filtración y aplicación de las técnicas de minería de datos. En la construcción construcción de la aplicación se describe el proceso de ingeniería de software que se usó para el desarrollo del prototipo final de la investigación. Por último se presentan algunos resultados del análisis de la información extraída del modelo de análisis de las fuentes de información, está interpretación se basa en un análisis estadístico y en análisis cualitativo extraído de algunas entrevistas a los directores de cada unidad académica involucrada en el proceso.
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
ESTADO DE ARTE El uso de ambientes virtuales basados en la Web, como herramienta de apoyo al proceso educativo, se ha expandido en los últimos años, gracias al desarrollo de nuevos enfoques y modalidades de educación, como el elearning y el b-learning. Mena [1] define el b-learning como “el aprendizaje que combina alternativas presenciales y no presenciales”, en otras palabras este tipo de enseñanza involucra actividades presenciales junto con actividades virtuales que hacen uso de las tecnologías de la información y la comunicación, b-learning se presenta hoy día como una alternativa a la educación virtual también llamada e-learning. Estas nuevas formas de utilización de la tecnología como apoyo al proceso de enseñanza-aprendizaje, han incentivado la aparición de software especializado en proveer los mecanismos que facilitan el desarrollo desarrollo del trabajo autónomo del estudiante, su interacción con el docente, y el uso de herramientas colaborativas y de comunicación para el trabajo grupal. Actualmente la mayoría de instituciones educativas hacen uso de Sistemas de Gestión de Aprendizaje (LMS, Learning Management System) como apoyo a su labor educativa educativa [2]. Entre estos gestores se encuentran encuentran plataformas libres como Moodle Moodle [3], Claroline [4], Dokeos [5], Atutor [6], ILIAS [7], y de igual manera se encuentran plataformas propietarias como Blackboard Blackboard [8] y TopClass [9].
Estos sistemas muestran su contenido de una forma estática donde el estudiante navega por el curso de u na forma que no necesariamente es la más óptima de acuerdo a sus conocimientos, intereses y necesidades [10], sumado a este inconveniente muchos profesores hacen uso de estas plataformas solo como repositorio de documentos desaprovechando las funcionalidades funcionalidades que ofrecen ofrecen estos Sistemas. Para contrarrestar estos inconvenientes han surgido en la última década los sistemas hipermedia adaptativos con fines educativos que hacen uso de técnicas de KDD (Knowledge Discovery in Databases) para crear un modelo que permite adaptar el contenido y enlaces del curso al al usuario usuario actual actual [11]. Interbook (Brusilovsky, Eklund, & Schwarz), Elm-Art [12], [13], [13], Indesach [15] son ejemplo de estos sistemas Hipermedia Adaptativos basados en Web. En aras de lograr un mejor aprovechamiento de la información alojada en las bases de datos que sirve de soporte a las plataformas virtuales de aprendizaje, se propone el uso de técnicas y herramientas de minería de datos para la caracterización del uso dado a dichas plataformas por parte de una comunidad académica. La minería de datos, tiene como finalidad según [15] el descubrimiento eficiente de información no obvia de un volumen amplio de información. Lo anterior tiene como objetivo ayudar a buscar situaciones interesantes con los criterios correctos, complementar una labor que hasta ahora se ha considerado “intelectual” y de alto nivel, privativa de los gerentes, planificadores y administradores [16] La aplicación de la minería de datos en varias áreas es hoy en día indiscutible, y por ende la mayoría de software especializado la incluyen para permitir un análisis de la información heurística y probabilística [17]. Como una rama especializada de la minería de datos surge la minería Web, definida en [18] como el uso de técnicas de minería minería de datos para recuperar, extraer extraer y evaluar automáticamente automáticamente información información para descubrir conocimiento de documentos y servicios web, y la minería de usabilidad definida en [19] como la aplicación de técnicas de minería de datos al contenido, la estructura y el uso de recursos Web. En la investigación se utilizó la minería de datos educativos (Educational Data Mining, EDM) que fue definida en 1995 como aquella que tiene como objetivo analizar datos específicos de estudiantes, docentes y autoridades educativas en sistemas manejadores de contenidos educativos (LMS), está información puede ser a priori y a posteriori en modelos de formación E-learning y B-learning. El análisis de l a información por medio de EDM brinda a los actores algunos puntos de vista globales en el comportamiento de la plataforma, creando valor a servicios a posteriori, con información a priori que se puede analizar para el mejoramiento de la misma. Los actores que intervienen en el EDM son los estudiantes, docentes, directivos directivos y administrativos de una organización académica
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
FIGURA 1. Descripción de actores en la Minería de datos Educativos. Fuente: Los autores La información almacenada del estudiante tiene como objetivos identificar las actividades, recursos y tareas que podrán mejorar su rendimiento académico en la plataforma. Por otro lado se identifican las actividades en plataforma que mejor se ajusten a un perfil determinado del estudiante. El actor docente en el proceso EDM tiene como objetivos la cuantificación del proceso enseñanza - aprendizaje, para medir la efectividad en los contenidos, estructura del curso y usabilidad, tal como se muestra en la figura 1. Uno de los factores más importantes del EDM desde el punto de vista del docente es la organización de los actores estudiantes para realizar tareas de tutorías, asesorías y verificación del proceso aprendizaje de manera individual, por medio de búsquedas de patrones de comportamientos generales y anómalos. Para los actores docentes es importante evaluar las actividades registradas en el curso, donde se debe analizar factores de efectividad y motivación para dar un mejoramiento a este proceso y poder madurar el proceso enseñanza aprendizaje por medio de plataforma virtual. Para las instituciones educativas la visión del EDM fundamenta mejor el uso de las tecnológicas de la información y las comunicaciones, adaptando mejor los contenidos ofrecidos desde las plataformas virtuales para la organización de recursos institucionales como los diseños de horarios y la adquisición de material con un análisis a priori, como se ilustra en la figura 1. Con un análisis EDM las instituciones pueden diseñar estrategias globales sobre la creación de nuevos programas basados en la demanda y la orientación de los mismos por medio de competencias y necesidades del entorno.
MODELO DE ANÁLISIS Partiendo de esta revisión se creó un modelo que sirvió para extraer patrones de usabilidad de las fuentes de información como base de datos, log de conexión y reportes de registro y control académico. Los resultados obtenidos fueron analizados de manera cuantitativa por medio de comparaciones de información de la oficina de registro y control sobre población versus matriculación en los cursos de la plataforma virtual y cualitativamente basado en entrevistas a los directores de las áreas y programas de la institución educativa. Para el proceso de obtención de datos en la investigación se identificó la fuente de datos de los servidores donde se encuentra instalado en el LMS Moodle para realizar el análisis. La primera fuente es el log de conexión del servidor apache que se encuentra en un formato estándar diseñado por CERN y NCSA según [21] El formato de una
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
acceso, requerimiento, URL de la página accedida, el protocolo utilizado para la transmisión de los datos, un código de error, agente que realizó el requerimiento y el número de bytes transmitidos. Para garantizar una buen proceso de análisis análisis es necesario realizar un pre procesamiento procesamiento de los datos, esta tarea de la metodología tiene como objetivo contribuir de manera significativa en la creación de patrones de calidad de la información, para obtener datos minables y que puedan ser usados en técnicas de limpieza y transformación, ya que generalmente los archivos de log de acceso de los servidores web, presentan datos duplicados y no válidos, la limpieza se encarga de dar solución a estos inconvenientes para contribuir al buen desempeño del proceso de transformación de los datos. En la limpieza de los datos se debe tener en cuenta la eliminación de accesos realizados por robots, registros basados en el código de estado y duplicidad de la información. En la eliminación de los accesos por robots se identifican los accesos al servidor, mediante el campo user-agent que registra información diferente a navegadores web. En la eliminación de los registros del código de estado, los registros http del rango 2xx corresponden a código de respuesta exitosa y por esto se deben eliminan los registros 1xx (información), 3xx (redirección), 4xx (error de cliente) y 5xx (error de servidor). Para la eliminación de la duplicidad, se tienen en cuenta los registros relacionados con hojas de estilo css, frames y elementos que componen la página como imágenes, animaciones, videos, etc., para esta tarea es necesario identificar la naturaleza del sitio web, con el fin de conocer los registros importantes para el análisis de usabilidad del sitio. Por ejemplo si el sitio se encarga de ofrecer descargas de imágenes, no deben ser borrados los registros relacionadas con archivo de tipo: png, jpg, gif, etc según [22].
La otra fuente de origen origen de datos están en la base de datos de Moodle, Moodle, esta pueden estar en motores como Mysql, Oracle, Postgresql, entre otros. Para el caso de la investigación el motor de origen de datos se encuentra en Mysql y se utilizaron las copias de s eguridad de los últimos dos semestres académicos correspondientes al primero y segundo del 2011. Para la extracción de la información se simulo el motor de bases de datos con las copias de seguridad para realizar las consultas en SQL según el modelo de análisis de usabilidad. La última fuente de origen de datos son los informes de población estudiantil de la oficina de registro y control académico de los semestres académicos analizados. En el marco del análisis de la investigación se identificó un ambiente b-Learning que tiene como objetivo utilizar la plataforma para el apoyo apoyo de los procesos académicos presenciales, presenciales, actividades de trabajo trabajo autónomo y de acompañamiento de los cursos académicos presenciales según [23]. Para la construcción del modelo de análisis se tuvo en cuenta la identificación de patrones de usabilidad que son construidos con base a los registros del proceso presencial y los registros de la plataforma virtual como se muestra en la figura 2.
FIGURA 2. Propuesta de extracción de la información académica para el proceso de análisis. Fuente: Los autores
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
CONSTRUCCIÓN DE LA APLICACIÓN Siguiendo con el proceso metodológico de la investigación se desarrolló desarrolló una aplicación que ayudara al proceso de análisis de la información de forma sistematizada y que brinda herramientas de consultas personalizadas orientadas a los usuarios (institución, decanos y docentes).
FIGURA 3. Diagrama de caso de uso de la aplicación desarrollada. desarrollada. Fuente: Los autores En la figura 3 se describen los actores y casos de uso con que cuenta la aplicación, el actor administrador carga los datos al sistema para estos sean filtrados para identificar la información a la que se puede aplicar la minería de datos. Cuando la información filtrada este en la aplicación los actores decano, docente y a dministrador puede aplicar el proceso de análisis de uso de forma dinámica mediante la ejecución de los algoritmos de minería de datos para la identificación de patrones de uso y la generación de informes gráficos o en formato pdf.
FIGURA 4. Vista previa del prototipo desarrollado. desarrollado. Fuente: Los autores
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
iterativo incremental con una metodología ágil XP (Extreme Programming). Esta metodología se enfoca más en la adaptabilidad que en la la previsibilidad. Se le considera programación programación extrema por la adopción adopción de las mejores metodologías de desarrollo de acuerdo a lo que se pretende llevar a cabo con el proyecto y aplicarlo de manera dinámica durante todo el ciclo de vida del software. La aplicación se registró con una de las licencias mejor adaptadas para el software libre y que es aprobada por la Free Software Fundation “GNU Licencia Publica General Versión 3.0” la cual garantiza las cuatro libertades del software libre. El código fuente, binarios de la aplicación y manuales se encuentran alojado en http://sourceforge.net/projects/webmininglms/ para para su estudio y adaptación.
RESULTADOS A continuación se describe algunos resultados del análisis de la información extraída del modelo de análisis de las fuentes de información, está interpretación se basa en un análisis estadístico y en análisis cualitativo extraído del 90% de entrevistas a directores de cada unidad académica involucrada en el proceso. Desde el punto de vista de los estudiantes se procede a contrastar el número de matriculados en cursos virtuales administrados por las diferentes unidades académicas, con la población total de estudiantes de cada una de ellas. En los programas de pregrado se observa que la totalidad de los estudiantes de las ingenierías se encuentran vinculados a cursos de la plataforma ofrecidos por sus facultades, mientras que los demás programas muestran una subutilización de este recurso. En los programas de posgrado la subutilización es más severa, encontrando seis programas con ninguna participación. Respecto a los departamentos académicos, que atienden población de todos los programas, se destaca la situación del departamento de humanidades, dónde la utilización de la plataforma apenas alcanza el 1% de los estudiantes atendidos. La interpretación cualitativa cualitativa de la información obtenida identifica que los departamentos como humanidades y ciencias básicas no tienen prioridad en el uso de la plataforma por el tipo de contenidos y visiones filosóficas de algunos docentes donde se argumenta que el uso de la plataforma deshumaniza el proceso de enseñanza aprendizaje. Lo anterior contrasta con el uso que hacen los estudiantes de las facultades de ingeniería donde identifican la plataforma como herramienta fundamental para los procesos de tutorías y de trabajo autónomo.
FIGURA 5. Estadísticas de uso de la plataforma Moodle periodo académico. académico. Fuente: Los autores Se evidencia que un alto porcentaje de los estudiantes matriculados en los cursos virtuales, aproximadamente un 45%, ingresa a la plataforma sólo entre 1 y 10 veces a lo largo del semestre, denotando falta de interés en la utilización de la misma, que en algunos casos está relacionado con la escasez de recursos y actividades programadas
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
un 60% desde direcciones externas, hogares, oficinas y sitios públicos, frente a un 40% originada en la red interna de la institución educativa. educativa. Lo anterior en gran medida está determinado por la mayor mayor disposición tanto de docentes como de estudiantes de trabajar en estas franjas horarias desde la comodidad de sus hogares.
Se analizó la vinculación de las actividades que ofrece la plataforma moodle en cada uno de los cursos. En dicho análisis se identificó que las actividades que más son vinculadas en los cursos son t areas, foros y quices, en un 55,60 %, 27,12% y 10,47% respectivamente en relación a la utilización total de actividades. La vinculación de tareas en los cursos virtuales tiene un comportamiento similar en todos los programas de pregrado con un promedio de 55, 5% de la vinculación total de las actividades, se presenta una mayor vinculación en los programas de Ingeniería con un 59,68% y de administración de empresas con el 63,24%. Se evidencia que la funcionalidad de recepción de tareas a través de la plataforma ha sido la de más acogida por parte de los docentes, en gran medida por que facilita el control en los tiempos de entrega, entrega, mientras que se observa observa una subutilización subutilización de la gran variedad de herramientas herramientas disponibles en la plataforma, lo que se atribuye en parte a falta de capacitación, así como a factores relacionados con la disponibilidad de tiempo para el diseño y construcción de otro tipo de actividades en los cursos virtuales.
FIGURA 6. Estadísticas de uso de actividades por programa. Fuente: Los autores La vinculación de foros en cursos virtuales en programas de pregrado se destaca en los programas de derecho y arquitectura con un promedio de 45,87% de la vinculación total de las actividades, en los demás programas la vinculación de esta actividad en los cursos virtuales presenta un promedio de 26,20 %. La vinculación de quices en los cursos virtuales de los programas de pregrado presenta un promedio de 11,34 % de la vinculación total de actividades donde se destaca una vinculación del 27,63% en el programa de contaduría pública y de 0% en el programa de arquitectura. Adicionalmente, se realizó un análisis del uso realizado por parte de los estudiantes de los programas de pregrado a las actividades de mayor vinculación en los cursos, en dicho análisis se obtuvo el porcentaje de estudiantes que hacen uso de estas actividades en relación al número de estudiantes de cada programa. Este análisis
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
algunos casos cerca del 20%, presentado un promedio general de estudiantes que hacen uso de la actividad de envió de tareas del 56,02 %. Se destaca que en un gran porcentaje los estudiantes de los programas de ingeniería de sistemas e ingeniería electrónica son los q ue mayor actividad tienen en los diferentes tipos de actividades.
CONCLUSIONES La identificación de patrones de uso de la plataforma virtual, permite a la institución generar estrategias para el mejor uso de la misma, co nsolidando los procesos de b-learning llevados a cabo por los diferentes programas académicos. En el estudio realizado realizado se evidenció la subutilización, subutilización, por parte de algunos programas tanto tanto de pregrado como de posgrado, de las herramientas proporcionadas por la plataforma virtual, y el desaprovechamiento de su potencial como herramienta que permite nuevas formas de mediación pedagógica. Además de la identificación de patrones de uso, la aplicación de técnicas de minería de datos a las plataformas virtuales de aprendizaje, tiene la posibilidad de permitir el perfilamiento de usuarios, el análisis de contenidos y la estructura de contenidos en las mismas plataformas. La gran importancia de la minería de datos web es que su uso y aplicación permite detectar información no visible y de gran importancia en cualquier aplicación en internet, determinar patrones de conducta y establecer redes de relaciones existentes que sirven para identificar grupos homogéneos de usuarios, para encausar sus intereses comunes al desarrollo de grupos participativos y líneas de investigación, con personas dedicadas a temáticas afines. Por último, y como un resultado más de la investigación, se desarrolló una aplicación de libre distribución distribución que ayuda al proceso de análisis de información de plataformas virtuales de aprendizaje (en esta caso Moodle) aplicando técnicas de minería de datos, la cual permite generar recomendaciones para las instituciones educativas y promover el mejoramiento continuo en el uso de estas herramientas tecnológicas.
BIBLIOGRAFÍA 1. Feierherd, G y Giusti, A. Una experiencia de blended learning en la asignatura “Sistemas Distribuidos” en la Sede de Ushuaia de UNPSJB. Primeras Jornadas de Educación en Informática y TICs en Argentina. [En línea] 2005. [Citado el: 20 de 07 de 2013.] http://cs.uns.edu.ar/jeitics2005/Trabajos/pdf/jeitics20 http://cs.uns.edu.ar/jeitics2005/Trabajos/pdf/jeitics2005-full.pdf. 05-full.pdf. 2. Springer. International Handbook of Virtual Virtual Learning Environments. s.l. : Springer, 2006. 3. Moodle. Moodle. [En línea] 2012. [Citado el: 21 de 0 4 de 2012.] http://moodle.org/. 4. Consortium Claroline. Claroline - Easy & Flexible Learning Solutions. [En línea] 2012. [Citado el: 21 de 04 de 2012.] http://www.claroline.net http://www.claroline.net/. /.
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
The world's largest digital library
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
10. García, Enrique, y otros. Usando Minería de datos para la Continua Mejora de cursos de e-learning. 2006, Escuela Politécnica Superior universidad de Códoba. 11. Brusilovsky, P. Adaptative Educational Systems on the World-Wide-Web: A Review. San Antonio : s.n., 1998. Int. Conf. on Intelligent Tutoring Systems. 12. Weber, Gerhard y Brusilovsky, Peter. ELM-ART: An Adaptative Versatile System for Web-based Instruction. 2001, International Journal of Artificial Intelligence in Education, págs. 3 51-384. 13. De Bra, Paul y Stash, Natalia. AHA! Adaptative Hypermedia for All. 2002, Second International Conference on Adaptative Hypermedia and Adaptative Web-Based Systems, págs. 381-384. 14. De Castro, C., y otros, y otros. Herramienta autor Indesach para la creación de cursos hipermedia adaptativos. 2004, Revista latinoamericana de tecnología educativa. 15. Bigus, Josep P. Data Mining With Neural Networks. s.l. : McGraw-ill, 1996. 16. Davidsson, P. Autonomous Agents and the Concept of Concepts. 1996, Departament of Computer Science, Lund University. perspective. 1996, IEEE. 17. Ming-Syan, Chen, Jiawei, Han y Philip S., Yu. Data Mining: a view from database perspective.
18. Mitra, Sushmita y Acharya, Jersey : John Wiley & Sons, 2003.
Tinku. Data
Mining Multimedia, Soft Computing And Bioinformatics. New
19. Stumme, Gerd, Hotho, Andreas y Berent, Bettina. Usage Mining for and on the Semantic Web. 2002. 20. Bake, 2008.
Ryan S.J.d. International Encyclopedia of Education. Pennsylvania, USA : Carnegie Mellon University,
21. Luotonen, A. The Common Log File Format. [En línea] 1995. http://www.w3.org/pub/WWW. 22. Monsalve P, Julián Alberto. Web Usage Mining, aplicado a servidores web Apache. 2011, Memorias Comtel 2011, ISBN: 978-612-4050-40-4, págs. 33-37. 23. Bartolomé, Antonio. Blended learning. Conceptos básicos. Barcelona : s.n., 2004, Píxel-Bit, págs. 7-20