domingo, 10 de noviembre de 2019

LA MINERÍA DE DATOS EN EDUCACIÓN



LA MINERÍA DE DATOS Y LA VALORACIÓN DE LOS HALLAZGOS EN INVESTIGACIÓN EDUCATIVA

Susana Gómez Olivares
Doctora en Educación mención Andragogía
sugo2001@gmail.com
Tipo de producción: Investigación en desarrollo

     La minería de datos, también llamada Descubrimiento de Conocimiento en Bases de datos (KDD), es el campo encargado de descubrir información novedosa y potencialmente útil a partir de grandes cantidades de datos. Inicialmente, se ha aplicado en un gran número de campos, incluyendo el área administrativa, gerencial, e-commerce y de seguridad de las naciones; no obstante, en épocas más recientes el interés en el uso de minería de datos para investigación científica en el área educativa ha crecido.

     La denominada minería de datos educativa o Minería de datos para la Educación (EDM) se define como el área de la investigación científica centrada en el desarrollo de métodos para hacer descubrimientos dentro de los tipos particulares de datos que provienen de entornos educativos, y el uso de esos métodos para comprender mejor los procesos de aprendizaje, maximizar el aprendizaje de los estudiantes y realizar los ajustes que se requieran provenientes de estos hallazgos.

     Los métodos tradicionales de valoración de los procesos de aprendizaje nos remiten a las asistencias, registros de actividades realizadas y evaluaciones puntuales. Los métodos de minería de datos educativos se centran en la explotación de forma explícita de los múltiples niveles de jerarquía significativa encontrada en los datos educativos.      
    
     Por ejemplo, en la minería de datos se puede ver sobre quien atiende, no atiende, qué hacen los estudiantes en su tiempo libre, cuando no están en los espacios académicos, cómo los estudiantes optan por usar software educativo, cuántas veces ingresan a la plataforma de aprendizaje, las pulsaciones de teclas, nivel de respuesta, nivel de sesión, a nivel estudiantil, a nivel de aula y a nivel académico. Las cuestiones de tiempo, secuencia, y el contexto también juegan un papel importante en el estudio de los datos educativos a la hora de “contabilizar” el aprendizaje de los estudiantes.
    
     La Minería de datos para la Educación se ha convertido en un área de investigación independiente en los últimos años, y consiste es descubrir información que por sí sola no se ve, información no trivial, desconocida y potencialmente útil para la construcción de conocimiento.

     La Minería de datos para la Educación ofrece varias ventajas, desde el punto de vista del profesor-investigador, en particular, pues permite acceso a los datos de por ejemplo un entorno virtual de aprendizaje (Moodle) o de los repositorios institucionales. Esto es ecológicamente válido (por cuanto se trata de datos sobre el desempeño y el aprendizaje de los estudiantes genuinos, en auténticos escenarios educativos, que participan en las tareas de aprendizaje auténticas), y con los que es cada vez más fácil de acceder rápidamente y comenzar la investigación.

     En este tipo de análisis, se puede cuantificar y cualificar la efectividad del proceso de aprendizaje, organizar y adaptar los contenidos de una asignatura, mejorar o corregir la estructura de un programa, definir qué actividades o estrategias didácticas utilizar de acuerdo al perfil del grupo, clasificar a los estudiantes en base a sus características para tutorías, investigaciones asesorías, desarrollar herramientas para extraer conocimiento de procesos educacionales que puedan ser aplicados en estudios de replicación en otros escenarios similares, entre otras.

      Existen muchos tipos de datos al decir de Barnes (2005), tanto en el sistema tradicional cara a cara, como en los sistemas educativos de modalidades semipresenciales o sistemas a distancia basados en web, también en sistemas online tales como repositorios, wikis, weblogs, escenarios ubicuos o tridimensionales para el aprendizaje, entre otros sistemas que generan datos de diversa índole que permiten el estudio de los fenómenos que configuran el sistema educativo para comprenderlos o resolver problemas puntuales.

     Podemos minar diferentes bases de  datos que contienen data relacional, transaccional, secuencial, textual, multimedia y/o datos web en general. Los datos relacionales, por ejemplo Moodle que usa este tipo de datos, ofrecen una colección de tablas con diferentes atributos con descripción puntual de los usuarios de los foros, chats, etc.
     Los datos transaccionales, nos permiten ver el comportamiento de los usuarios y su información, los informes récords y registro de calificaciones. Los datos secuenciales o temporales, tienen que ver con los tiempos del registro, ejemplo las veces que el estudiante visita el escenario de aprendizaje, la cantidad de tiempo que permanece allí, la duración y fechas de su participación. Los datos textuales, son colecciones de reportajes, artículos, documentos, papers, libros, mensajes de correo electrónico, que se relaciona a los aportes que hacen o escriben los estudiantes, incluyen los registros en el foro y chats; los datos multimedia, base de datos que almacenan data como audio, imágenes, video, sonido y texto; y los datos web en general que ofrecen análisis a los contenidos, estructura y utilización de las páginas web en general que describen la organización, disposición y selección del material y el uso de patrones de navegación de los estudiantes o usuarios sujetos de estudio.

     Este tipo de base de datos otorga equilibrio de viabilidad con validez ecológica a los procesos investigativos para la construcción del conocimiento que es a menudo un desafío difícil para los investigadores de otros paradigmas de investigación educativa. Por el contrario, los investigadores que utilizan datos de este tipo pueden prescindir de pasos que consumen tiempo tradicionalmente como el reclutamiento de sujetos, la programación de los estudios, y la entrada de datos (ya que los datos ya están en línea).   

     Mientras que el uso de los datos recogidos anteriormente tiene el potencial de limitar el análisis a las cuestiones que afectan a los tipos de datos recogidos, en la práctica los datos de los repositorios o investigación previa ha sido de gran utilidad para el análisis de cuestiones de investigación mucho más allá del ámbito de lo que los datos fueron pensados ​​originalmente para estudiar, especialmente teniendo en cuenta la llegada de los modelos que se pueden inferir atributos de los estudiantes (como el comportamiento estratégico y la motivación) con el tipo de datos de estos repositorios.

     Las técnicas para procesar estos datos en la construcción de conocimiento científico en EDM ameritan un proceso previo donde el investigador debe cerciorarse de la calidad del origen de la data debido a la gran cantidad de esta proveniente de diferentes fuentes de información que pueden tener data incompleta o pérdida. Ejemplo estudiantes que no completaron una tarea o actividad. El preprocesamiento se convierte así en el primer paso del procesamiento de información en la minería de datos y equivale a un alto porcentaje del paso de construcción de saberes.

     Entre las técnicas básicas  en el preproceso según Baker (2008) están la recogida de datos, la integración de los mismos (si provienen de diferentes fuentes), la reducción de la data (si hay datos erróneos, excedentes o perdidos), la identificación de la sesión del usuario (sólo si se dispone de esta información), la selección de atributos, filtraje y transformación de datos. No todas estas técnicas hay que aplicarlas siempre, eso depende de los datos que se estén contemplando para el estudio.

     La técnica de recogida de datos consiste en ubicar todos los datos importantes para nuestro estudio, problema o fenómeno. Algunos términos relacionados con la recogida y almacenamiento de datos para el data mining son el warehousing, data smart y los repositorios. Los sistemas académicos suelen recoger datos de varias fuentes, como datos de perfil, de asistencia y participación a clases, de elearning o interacción con los recursos web, y otros como comportamiento en niveles académicos anteriores o cultura en las redes sociales. La tarea primordial es integrarlos en un todo coherente.

     Si los datos provienen de muchas fuentes, se debe utilizar la técnica de integración de datos que consiste en un proceso relacional donde se codifica y categoriza la información en matrices o filtros epistemológicos para generar una sola base de datos; si la data es muy grande se organiza y almacena en un cubo de información o cubo OLAP (online analytical processing) con múltiples dimensiones de atributos relativas a las variables o cualquier otra datawarehouse específicamente estructurados para la consulta y análisis de datos y herramientas para extraerlos, transformarlos y cargarlos. Otra manera sencilla de integrarlos es a través de un fichero sumario que recoge un resumen de toda la información de los estudiantes y las variables que configuran la data.

      La limpieza de datos consiste en detectar las inexactitudes en los datos tales como data perdida, incompleta, ruidosa o inconsistente. Como por ejemplo cuando no existen valores para una variable o casos que podrían estar relacionados con el mal ingreso de la data en el sistema de base de datos.

     La tarea de selección o reducción de atributos, características o variables consiste en seleccionar u conjunto relevante de los mismos entre todos los disponibles descartando los irrelevantes, los redundantes y los correlados tales como passwords, números telefónicos, dirección de habitación y correos electrónicos.

     Luego la técnica del filtraje de datos o selección de instancias consiste en seleccionar un conjunto representativo de los datos para convertir una enorme dataset en una más  manejable. En educación la codificación y la categorización son muy utilizadas pues permiten ver los subconjuntos de datos referentes a una tarea, actividad o evento. Otro tipo de filtrado es utilizar diferentes niveles de granularidad o registro de  eventos de bajo nivel, tales como cuántas veces el estudiante ingresa al sistema web, cuántas veces teclea, abre sesión, responde, participa, entre otras generando niveles o grados de información relacionadas al fenómeno de participación o utilización del entorno web.

     Por último, la transformación de datos, donde se generan nuevos atributos a partir de los ya existentes mediante técnicas de normalización para transformar los valores de los atributos que están en escalas de rangos diferentes y hacerlos  iguales; o la discretización que consiste en etiquetar o pasar números a códigos comprensibles e interpretables y derivación o categorización de atributos creando un nuevo atributo a partir de la agrupación de varios ya existentes.

     Terminado el preprocesamiento de la data, se lleva a un formato o herramienta que permita generar el proceso de datamining, puede ser formato .txt, xml, xlxs,  entre otros para proceder a la visualización, interpretación y evaluación de estas grandes cantidades de información.     

     El enfoque principal dentro de la amplia variedad de métodos actuales populares en la minería de datos educativos se divide según Cen (2006) en las siguientes categorías generales que muestran las diferentes tareas y aplicaciones de las mismas:

- La predicción (early prediction de rendimiento, resultados, calificaciones), la agrupación (clasificación y clustering, para agrupar de manera relacional no jerárquica a grupos de estudiantes, fomentar aprendizaje colaborativo, adaptar contenidos a grupos y crear grupos de aprendizaje).
- La minería de relación (análisis de redes sociales, social network analytcs que estudia las relaciones entre individuos más allá de los atributos individuales).
- El descubrimiento con modelos o patrones de secuencias (que detecta comportamientos no deseados, inusuales o problemáticos, tales como baja motivación, abusos, engaños, fracaso académico y sirve para el modelado de los estudiantes y sus competencias).
- Y la destilación de los datos para el juicio humano (que permiten contrastar las conclusiones alcanzadas de la información útil generada de todo el proceso).

     El objetivo de todos ellos es recalcar información útil y dar apoyo a la toma de decisiones generando un análisis de las actividades de los estudiantes y administradores de cursos para obtener una visión del proceso de aprendizaje que sirva de feedback y feedforward para monitorear, valorar y optimizar los procesos educativos.

     Cada vez más, la existencia de datos de miles de escenarios académicos y sus actores que tienen experiencias de aprendizaje muy similares pero en contextos muy diferentes, permite el levantamiento de información en la construcción de conocimiento de maneras que nunca antes fueron posible, para estudiar la influencia de los factores contextuales en el aprendizaje, en los facilitadores y en los aprendices; interpretarlos, deconstruirlos y así coadyuvar a la construcción de nuevos saberes a partir de grandes porciones de información en función de las mejoras de los procesos educativos.

REFERENCIAS BIBLIOGRÁFICAS


BAKER, R. y DE CARVALHO, A. (2008). Labeling Student Behavior Faster and More Precisely with Text Replays. I Conferencia Internacional en Minería de Datos en Educación. U.S.A. 

BARNES, T. et al. (2005). Experimental Analysis of the Q-Matrix Method in Knowledge Discovery. Notas de la Conferencia en Ciencias de la Computación 3488: Bases de los Sistemas Inteligentes.  U.S.A.

CEN, H. et al. (2006). Learning Factors Analysis - A General Method for Cognitive Model Evaluation and Improvement. VIII Conferencia Internacional en Sistemas Inteligentes de Tutorías. U.S.A.

https://lnkd.in/eA5FeSZ

No hay comentarios:

POST DESTACADO

Feliz Nochebuena ♡♡❤️♡♡ Feliz Navidad

 

POSTS POPULARES