LA
MINERÍA DE DATOS Y LA VALORACIÓN DE LOS HALLAZGOS EN INVESTIGACIÓN EDUCATIVA
Susana Gómez Olivares
Doctora en Educación mención Andragogía
sugo2001@gmail.com
Tipo de producción: Investigación en desarrollo
La minería de datos, también llamada
Descubrimiento de Conocimiento en Bases de datos (KDD), es el campo encargado de
descubrir información novedosa y potencialmente útil a partir de grandes
cantidades de datos. Inicialmente, se ha aplicado en un gran número de campos,
incluyendo el área administrativa, gerencial, e-commerce y de seguridad de las
naciones; no obstante, en épocas más recientes el interés en el uso de minería
de datos para investigación científica en el área educativa ha crecido.
La denominada minería de datos educativa o
Minería de datos para la Educación (EDM) se define como el área de la investigación
científica centrada en el desarrollo de métodos para hacer descubrimientos
dentro de los tipos particulares de datos que provienen de entornos educativos,
y el uso de esos métodos para comprender mejor los procesos de aprendizaje, maximizar
el aprendizaje de los estudiantes y realizar los ajustes que se requieran
provenientes de estos hallazgos.
Los métodos tradicionales de valoración de
los procesos de aprendizaje nos remiten a las asistencias, registros de
actividades realizadas y evaluaciones puntuales. Los métodos de minería de
datos educativos se centran en la explotación de forma explícita de los múltiples
niveles de jerarquía significativa encontrada en los datos educativos.
Por ejemplo, en la minería de datos se
puede ver sobre quien atiende, no atiende, qué hacen los estudiantes en su
tiempo libre, cuando no están en los espacios académicos, cómo los estudiantes
optan por usar software educativo, cuántas veces ingresan a la plataforma de
aprendizaje, las pulsaciones de teclas, nivel de respuesta, nivel de sesión, a
nivel estudiantil, a nivel de aula y a nivel académico. Las cuestiones de
tiempo, secuencia, y el contexto también juegan un papel importante en el
estudio de los datos educativos a la hora de “contabilizar” el aprendizaje de
los estudiantes.
La Minería de datos para la Educación se
ha convertido en un área de investigación independiente en los últimos años, y
consiste es descubrir información que por sí sola no se ve, información no
trivial, desconocida y potencialmente útil para la construcción de
conocimiento.
La Minería de datos para la Educación
ofrece varias ventajas, desde el punto de vista del profesor-investigador, en
particular, pues permite acceso a los datos de por ejemplo un entorno virtual
de aprendizaje (Moodle) o de los repositorios institucionales. Esto es
ecológicamente válido (por cuanto se trata de datos sobre el desempeño y el
aprendizaje de los estudiantes genuinos, en auténticos escenarios educativos,
que participan en las tareas de aprendizaje auténticas), y con los que es cada
vez más fácil de acceder rápidamente y comenzar la investigación.
En este tipo de análisis, se puede
cuantificar y cualificar la efectividad del proceso de aprendizaje, organizar y
adaptar los contenidos de una asignatura, mejorar o corregir la estructura de
un programa, definir qué actividades o estrategias didácticas utilizar de
acuerdo al perfil del grupo, clasificar a los estudiantes en base a sus
características para tutorías, investigaciones asesorías, desarrollar
herramientas para extraer conocimiento de procesos educacionales que puedan ser
aplicados en estudios de replicación en otros escenarios similares, entre
otras.
Existen muchos tipos de datos al decir de
Barnes (2005), tanto en el sistema tradicional cara a cara, como en los
sistemas educativos de modalidades semipresenciales o sistemas a distancia
basados en web, también en sistemas online tales como repositorios, wikis,
weblogs, escenarios ubicuos o tridimensionales para el aprendizaje, entre otros
sistemas que generan datos de diversa índole que permiten el estudio de los
fenómenos que configuran el sistema educativo para comprenderlos o resolver
problemas puntuales.
Podemos minar diferentes bases de datos que contienen data relacional,
transaccional, secuencial, textual, multimedia y/o datos web en general. Los
datos relacionales, por ejemplo Moodle que usa este tipo de datos, ofrecen una
colección de tablas con diferentes atributos con descripción puntual de los
usuarios de los foros, chats, etc.
Los datos transaccionales, nos permiten
ver el comportamiento de los usuarios y su información, los informes récords y
registro de calificaciones. Los datos secuenciales o temporales, tienen que ver
con los tiempos del registro, ejemplo las veces que el estudiante visita el
escenario de aprendizaje, la cantidad de tiempo que permanece allí, la duración
y fechas de su participación. Los datos textuales, son colecciones de
reportajes, artículos, documentos, papers, libros, mensajes de correo
electrónico, que se relaciona a los aportes que hacen o escriben los
estudiantes, incluyen los registros en el foro y chats; los datos multimedia,
base de datos que almacenan data como audio, imágenes, video, sonido y texto; y
los datos web en general que ofrecen análisis a los contenidos, estructura y
utilización de las páginas web en general que describen la organización,
disposición y selección del material y el uso de patrones de navegación de los
estudiantes o usuarios sujetos de estudio.
Este tipo de base de datos otorga equilibrio
de viabilidad con validez ecológica a los procesos investigativos para la
construcción del conocimiento que es a menudo un desafío difícil para los
investigadores de otros paradigmas de investigación educativa. Por el
contrario, los investigadores que utilizan datos de este tipo pueden prescindir
de pasos que consumen tiempo tradicionalmente como el reclutamiento de sujetos,
la programación de los estudios, y la entrada de datos (ya que los datos ya
están en línea).
Mientras que el uso de los datos recogidos
anteriormente tiene el potencial de limitar el análisis a las cuestiones que
afectan a los tipos de datos recogidos, en la práctica los datos de los
repositorios o investigación previa ha sido de gran utilidad para el análisis
de cuestiones de investigación mucho más allá del ámbito de lo que los datos
fueron pensados originalmente para estudiar, especialmente teniendo en cuenta
la llegada de los modelos que se pueden inferir atributos de los estudiantes
(como el comportamiento estratégico y la motivación) con el tipo de datos de
estos repositorios.
Las técnicas para procesar estos datos en
la construcción de conocimiento científico en EDM ameritan un proceso previo
donde el investigador debe cerciorarse de la calidad del origen de la data
debido a la gran cantidad de esta proveniente de diferentes fuentes de
información que pueden tener data incompleta o pérdida. Ejemplo estudiantes que
no completaron una tarea o actividad. El preprocesamiento se convierte así en
el primer paso del procesamiento de información en la minería de datos y
equivale a un alto porcentaje del paso de construcción de saberes.
Entre las técnicas básicas en el preproceso según Baker (2008) están la
recogida de datos, la integración de los mismos (si provienen de diferentes
fuentes), la reducción de la data (si hay datos erróneos, excedentes o perdidos),
la identificación de la sesión del usuario (sólo si se dispone de esta
información), la selección de atributos, filtraje y transformación de datos. No
todas estas técnicas hay que aplicarlas siempre, eso depende de los datos que
se estén contemplando para el estudio.
La técnica de recogida de datos consiste
en ubicar todos los datos importantes para nuestro estudio, problema o
fenómeno. Algunos términos relacionados con la recogida y almacenamiento de
datos para el data mining son el warehousing, data smart y los repositorios.
Los sistemas académicos suelen recoger datos de varias fuentes, como datos de
perfil, de asistencia y participación a clases, de elearning o interacción con
los recursos web, y otros como comportamiento en niveles académicos anteriores
o cultura en las redes sociales. La tarea primordial es integrarlos en un todo
coherente.
Si los datos provienen de muchas fuentes,
se debe utilizar la técnica de integración de datos que consiste en un proceso
relacional donde se codifica y categoriza la información en matrices o filtros
epistemológicos para generar una sola base de datos; si la data es muy grande
se organiza y almacena en un cubo de información o cubo OLAP (online analytical
processing) con múltiples dimensiones de atributos relativas a las variables o
cualquier otra datawarehouse específicamente estructurados para la consulta y
análisis de datos y herramientas para extraerlos, transformarlos y cargarlos.
Otra manera sencilla de integrarlos es a través de un fichero sumario que recoge
un resumen de toda la información de los estudiantes y las variables que
configuran la data.
La limpieza de datos consiste en detectar
las inexactitudes en los datos tales como data perdida, incompleta, ruidosa o
inconsistente. Como por ejemplo cuando no existen valores para una variable o
casos que podrían estar relacionados con el mal ingreso de la data en el
sistema de base de datos.
La tarea de selección o reducción de
atributos, características o variables consiste en seleccionar u conjunto
relevante de los mismos entre todos los disponibles descartando los
irrelevantes, los redundantes y los correlados tales como passwords, números
telefónicos, dirección de habitación y correos electrónicos.
Luego la técnica del filtraje de datos o
selección de instancias consiste en seleccionar un conjunto representativo de
los datos para convertir una enorme dataset en una más manejable. En educación la codificación y la
categorización son muy utilizadas pues permiten ver los subconjuntos de datos
referentes a una tarea, actividad o evento. Otro tipo de filtrado es utilizar
diferentes niveles de granularidad o registro de eventos de bajo nivel, tales como cuántas
veces el estudiante ingresa al sistema web, cuántas veces teclea, abre sesión, responde,
participa, entre otras generando niveles o grados de información relacionadas
al fenómeno de participación o utilización del entorno web.
Por último, la transformación de datos,
donde se generan nuevos atributos a partir de los ya existentes mediante
técnicas de normalización para transformar los valores de los atributos que
están en escalas de rangos diferentes y hacerlos iguales; o la discretización que consiste en
etiquetar o pasar números a códigos comprensibles e interpretables y derivación
o categorización de atributos creando un nuevo atributo a partir de la
agrupación de varios ya existentes.
Terminado el preprocesamiento de la data,
se lleva a un formato o herramienta que permita generar el proceso de
datamining, puede ser formato .txt, xml, xlxs,
entre otros para proceder a la visualización, interpretación y
evaluación de estas grandes cantidades de información.
El enfoque principal dentro de la amplia
variedad de métodos actuales populares en la minería de datos educativos se divide
según Cen (2006) en las siguientes categorías generales que muestran las
diferentes tareas y aplicaciones de las mismas:
-
La predicción (early prediction de rendimiento, resultados, calificaciones), la
agrupación (clasificación y clustering, para agrupar de manera relacional no
jerárquica a grupos de estudiantes, fomentar aprendizaje colaborativo, adaptar
contenidos a grupos y crear grupos de aprendizaje).
-
La minería de relación (análisis de redes sociales, social network analytcs que
estudia las relaciones entre individuos más allá de los atributos individuales).
-
El descubrimiento con modelos o patrones de secuencias (que detecta
comportamientos no deseados, inusuales o problemáticos, tales como baja
motivación, abusos, engaños, fracaso académico y sirve para el modelado de los
estudiantes y sus competencias).
-
Y la destilación de los datos para el juicio humano (que permiten contrastar
las conclusiones alcanzadas de la información útil generada de todo el proceso).
El objetivo de todos ellos es recalcar
información útil y dar apoyo a la toma de decisiones generando un análisis de
las actividades de los estudiantes y administradores de cursos para obtener una
visión del proceso de aprendizaje que sirva de feedback y feedforward para
monitorear, valorar y optimizar los procesos educativos.
Cada vez más, la existencia de datos de
miles de escenarios académicos y sus actores que tienen experiencias de
aprendizaje muy similares pero en contextos muy diferentes, permite el
levantamiento de información en la construcción de conocimiento de maneras que
nunca antes fueron posible, para estudiar la influencia de los factores
contextuales en el aprendizaje, en los facilitadores y en los aprendices;
interpretarlos, deconstruirlos y así coadyuvar a la construcción de nuevos
saberes a partir de grandes porciones de información en función de las mejoras
de los procesos educativos.
REFERENCIAS
BIBLIOGRÁFICAS
BAKER, R. y DE
CARVALHO, A. (2008). Labeling Student Behavior Faster and More Precisely with
Text Replays. I Conferencia Internacional en Minería de Datos en Educación.
U.S.A.
BARNES, T. et
al. (2005). Experimental Analysis of the Q-Matrix Method in Knowledge
Discovery. Notas de la Conferencia en Ciencias de la Computación 3488: Bases de
los Sistemas Inteligentes. U.S.A.
CEN, H. et al.
(2006). Learning Factors Analysis - A General Method for Cognitive Model
Evaluation and Improvement. VIII Conferencia Internacional en Sistemas
Inteligentes de Tutorías. U.S.A.
https://lnkd.in/eA5FeSZ
https://lnkd.in/eA5FeSZ
No hay comentarios:
Publicar un comentario