Presentado por: Pinedo Delgado, Fermín Orlando
¿Qué es RAPIDMINER? RapidMiner (anteriormente, YALE, Yet Another Learning Environment) es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación y en aplicaciones empresariales. La versión inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001 y se distribuye bajo licencia GPL . RapidMiner proporciona más de 500 operadores orientados al análisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, pre -procesamiento de datos y visualización. También permite utilizar los algoritmos incluidos en Weka.
¿Qué es Minería de Datos? Es el descubrimiento de conocimiento en un conjunto de datos enormemente grande. El conocimiento que se obtiene viene dado en forma de características (patrones) que no son triviales, que son previamente desconocidas y que tienen bastante posibilidades de ser útiles Otros nombres que se le dan a minería de datos son: Descubrimiento desconocimiento en bases de datos (KDD), extracción de conocimiento, análisis inteligente de datos. Es el proceso para extraer un modelo de datos, normalmente se utiliza en marketing, detección de fraudes, vigilancia, etc. Ejemplos de aplicación de Data Minig. -Hallar grupos de personas que padecen las mismas enfermedades. -Determinar las características de personas a las que se puede hacer un préstamo. -Determinar si hay mas oportunidades de enfermarse de cáncer cuando se vive cerca de líneas de alta tención.
CARACTERISTICAS DE RAPIDMINER 1) RapidMiner/Yale es un sistema prototipado para descubrimiento del conocimiento DataMining. 2) Es un software de tipo Open –Source con licencia GNU GPL, basado en java. 3) Se presenta bajo tres versiones: 1- Versión Open-Source: permite su libre uso en todas las formas de la licencia GNU GPL. 2- Versión Libre: posee una interfaz grafica mejorada, pero no bajo la licencia GNU GPL. 3- Versión comercial. 4) Posee alrededor de 400 operadores que pueden ser combinados. 5) Usa el lenguaje de scripting XML para describir los operadores y su configuración. 6) La característica mas importante es la capacidad de jerarquizar cadenas de operador y de construir complejos arboles de operadores. 7) RapidMiner fácilmente puede ser invocado desde otra aplicación java. 8) El usuario puede leer la configuración de los procesos desde los archivos XML.
INTERFAZ GRAFICA
PANTALLA DE BIENBENIDA CON POSIBILIDAD DE: -Iniciar un nuevo proceso. -Abrir procesos recientemente usados. -Abrir un nuevo proceso. -Abrir el tutorial en línea. LA PANTALLA DE EDICION CONTIENE: -Barra de menú. -Barra de herramientas. -Lengüeta de árbol de operadores. -Lengüeta de edición (Parámetros, XML, Comentarios y Operadores). -Visor de mensajes.
Crear Operadores: – Usando el icono de nuevo operador: – Usando el botón derecho del Mouse ubicándonos en la lengüeta del Árbol de Operadores sobre cualquier operador que lo permita, elegimos nuevo operador. Reemplazar Operadores: – Usando el botón derecho del Mouse ubicándonos en la lengüeta del Árbol de Operadores sobre cualquier operador que lo permita, elegimos reemplazar operador. Eliminar Operadores: – Usando el icono de remover operador: – Usando el botón derecho del Mouse ubicándonos en la lengüeta del Árbol de Operadores sobre cualquier operador que lo permita, elegimos remover operador. Manejo de parámetros: – A partir de la lengüeta de parámetros y pudiendo acceder a mas si se pasa de modo normal a modo experto con los iconos:
• Validación de la definición de Proceso: – Una vez que se agregaron todos los operadores necesarios para un proceso es posible chequear si estos fueron jerarquizados como corresponde y si tiene sus entradas correctas y sus propiedades seteadas. – Para esto usamos el icono de validación: – Los resultados se observan en el Visor de Mensajes y en caso de error aparece un signo de admiración junto al operador, en la lengüeta del Árbol de operadores, en el que surge el problema . • Ejecución del Proceso: – Una vez validado el proceso, la ejecución consiste en clickear en el icono de ejecución: • Agregados de Puntos de Corte (BreakPoint): – Si nos ubicamos en alguno de los operadores en la lengüeta del Árbol de operadores usando el botón derecho del mouse podemos elegir colocar un BreaKPoint para que cuando la ejecución se inicie podamos frenar la en algún punto y luego reanudarla.
• Evaluación de Resultados: – Cuando la ejecución termino los resultados se observan en pantalla en lo que se denomina Modo de Resultados (Result Mode). – Desde esta pantalla también se puede volver a la pantalla de edición (Edit Mode) con la tecla (la cual sirve para cambiar de modo) o también con el icono: – El modo de Resultados se puede acceder usando el icono: • Manejo de Gráficos para los resultados: – Desde la vista de resultados es posible dependiendo el tipo de resultados que arroja el modelo obtener gráficos de distintas formas.
Ejemplo 1: Árbol de Decisión.
1. En el panel izquierdo seleccionar la pestana “Operators”. Luego seleccionar el operador Repository
Access → Retrieve y arrastrarlo a la zona de trabajo.
2. En la pestana “Parameters” del panel derecho, utilizar el navegador a la derecha del parámetro repository entry para localizar el archivo //Samples/data/Golf.
En el panel izquierdo seleccionar el operador Modeling → Classification and Regression → Tree
Induction → Decision Tree y arrastrarlo a la zona de trabajo.
7
4. Conectar la salida del operador Retrieve a la entrada del operador Decisión Tree, haciendo clic izquierdo
en el conector out (output, salida) del primero y luego otro clic en el conector tra (training set, conjunto de
entrenamiento) del segundo.
5. De la misma forma, conectar la salida mod (model, modelo) del operador Decisión Tree al puerto res de
la zona de trabajo.
6. Presionar el icono “ejecutar” en la barra de iconos de la parte superior del marco. El proceso debería
comenzar y luego de un corto tiempo el visor de mensajes de la parte inferior del marco muestra el mensaje
de que el proceso finalizo correctamente. El marco principal cambia a la vista de "Resultados", que muestra
el árbol de decisión aprendido (una hipótesis que en RapidMiner se denomina Modelo).
7. Volver al modo edición ya sea por medio de la entrada del menú View → Perspectives → Design, el
icono de la barra de iconos, o presionando la tecla de función .
Ejemplo 2. Exportar una base de datos Excel.
Se direcciona a la base de datos donde lo tenemos guardada.
Obtenemos la base de datos de Excel en el Rapidminer