Minería de datos a través de ejemplos
María Pérez Marqués
z& Alfaomega
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
María Pérez Marqués
A Alfaomega
DineAti üe colección, cubierta y pre-impreniófi:
Datos catalográíicos
Grupo RC
Pérez. María Minería de datos a través de ejemplos Primera Edición Alfaomega Grupo Editor, S.A. de C.V., México ISBN: 978-607-622-174-7 Formato: 17 x 23 cm
Páginas: 476
Minería de datos a través de ejemplos
María Pérez Marqués ISBN: 978-84-941801-4-9 edición original publicada por RC Libras, Madrid, España Derechos reservados © 2014 RC Libros Primera edición: Alfaomega Grupo Editor, México, diciembre 2015 © 2015 Alfaomega Grupo Editor. S.A. de C.V.
Pitágoras 1139, Col. Del Valle, 03100, México D.F. Miembro de la Cámara Nacional de la Industria Editorial Mexicana Registro No. 2317 Pág. Web: http://www.alfaoniega.coni.mx E-mail: atencionaklíente^alfaomegaxom.mx ISBN: 978-607-622-174-7 Derechos reservados:
Esta obra es propiedad intelectual de su autor y los derechos de publicación en lengua española han sido legalmente transferidos al editor. Prohibida su reproducción parcial o total por cualquier medio sin permiso por escrito del propietario de los derechos del copyright. Nota importante:
La información contenida en esta obra tiene un fin exclusivamente didáctico y, por lo tanto, no está previsto su aprovechamiento a nivel profesional o industrial. Las indicaciones técnicas y programas incluidos, han sido elaborados con gran cuidado por el autor y reproducidos bajo estrictas normas de control. ALFAOMEGA GRUPO EDITOR, SA. de C.V. no será jurídicamente responsable por: errores u omisiones: daños y perjuicios que se pudieran atribuir al uso de la información comprendida en este libro, ni por la utilización indebida que pudiera dársele. Edición autorizada para venta en México y todo el continente americano. Impreso en México. Printed in Mexico. Empresas del grupo: Vienen: Alfaomega Grupo Editor. SA. de C.V. - Pitágoras 1139. Col. Del Valle. México. DE-CP. 03100. Tcl.: (52-55) 5575-5022 - Fax: (52-55) 5575-2420 / 2490. Sin costo: 01-800-020-4396 E-mail: atcncionalclicntc Gi 1 alfaomega.com .mx
Colombia: Alfaomega Colombiana S A. — Calle 62 No. 20-46. Barrio San Luis. Bogotá. Colombia. Tela.: (57-1) 746 0102 / 210 0415 — E-mail: cliente^alfanmcga.com.co Chile: Alfaomega Grupo Editor. S A. — Av. Providencia 1443. Oficina 24. Santiago, Chile Tcl.: (56-2) 2235-4248 - Fax: (56-2) 2235-5786 - E-mail: agcchi le (sí al faomcga xl .Argentina: Alfanmcga Grupo Editor Argentino. S A.- Paraguay 1307 PE. Of. 11,CP. 1057. Buenos Aires, Argentina. - Tcl /Fax: (54-11) 4811 -0887 y 4811 7183 — E-mail: ventas
INDICE Introducción............................................................................................................... XIII
Capítulo 1. Técnicas de minería de datos y herramientas......................................... 1 Clasificación de las técnicas de minería de datos y herramientas más comunes.............................................................................................................................. 1 Modelado originado por la teoría (técnicas explicativas o de la dependencia) .........
3
Modelado originado por los datos (técnicas descriptivas o de la interdependencia)............................................................................................................... 4 El entorno de trabajo de IBM SPSS........................................................................... 5 Entorno de trabajo de IBM SPSS Modeler................................................................. 10 Entorno de trabajo de SAS Enterprise Miner............................................................. 12 Los entornos de trabajo de SAS y SAS Enterprise Guide ......................................... 16 Capítulo 2. Fase de selección en minería de datos. Herramientas ............................ 23 La fase inicial en minería de datos: selección de la información............................... 23 Selección mediante muestreo estadístico............................................................................ 25 Muestreo aleatorio simple con IBM SPSS ........................................................................... 29 Muestreo estratificado con IBM SPSS ................................................................................. 30 Estimaciones y cálculo de errores en el muestreo estratificado................................ 40 Muestreo de conglomerados monoetápico y polietápico con IBM SPSS..................
42
Estimaciones y cálculo de errores en el muestreo de conglomerados......................
48
La fase de selección en IBM SPSS Modeler.............................................................. 49 Selección de datos con IBM SPSS Modeler .............................................................. 50 Muestreo con IBM SPSS Modeler........................................................................................ 53 La fase de selección en SAS Enterprise Miner.................................................................... 54 Pestaña Data.................................................................................................................... 56 Pestaña Variables............................................................................................................. 57 El perfil del objetivo (Target Profile).................................................................................. 58 Especificar probabilidades a priori.................................................................................... 59 Pestaña Interval Variables .... ............................................................................................
60
Pestaña Class Variables................................................................................................... 60 Pestaña Notes.................................................................................................................. 61
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
Muestreo en SAS Enterprise Miner............................................................................ 61 Partición de datos en SAS Enterprise Miner.............................................................. 65 El nodo de selección de variables........................................................................................ 68 Muestreo a través de SAS.................................................................................................... 71 Muestreo aleatorio simple................................................................................................. 73 Muestreo aleatorio estratificado........................................................................................ 75 Capítulo 3. Fases de exploración y limpieza en minería de datos. Herramientas ....................................................................................................................... 77 Análisis exploratorio de datos............................................................................................... 77 Limpieza de datos................................................................................................................. 79 Valores atípicos................................................................................................................. 79 Datos desaparecidos. Imputación.................................................................................... 81 Análisis exploratorio gráfico y formal con IBM SPSS................................................. 85 Procedimiento Explorar.................................................................................................... 85 Contraste de aleatoriedad. Procedimiento Prueba de rachas.......................................... 90 Normalidad. Test de ajuste a una distribución de frecuencias. Procedimiento prueba de Kolmogorov-Smirnov........................................................... 93 Tratamiento de los datos ausentes con IBM SPSS. Imputación ............................ 94 Detección de datos atípicos con IBM SPSS ...................................................................... 101 Detección de valores atipicos en IBM SPSS mediante gráficos de control... 102 Detección de casos atípicos en IBM SPSS mediante gráficos de caja y bigotes.. 104 Análisis exploratorio gráfico y formal con IBM SPSS Modeler................................... 105 El nodo Gráfico............................................................................................................... 106 El nodo Distribución........................................................................................................ 108 El nodo Histograma........................................................................................................ 110 La fase de limpieza en IBM SPSS Modeler........................................................................... Ill El nodo Rellenar para imputación de datos missing ...................................................... 112 La fase de Exploración en Enterprise Miner ...................................................................... 112 El nodo Explorador de distribuciones............................................................................. 113 El nodo de Exploración de Patrones.................................................................................. 114 Tratamiento de datos atípicos con el nodo Filtro de Outliers de SAS Enterprise Miner..................................................................................................... 122 Opciones de filtrado automático..................................................................................... 122 Observación y ajuste de los resultados del filtrado ................................................ 123 El nodo Imputación de datos missing............................................................................. 125 La fase de Exploración en SAS.......................................................................................... 132
VIII
© Alfaomega - RC Libros
ÍNDICE
Capítulo 4. Fase de transformación en minería de datos. Herramientas ...................
135
Transformación de datos.................................................................................................... 135 Transponer, fusionar, agregar, segmentar y ordenar archivos.............................. 136 Ponderar casos y categorizar y numerizar variables ............................................. 137 Pareamiento o matching ................................................................................................. 137 Transformación de datos mediante técnicas de reducción de la dimensión... 139 Análisis factorial y componentes principales...................................................................... 139 Contrastes en el modelo factorial................................................................................... 141 Rotación de los factores................................................................................................. 143 Interpretación gráfica de los factores y puntuaciones factoriales .......................... 144 Técnicas de reducción de la dimensión en IBM SPSS .............................................. 146 Análisis factorial y componentes principales en IBM SPSS....................................... 147 Transformación de datos en IBM SPSS..................................................................... 153 Transponer, fusionar, agregar y segmentar archivos. Matching ............................ 153 Ponderar casos............................................................................................................... 160 Transformación de datos y técnicas de reducción de la dimensión en IBM SPSS Modeler......................................................................................................... 161 Matching mediante el nodo Combinar............................................................................ 161 Ajuste de registros con el nodo Equilibrar .............................................................. 163 Estadísticos por subgrupos con el nodo Agregar................................................... 164 Remover duplicados con el nodo Distinguir ........................................................... 165 Concatenación de archivos con el nodo Añadir ..................................................... 166 Transformación de variables con el nodo Derivar .................................................. 167 Análisis factorial y componentes principales con el nodo Factor/PCA................... 169 Transformación de datos y reducción de la dimensión en SAS Enterprise Miner. 177 El nodo Transformación de variables............................................................................. 177 Componentes principales con el nodo Exploración de patrones ........................... 181 Componentes principales y análisis factorial en SAS y SAS Enterprise Guide .. 188 Capítulo 5. Fase de análisis en minería de datos. Técnicas predictivas. Herramientas ..................................................................................................................... 197 Fase de análisis en minería de datos......................................................................... 197 Modelos de regresión múltiple y de elección discreta. Modelos Logit y Probit. Segmentación................................................................................................... 199 Modelos de elección discreta binaria: modelo lineal de probabilidad y regresión logística binaria........................................................................................ 200 Modelos de elección múltiple: modelo Logit Multinomial ................................................... 202 O Alfaomega-RCLibros
IX
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
IBM SPSS y los modelos de variable dependiente limitada. Aplicaciones a la segmentación................................................................................................... 202 IBM SPSS y la regresión logística binaria.............................................................. 203 IBM SPSS y el modelo Probit................................................................................. 210 IBM SPSS y el modelo Logit Multinomial ............................................................... 214 SAS y los modelos de elección discreta..................................................................... 220 SAS y la regresión logística. PROC LOGISTIC...................................................... 220 SAS y el modelo Probit: procedimiento Probit........................................................ 227 El modelo de análisis discriminante como técnica de clasificación y segmentación............................................................................................................... 230 IBM SPSS y el análisis discriminante......................................................................... 236 SAS y el análisis discriminante: PROC DISCRIM...................................................... 244 Ejemplo de análisis discriminante con SAS ........................................................... 245 SAS y el análisis discriminante paso a paso: PROC STEPDISC y ejemplo práctico....................................................................................................... 248 Técnicas predictivas con SAS Enterprise Miner......................................................... 253 Modelo de regresión múltiple con el nodo Regression .............................................. 253 El nodo Regression: modelo lineal general GLM....................................................... 260 Modelos de elección discreta Logit y Probit con el nodo Regression ........................ 271 Modelos predictivos con IBM SPSS Modeler..................................................................... 273 Modelo de regresión múltiple con el nodo Regresión Lineal.................................. 274 Modelos de elección discreta con el nodo Regresión Logística............................. 281 Capítulo 6. Modelos predictivos con árboles de decisión. Herramientas...................
285
Introducción a los árboles de decisión....................................................................... 285 Características de los árboles de decisión................................................................. 287 Tipos de árboles de decisión.............................................................................................. 289 Árboles CHAID................................................................................................................ 289 Árboles CART................................................................................................................. 290 Árboles QUEST.............................................................................................................. 291 IBM SPSS y los árboles de decisión.......................................................................... 292 Creación de un árbol de decisión: método CHAID..................................................... 294 Métodos CRT y QUEST. Poda de árboles................................................................. 300 Árboles de decisión y análisis de riesgos................................................................... 304 El proceso de creación de árboles de decisión con IBM SPSS Modeler ................... 307 Situar los datos en el área de trabajo con un nodo de origen de datos ................. 308 Enlace del origen de datos con la fuente de datos................................................. 309 Visualización de los datos con el nodo Tabla................................................................. 310 X
O Alfaomega - RC Libros
ÍNDICE
El nodo Tipo y las variables de predicción ............................................................. 311 Nodo de modelado para crear el árbol................................................................... 313 Trabajar con árboles....................................................................................................... 313 Interpretación del árbol................................................................................................... 316 Predicción con un modelo de árbol................................................................................ 317 Guardar un modelo......................................................................................................... 317 Nodos para árboles de decisión con IBM SPSS Modeler.......................................... 317 El nodo Crear C5.0......................................................................................................... 318 El nodo Árbol C&R.......................................................................................................... 319 El proceso de creación de árboles de decisión con SAS Enterprise Miner ............... 320 Nodo Input Data Source para leer ficheros de datos y enlazarlos con SAS Enterprise Miner.......................................................................................... 320 Nodo Input Data Source y los tipos de variables................................................... 324 Enlace de nodos de un diagrama. El nodo Data Partition...................................... 325 Nodo de modelado para crear el árbol................................................................... 328 Profundizando en el nodo Tree.................................................................................. 332 Capítulo 7. Técnicas descriptivas de minería de datos. Análisis cluster y segmentación. Herramientas........................................................................................... 343 El análisis cluster como técnica de clasificación y segmentación ............................. 343 Clústers jerárquicos, secuenciales, aglomerativos y exclusivos (S.A.H.N.)... 345 El dendograma en el análisis clúster jerárquico............................................................. 346 Análisis clúster no jerárquico.......................................................................................... 346 IBM SPSS y el análisis clúster jerárquico.................................................................. 349 IBM SPSS y el análisis clúster no jerárquico............................................................. 355 SAS y el análisis clúster jerárquico ............................................................................ 360 Procedimiento ACECLUS............................................................................................... 360 Procedimiento CLÚSTER............................................................................................... 361 Procedimiento TREE...................................................................................................... 363 SAS y el análisis clúster no jerárquico ....................................................................... 365 Análisis clúster con Enterprise Miner. El nodo Clustering.......................................... 371 Análisis clúster con IBM SPSS Modeler..................................................................... 377 El nodo Entrenar K-medias: clúster no jerárquico.................................................. 378 El nodo Clúster bietápico: clúster jerárquico .................................................................. 382
O Alfaomega-RCLibros
XI
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
Capítulo 8. Redes neuronales. Herramientas ............................................................ 383 Introducción........................................................................................................................ 383 Redes neuronales con SAS Enterprise Miner............................................................ 383 Optimización y ajuste de modelos con redes: nodo Neural Network ......................... 384 Análisis en componentes principales a través de redes neuronales: nodo Princomp/Dmneural............................................................................................... 406 Predicción y análisis discriminante a través de redes neuronales: nodo Two Stage Model................................................................................................... 412 Análisis clúster con redes neuronales: nodo SOM/Kohonen ............................................. 418 Redes neuronales con IBM SPSS Modeler ....................................................................... 426 Nodo Entrenar red.......................................................................................................... 427 Análisis clúster con redes neuronales: nodo Entrenar Kohonen ............................ 430 Capítulo 9. Fase de evaluación. Comparación de modelos. Herramientas.... 433 Fase de evaluación en SAS Enterprise Miner. Nodo Assessment ............................ 433 Trabajo con el nodo de evaluación..................................................................................... 434 El fichero de datos con las predicciones ........................................................................ 434 Models............................................................................................................................ 434 Options............................................................................................................................ 437 Reports........................................................................................................................... 438 Output............................................................................................................................. 438 Gráficos del nodo Assessment........................................................................................... 438 Lift (Gráfico de ganancias).............................................................................................. 438 Vista de los datos relativos a los gráficos de ganancias........................................ 441 DIAGNOSTIC (Gráfico de clasificación)......................................................................... 442 THRESHOLD-BASED (Gráfico de clasificación basado en el umbral) .................. 443 Curvas ROC ................................................................................................................... 445 Scatter Plot (Gráfico de dispersión)................................................................................ 446 Ejemplo de combinación de modelos de árboles con otros modelos ........................ 446 Capacidad predictiva de un modelo................................................................................... 449 Selección de modelos. Ejemplo con IBM SPSS................................................................. 450 Curvas ROC. Ejemplo con IBM SPSS ............................................................................... 452 índice analítico.................................................................................................................... 455
XII
© Alfaomega - RC Libros
INTRODUCCIÓN
De un modo sencillo podemos definir la minería de datos como un conjunto de técnicas encaminadas al descubrimiento de la información contenida en grandes conjuntos de datos. Se trata de analizar comportamientos, patrones, tendencias, asociaciones
y
otras
características
del
conocimiento
inmerso
en
los
datos.
Actualmente se dispone de grandes cantidades de datos y es más necesario que nunca poder analizarlos ordenadamente para extraer de un modo automatizado la inteligencia
contenida
en
ellos
utilizando
técnicas
especializadas
apoyadas
en
herramientas informáticas. Estas técnicas constituyen la minería de datos. El intenso desarrollo de las herramientas de tratamiento automatizado de la información ha llevado aparejado el uso de las técnicas estadísticas de análisis multivariante de datos de una forma sencilla. Al crecer los medios informáticos se ha facilitado sobremanera la manejabilidad de los algoritmos estadísticos. Pero por otro lado, podemos decir que las técnicas de minería de datos son tan antiguas como la estadística misma. De hecho, las técnicas estadísticas que utiliza la minería de datos coinciden en su mayoría con las técnicas estadísticas de análisis multivariante de datos. Las herramientas de minería de datos presentan en sus menús, de un modo ordenado, las técnicas de análisis multivariante de datos lógicamente secuenciadas. Este libro analiza las herramientas más habituales en minería de datos y sus posibilidades de trabajo. Se utilizarán IBM SPSS, IBM SPSS MODELER, SAS, SAS ENTERPRISE GUIDE y SAS ENTERPRISE MINER.
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
A través de ejemplos totalmente resueltos a lo largo del libro se irán presentando las diferentes técnicas de minería de datos. Los archivos se encuentran en la página web de la editorial, para acceder a ellos, ingrese a http://libroweb.alfaomega.com.mx y dé doble clic en la imagen de la portada del libro. Se trata de exponer, con sencillez y mediante una metodología interactiva, los conceptos de minería de datos e inteligencia de negocios.
XIV
© Alfaomega - RC Libros
CAPÍTULO
TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS CLASIFICACIÓN DE LAS TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS MÁS COMUNES Inicialmente las técnicas de minería de datos pueden clasificarse en técnicas de modelado originado por la teoría (en las que las variables pueden clasificarse en dependientes e independientes), técnicas de modelado originado por los datos (en las que todas las variables tienen inicialmente el mismo) y técnicas auxiliares. Las técnicas de modelado originado por la teoría especifican el modelo para los datos en base a un conocimiento teórico previo. El modelo supuesto para los datos debe contrastarse después del proceso de minería de datos antes de aceptarlo como válido. Formalmente, la aplicación de todo modelo debe superar las fases de identificación objetiva (a partir de los datos se aplican reglas que permitan identificar
el mejor modelo posible que ajuste los datos), estimación (proceso de cálculo de los parámetros del modelo elegido para los datos en la fase de identificación), diagnosis (proceso de contraste de la validez del modelo estimado) y predicción (proceso de utilización del modelo identificado, estimado y validado para predecir valores futuros de las variables dependientes). Podemos incluir entre estas técnicas todos los tipos de regresión y asociación, análisis de la varianza y covarianza, análisis discriminante y series temporales.
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
En las técnicas de modelado originado por los datos no se asigna ningún papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se supone la existencia de un modelo previo para los datos. Los modelos se crean automáticamente partiendo del reconocimiento de patrones. El modelo se obtiene como mezcla del conocimiento obtenido antes y después de la minería de datos y también debe contrastarse antes de aceptarse como válido. Por ejemplo, las redes neuronales permiten descubrir modelos complejos y afinarlos a medida que progresa la exploración de los datos. Gracias a su capacidad de aprendizaje, permiten descubrir relaciones complejas entre variables sin ninguna intervención externa. Por su parte, las técnicas de clasificación extraen perfiles de comportamiento o clases, siendo su objetivo construir un modelo que permita clasificar cualquier nuevo dato. Asimismo, los árboles de decisión permiten dividir datos en grupos basados en los valores de las variables. Esta técnica permite determinar las variables significativas para un elemento dado. El mecanismo de base consiste en elegir un atributo como raíz y desarrollar el árbol según las variables más significativas. Además de las redes neuronales, los árboles de decisión y las técnicas de clasificación (cluster, etc.), podemos incluir en este grupo las técnicas de reducción de la dimensión (factorial, componentes principales, correspondencias, etc.), las técnicas de escalamiento óptimo y multidimensional, y el análisis conjunto. Las técnicas auxiliares son herramientas más superficiales y limitadas. Son nuevos métodos basados en técnicas estadísticas descriptivas e informes. A continuación se muestra una clasificación inicial de las técnicas de minería de datos. Modela* de regresión Análisis de la varianza Series temporales Modelado diriyido por la letirla (Técnica* Predict i va*) Análisis discriminante Árboles de decisión
Técnica*
2
Análisis cluster Escalamiento multidimensional Modelado diriyido por lo* datos (Técnica* Descriptiva*) Escalamiento óptimo Reducción de la dimensión Seymentación
O Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
Entre las herramientas de minería de datos más habituales tenemos actualmente el software de IBM y el software de SAS. IBM dispone de las herramientas IBM SPSS Statistics e IBM SPSS Modeler. La primera de ellas es un software para el trabajo estadístico en general (que contiene varios procedimientos de minería de datos) y la segunda es una herramienta específica de minería de datos sucesora de SPSS Clementine. Por su parte SAS dispone del software estadístico general, de SAS Enterprise Guide para el trabajo con procedimientos estadísticos y de minería por menús y del software SAS Enterprise Miner, específico de minería de datos.
MODELADO ORIGINADO POR LA TEORÍA (TÉCNICAS EXPLICATIVAS O DE LA DEPENDENCIA) En los análisis que no es aceptable una importancia equivalente en las variables que intervienen, porque alguna variable se destaca como dependiente principal (MÉTODOS DE DEPENDENCIA), habrá que utilizar técnicas analíticas o inferenciales, considerando la variable dependiente como explicada por las demás variables independientes explicativas, y tratando de relacionar todas las variables por medio de una posible ecuación o modelo que las ligue. El método elegido podría ser entonces la regresión lineal, generalmente con todas las variables cuantitativas. Una vez configurado el modelo matemático se la variable dependiente conocido el perfil de dependiente fuera cualitativa dicotómica (1,0; clasificadora, estudiando su relación con el resto de la regresión logística.
podrá llegar a predecir el valor de todas las demás. Si la variable sí o no) podrá usarse como de variables clasificativas a través
Si la variable dependiente cualitativa observada constatara la asignación de cada individuo a grupos previamente definidos (dos, o más de dos), puede ser utilizada para clasificar nuevos casos en que se desconozca el grupo a que probablemente pertenecen, en cuyo caso estamos ante el análisis discriminante, que resuelve el problema de asignación en función de un perfil cuantitativo de variables clasificativas. Si la variable dependiente es cuantitativa y las explicativas son cualitativas estamos ante los modelos del análisis de la varianza, que puede extenderse a los modelos loglineales para el análisis de tablas de contingencia de dimensión elevada. Si la variable dependiente puede ser cualitativa o cuantitativa y las independientes cualitativas, estamos ante el caso de la Segmentación. Con la intención de clarificar un poco más ese tipo de técnicas de análisis de la dependencia se presenta el cuadro siguiente, que las clasifica en función de la naturaleza métrica o no métrica de las variables independientes y dependientes. O Alfaomega-RCLibros
3
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
MODELADO ORIGINADO POR LOS DATOS (TÉCNICAS DESCRIPTIVAS O DE LA INTERDEPENDENCIA) El investigador tendrá que considerar si asigna a todas sus variables una importancia equivalente, es decir, si ninguna variable destaca como dependiente principal (MÉTODOS DE INTERDEPENDENCIA) en el objetivo de la investigación. Si es así, puede acudir para su tratamiento en bloque a lo que podría llamarse técnicas multivariantes descriptivas. Y puede hacerlo con dos orientaciones diferentes: por una parte, para reducir la dimensión de una tabla de datos excesivamente grande por el elevado número de variables que contiene y quedarse con unas cuantas variables ficticias que, aunque no observadas, sean combinación de las reales y sinteticen la mayor parte de la información contenida en sus datos. En este caso también deberá tener en cuenta el tipo de variables que maneja. Si son variables cuantitativas, las técnicas que le permiten este tratamiento pueden ser el Análisis de componentes principales y el Análisis factorial, si son variables cualitativas, puede acudir al Análisis de correspondencias, y si son variables cualitativas ordinales se acude al Escalamiento multidimensional. 4
© Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
La Tipología acepta variables cualitativas y cuantitativas. Por otra parte, la otra orientación posible ante una colección de variables sin ninguna destacada en dependencia, sería la de clasificar sus individuos en grupos más o menos homogéneos con relación al perfil que en aquellas presenten, en cuyo caso utilizará por ejemplo el Análisis de clusters, donde los grupos, no definidos previamente, serán configurados por las propias variables que utiliza. Con la intención de clarificar un poco más este tipo de técnicas de análisis de la interdependencia se presenta el cuadro siguiente, que las clasifica en función de la naturaleza métrica o no métrica de las variables.
EL ENTORNO DE TRABAJO DE IBM SPSS Para empezar a trabajar con el programa, basta elegir la opción Programas del menú Inicio de Windows y seleccionar la subopción IBM SPSS Statistics 20 de la opción IBM SPSS Statistics (Figura 1-1). Se obtiene la pantalla temporal de la Figura 1-2 con información de la versión. A continuación se obtiene la pantalla de la Figura 1-3, que nos permitirá comenzar la tarea con SPSS de varias formas. Se puede comenzar ejecutando el tutorial, introduciendo los datos para el análisis, ejecutando una consulta en lenguaje SPSS creada anteriormente, creando una nueva consulta o abriendo una fuente de datos ya existente u otro tipo de archivo a elegir en la Figura 1-3. No obstante, si se desea que esta pantalla no vuelva a aparecer al ejecutar posteriormente SPSS, basta señalar la casilla No volver a mostrar este cuadro de diálogo. Si se pulsa Cancelar, se obtiene la pantalla de entrada de SPSS con la hoja de cálculo disponible para introducir los datos de nuestro análisis en sus celdas (Figura 1-4). Cada columna será una variable.
O Alfaomega-RCLibros
5
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
O »•>:
• ■••.tailV n/K» Q¡J iMUCsm •f ¿i IWHfMi © M- • rtaliVika
»
»
Q i.
O <
'«m
1 ■;.«<*»»Ncm;
<6 '.‘.MmNi-ilUi
_ _ _A.M»» ».**
Q Mjw.'.lr'i as C" : .»:+yj
1 fcl *«’■ B » '?L
Figura 1-1
uyrtuUviMi P«(Mh ( >IMC(C C CK.itfl bu .’.nnakr IM li Kn«n IU¡ >í BU lBNl na %■«-•< •na A • •'••
ircflWMK'iti ■
Ma ii Mvln
wiMirri .m ir: ai Ji.t catad nriram »*J i^
'itlariM or rK*Mv*«M«»aru+J <4 C*»o* hcvHiTUm (Mi' (•»•> VI iiMf* vn» ti'iMuM tá iU4 c* Miar (••aifa* lla**iafiai«bai«al|i|i lw lMM JMI a O^urHtmia »: M- :• Ini/ ci*ra: a _>:ar«a n hC' C.t Ui'M f «(Alt*, w aa a kna «|Hr»ri PWai n»t na ijaanat cual#, oaraaa iiigiw B/ jatv t# *i>}jn s». (fina u taaa tarra
í IJW
Figura 1-2
Figura 1-3 6
O Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
Figura 1-4 La pantalla inicial de la Figura 1-4 (Editor de datos de SPSS), que es el marco de trabajo inicial que se utilizará para introducir los datos y elegir el procedimiento adecuado para el análisis. En la línea superior de esta pantalla vemos el icono de SPSS y el nombre del archivo de datos activo. En la línea siguiente se presenta la barra de menú, que contiene el menú general de SPSS con todas sus opciones ( Archivo, Edición, Ver, Datos, Transformar, Analizar, Marketing directo, Gráficos, Utilidades, Ventana y Ayuda). Cada una de estas opciones contiene distintos procedimientos para el trabajo estadístico. La tercera línea presenta la barra de herramientas, cuyo contenido son diferentes iconos que permiten acceder rápidamente a los procedimientos más comunes en el trabajo con la aplicación, sin necesidad de acudir al menú general (Figura 1-5). El significado de cada icono puede verse dinámicamente situando el ratón sobre el propio icono.
Figura 1-5 Por orden de colocación de izquierda a derecha, los iconos de la barra de herramientas significan lo siguiente: -Abrir archivo -Guardar archivo -Imprimir -Recuperar cuadros de diálogo -Deshacer -Rehacer -Ir a caso -Ir a variable -Variables -Buscar O Alfaomega-RCLibros
7
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
-Insertar caso -Insertar variable -Segmentar archivo -Ponderar casos -Seleccionar casos -Etiquetas de valor -Usar conjuntos de variables -Mostrar todas las variables -Corregir ortografía
Cuando se ha abierto un archivo en el editor (por ejemplo, abrimos el archivo accidents.sav mediante Archivo -> Abrir ->Datos), en la línea situada debajo de la barra de herramientas se presenta el nombre de la variable relativa a la celda en la que están situados actualmente el cursor y su valor (Figura 1-6). En la parte inferior de la Figura 1-6 se presentan las solapas Vista de datos (Figura 1-6) y Vista de variables (Figura 1-7) para el fichero cargado actualmente. En la Vista de variables se define nombre, tipo, anchura, número de decimales, etiquetas, rango de valores para las categorías de las variables cualitativas, valores perdidos, columnas, tipo de variable y papel de las variables. Para las variables, y en la Vista de datos se introducen sus datos sobre las celdas. Cada columna es una variable.
Figura 1-6
Figura 1-7 8
O Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
IBM SPSS contiene los procedimientos de minería de datos en las opciones del menú general Datos (Figura 1-8), Transformar (Figura 1-9), y sobre todo en Analizar (Figura 1-10). En las opciones Datos y Transformar se encuentran varios procedimientos relativos a las fases de selección y transformación de minería datos como iremos viendo posteriormente a lo largo de los capítulos correspondientes. En la opción Analizar se encuentran todos los procedimientos relativos a las fases de exploración y limpieza de datos, análisis de datos descriptivo y predictivo y evaluación. Esta opción es la más importante del programa en cuanto a minería de datos.
Figura 1-8
Figura 1-9
O Alfaomega-RCLibros
9
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS ti Vi tnjol IConjifftojM.drtuOt BM VTA VUUtfiu t«to* * «.toa JVhNO Pdrtor VO Qaot Trodgnne In.vw Mowing docto Qnfcot ybW»Ot
■ • e; r-
-» ■
E* coa dwrjdvos
-'-5 J¡+% ■* OdeO
Onptirw me*»
?
■MW) lew*.» leMMduedvj
4 c •
S3 PerteWron nufeca
• • 10 1!
f?'unetin 6» tana i»
12 14 15
«*-■- A. B.4. .
OM «r
Figura 1-10 ENTORNO DE TRABAJO DE IBM SPSS MODELER IBM SPSS Modeler es el entorno de trabajo de IBM para minería de datos. Este software ha sufrido varios cambios en su aspecto externo en los últimos años, pero la filosofía y el modo de trabajo no han cambiado desde las primeras versiones. De hecho, el nombre de este software hasta la versión 12 era SPSS Clementine. Pero el aspecto del programa no ha variado. En este libro me referiré indistintamente a las dos nomenclaturas del programa y todo el trabajo es válido para ambas. El entorno de IBM SPSS Modeler (Clementine) está basado en nodos que se van utilizando y conectando para formar un flujo, o stream, traducido por Clementine también como "ruta". Los streams pueden alojarse en ficheros separados (str) o se pueden organizar en proyectos. De hecho, tanto los streams como los proyectos de minería de datos se almacenan en ficheros separados que se pueden cargar, guardar, modificar, reejecutar o reorganizar y que son independientes de las fuentes de datos. En la Figura 1-11 se muestra la estructura típica de un trabajo en Modeler (Clementine) con varios nodos interconectados que van realizando tareas secuenciales adaptadas a la teoría de la minería de datos. En concreto se muestra una ruta que finaliza con un árbol de decisión y una red neuronal para predecir efectos de drogas.
10
© Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
Represe t :
B tdKlM* H*-
Ctemenlinc r#L
n>v*i — # — # — # teKS'íy (*«90» >-‘lr»lr flP‘S
\
íalccirr
tolilnr
Fllb-c
Ir:*
IgilllNv
^Upo
£ tell*
ifllk Hnwtr*
d_J __ l d _____ I _____ _ 'I
I
Crafi::
Hirj»yri
A A ailA
l'*t/INr.lm
Tcli
Dilr.-.- -.0 :-HT C5.Ú 'HT C5.Ú
# rrrm»* ■•rwi
" i___________ d ____ L Figura 1-11
s
■
fe
Ilnaa
H%r/ Ir
___ L
d
Modeler presenta varias paletas en la parte inferior de la Figura 1-11 que clasifican
los nodos en seis categorías (Figura 1-12): •
Orígenes: nodos para situar las fuentes de datos en el entorno de trabajo.
• Oper. con registros: nodos para realizar selecciones y combinaciones con la finalidad de modificar o combinar registros (filas) de distintas fuentes. •
Oper. con campos: nodos para modificar o combinar campos (columnas).
•
Gráficos: nodos para realizar gráficos.
• Modelado: nodos descriptivas.
para
trabajar
con
modelos
predictivos
y
técnicas
• Salida: nodos para tabular datos, presentar estadísticas, exportar datos y analizar modelos. O Alfaomega-RCLibros
11
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
Figura 1-12 En la parte superior derecha de la pantalla se encuentra la paleta Modelos generados (Figura 1-13) que muestra los resultados de los modelos generados durante el trabajo. Estos modelos podrán ejecutarse posteriormente desde esta paleta.
Figura 1-13 ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER Para acceder a SAS Enterprise Miner es necesario ejecutar SAS previamente. A continuación, basta con escribir miner en la caja de comandos de SAS Explorer o, en los menus de SAS, ejecutar Soluciones —> Análisis —> Enterprise Miner (Figura 1-14). Ambas vías nos llevan a la ventana de la aplicación Enterprise Miner de la Figura 1-15, en la que se distinguen las siguientes partes significativas: Zona de trabajo: área en la que se realizan las tareas de minería de datos. Barra de herramientas : zona de menus de acceso directo a los procedimientos más
importantes de minería de datos (Figura 1-16). pestañas para realizar diagramas, presentar herramientas y realizar informes. La pestaña de diagramas ( Diagrams ) del navegador de proyectos permite seleccionar los proyectos y diagramas abiertos. La pestaña herramientas (Tools) despliega el conjunto de tareas que pueden ser realizadas por Enterprise Miner (Figura 1-17). La pestaña de informes ( Reports) contiene los informes generados a través de nodos de informes. Navegador
12
del
proyecto: presenta
© Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
-101*1 OfBrt» rife *•' NPITI' H
SUXC'tt ’M4w AsitU
r#w
>rt»«jt**:rt-r«SAíí
É &
ItrnlK
jwwydín:: Wwtvk » ¡t^CMtX * «SSEL .v.uti4>.. <44 >üj mb -I- v *J J41
3
áÜ
d
USA.
■>'^1,0. >MiaMa*jAv
TOlfrirss.
ÍM LláUil
ttrtm
•.*1*4.* bMJj
as:tr« M rtwrBK jh; •• y¡ A-: a;:: Wja •»>>}.
MUTF:F.Jh.baJ
,»■,
SflS.'Stí*T 18.1. aVG/CTO 18.1, I HOTfc inicio de BAB uauil: mmI
l.lrx
Cfn i Mrw
IS.
I .(I
irwliMi. ikti'iAii
■••4B,1 li, ^•rttriiUr»
I?.l ■hirmncBi *••4* t¡r«íf yn * »»! fíe*»»*»* ¡J¡:-4íí* ;í:;r::-tiK FCrc RríWi i:
J JZJil ----- 3 B
U ajt^fa— f| E. cuta iai.:-o | Uuc tai...:; _______________ fc*' íiUw sutiuui
- JC lfi nMi jni -Mtr^i
Figura 1-14
Figura 1-15 O Alfaomega-RCLibros
13
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS ¿Orígenes de flatos de entrada .Mucstrca .Partición de datos ^lec ocn c vjr Wc-a AiX aciir .CIlBtlf — r esion ^A.bcjl de dieaskjf Ked lerjronal A ación Pro dir non ACúdigu SAS A irrfrrrros
□:mi O'v;
&
lit l'
$ □ *
Figura 1-16 Sanóle Input Data Source Sampling Data Partition | Explore LL Dictnbubon Explorer EL Mulliplol Insight Text Miner V Association ET1 Variable Selection Lrk Analyse | Modfy fra. Data Set Attributes yci] Transform Varieties ¿i Filer Outlets Replacement )y Clustering SI SOM/Kohonen ^ T me Series & Interactive Grouping I Model \s Regression ¿tu Tree i>t— Nerual Netwoik Prmcotrp/ Drmecaal User Defned Model Ensemtlc Memory-Based Reascnng Two Stage Model I Assess §S* Assessment Reporter I Sconng I) imjr nn\ Tools Re|Kir ts
Figura 1-17
14
© Alfaomcga - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
Los grupos de herramientas del menú de Enterprise Miner se adaptan a las fases de la metodología SEMMA (Sample, Explore, Modify, Model y Assess) de SAS para la minería de datos. Esta sostiene que en el proceso de extracción del conocimiento se observa la secuencia de fases siguiente: SELECCIÓN —> EXPLORACIÓN —» LIMPIEZA —> TRANSFORMACIÓN MINERÍA DE DATOS EVALUACIÓN -» DIFUSIÓN. La fase de Selección SAS la denomina Sample; la fase de Exploración SAS, Explore, las fases de Limpieza y Transformación SAS, Modify, la fase de Análisis de Datos (o Minería de Datos) SAS, Model y la fase de evaluación SAS, Assess. SELECCIÓN -> EXPLORACIÓN -> ^ (Selection) (Explore)
LIMPIEZA ->• TRANSFORMACIÓN -► (Data dining) (Transformation)
MINERÍA DE DATOS -» EVALUACIÓN (Data Mining ) (Evaluation) ___________ DIFUSIÓN __________
J
Para empezar a trabajar con SAS Enterprise Miner es necesario comenzar definiendo un proyecto. Para ello se selecciona File New Project (Figura 1-18). A continuación, en la pantalla Create new project (Figura 1-19) se eligen el nombre y la ubicación del proyecto. Al hacer clic en create se crea un proyecto sin título (untitled) que será nombrado al guardarlo (Figura 1-20). Una vez creado el proyecto se habilita la zona de trabajo para realizar tareas de minería de datos.
Figura 1-18
O Alfaomega-RCLibros
15
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
Figura 1-19
Figura 1-20 LOS ENTORNOS DE TRABAJO DE SAS Y SAS ENTERPRISE GUIDE El software SAS a través de su módulo SAS Enterprise Guide permite realizar tareas de minería de datos por medio de menus de una forma sencilla. Basta hacer doble clic sobre la opción SAS Enterprise Guide 5.1 de la Figura 1-21 para obtener la pantalla de entrada de la aplicación (Figura 1-24) después de la pantalla temporal de la Figura 1-22 y de la elección de la opción Nuevo proyecto de la Figura 1-23. Las opciones del menú Tareas de la Figura 1-24 permiten realizar trabajos de minería de datos. La opción Tareas permite realizar los distintos trabajos. Pero antes es necesario asignar una librería al proyecto que contenga los conjuntos de datos a utilizar con el programa mediante la opción Herramientas -> Asignar una librería al proyecto (Figura 1-25). Las Figuras 1-26 a 1-29 muestran los pasos para la asignación. 16
© Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS SAS fi, SAS 9 3 íspsAel (Castellano;) W. SAS 9.3 (lrglís) SAS Deployment Manager | J SAS Ente'pnse Guide SI ¡W-K S SAS Enterprise Miner Wcfcstnci 13 3 SAS GRAPH ODS Grapnics Editor 93
m
¡jg SASIMl Studio UJ
9 SAS lexíl* Setup Man**» di 1. Addition** languages J Utilities
•
4 Atrás
1 \\B*Jteor progrofnoi y ¿rrfcivoc
fi
ÍOB
i] a té 9 1W Figura 1-21 §sas SAS Enterprise Guide 5.1 PCWER
TO KNOW
Figura 1-22 J Bienvenido a SAS Enterprise Guide
Sokccmno uno do «ir.tnr. oprinrMK pnra nmpn/nr AM proyorto ¡¿ Otro proyecto
'•JE Nueve pioyectc t, Nueve piogra-v* SA5 Q Nuevos itma
‘J Guia de aprendíate: I -reduce ó" a SAS Ereerpnse Guide L No «etver a imdra eeta veri an a
Figura 1-23 O Alfaomega-RCLibros
17
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS J SAS b-Círpn.c Guide
tawneai Ayude já'S-»* Ai »
A/chr.-c tdtar Ve Tiréis
Dates
A-bul
► *1 »
Pitre y e
Dnrrtir G'J
»
CimuIvm UbUt..
Peg-esion IAJtiv4túr«»
Lipasidid
Ü
Ordena- dates.. C fF
»
£
Crear ternuto a parir del corjento ce Satos..
U
Trinsponer.. Draidr cuLunas..
a
¿piar cclurrra;..
S»iit& Uni|MiiaWk
•a l¿0T$ a O Attualjj' Dcsconal
*1 *h
2
i
Dagm-ms de ccrtml |¿ Djdm'ii. tli Ta-ilj..
► »
j
Rango..
X
Cstrrcanrir deeos..
*
n
CLAP
>
S
4 I run
M i*«tM «Inrnria...
s*
Data Mrtrq
Piar tilas data ca; 91AF p««
I preyseto
» »
Añilas de ¡jssr/r.ercu »
l'sta de seiv ceres
Constructor de suenes..
~L
ANOVA
_X
Alnbulcr. dil in-junlo di dutut.. Compa-trcatos..
► BK tirrina- :on|jrrtos de dates y te-mates.. C #cj»r «rrhivr-. rf* Hten* #n \rt 4 'J
Dcsorgar irchuos de datos en su ordenador..
2J
Itrfor.ir aicfave JMP..
— «í 0?
Iirpcretr anduvo SPSS.. brpcfldf atiNva
rfl tltrrinntrir
Figura 1-24 Herramientas Ayuda
i-3- j" íl
X
Complemento
Ü
»
Crear un documento HTML... Administrador de estilos...
A
*1
bplc-'ddcr de SAS trterp-ise Guide... Asignar una librería al proyecto... Actúa ¿ar los metadatos de la librería...
b
Constructot del paquete para el proceso almacenado de IMP... Mantenimiento de proyectos... Ver conjuntos de datos abiertos...
13
Opciones...
Figura 1-25
18
O Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
Figura 1-28
Figura 1-29 La opción SAS 9.3 de la Figura 1-21 nos lleva al marco de trabajo de SAS (Figura 131) después de la pantalla temporal de la Figura 1-30.
§sas SAS
9.3
For Windows x64 Based Systems
Figura 1-30 O Alfaomega-RCLibros
19
MINERÍA DE DATOS A TRAVÉS DE EJEMPLOS
Figura 1-31 Para utilizar de forma óptima la extraordinaria flexibilidad y potencia de SAS, es necesario trabajar con los procedimientos SAS, lo que exige como mínimo un conocimiento básico del lenguaje de programación de SAS y en concreto de la estructura de cada uno de los procedimientos. En este texto se analizará la sintaxis de los citados procedimientos y se ilustrará con ejemplos. Como muestra podemos realizar un ajuste de regresión con variables cualitativas y cuantitativas (Figura 1-32).
Figura 1-32 Al ejecutar el procedimiento con el icono * o con la opción Procesar del menú Ejecutar, el entorno de SAS presenta por defecto las tres ventanas de la Figura 1-33. En la parte superior aparece la ventana OUTPUT, que presenta la salida completa del programa procesado. Si maximizamos esta ventana, se observará la salida completa (Figura 1-34). 20
© Alfaomega - RC Libros
CAPÍTULO 1: TÉCNICAS DE MINERÍA DE DATOS Y HERRAMIENTAS
^
- n * w * ia m
* * +
Figura 1-B3
Figura 1-34 La ventana inferior de la Figura 1-33 es la ventana PROGRAM EDITOR, que se ha utilizado para escribir el programa SAS. Haciendo clic en el botón Log de la barra de iconos de ventanas de la parte inferior de la pantalla, se obtiene la ventana LOG que resume todas las incidencias de la ejecución de los programas SAS (Figura 1-35).
O Alfaomega-RCLibros
21