BD
segundo UN
Mark Ferguson, Editor
Negocio Inteligencia y Minería de Datos
Anil K. Maheshwari, Ph.D.
a inteligencia de negocios y Minería de Datos
a inteligencia de negocios y Minería de Datos
a inteligencia de negocios y Minería de Datos Anil K. Maheshwari, PhD
La inteligencia de negocios y Minería de Datos
!o"yright # Anil K. Maheshwari, PhD, $%&'.
(odos los derechos reser)ados. Ninguna "arte de esta "u*licaci+n "uede ser re"roducida, alacenada en un sistea de recu"eraci+n, o transitida de cual-uier ora o "or cual-uier edio, electr+nico, ec/nico, de otoco"iado, de gra*aci+n, o cual-uier otra e0ce"to "or *re)es citas, -ue no e0ceda de 1%% "ala*ras, sin la "re)ia autori2aci+n del editor.
Pu*licado "or "riera )e2 "or
Business 30"ert Press, ! $$$ de la calle 3ast 14th, Nue)a 5ork, N5 &%%&6 www.*usinesse0"ert"ress.co
I7BN8&9: ;6<8&849&'68&$%84 =i"resi+n> I7BN8&9: ;6<8&849&'68&$&89 =e8*ook>
eI77N: $999846'6 I77N: $9998461;
30"erto Business Press, grandes )ol?enes de datos y Business Analytics !olecci+n.
!u*ierta y dise@o de interiores "or 71!arlisle "u*licaci+n de ser)icios Pri)ate td., !hennai, India
Dedicado a mis padres, el Sr. Ratan Lal Meena y la Sra Maheshwari.
A*stracto 3l negocio es el acto de hacer algo "roducti)o "ara ser)ir las necesidades de alguien, y así ganarse la )ida, y hacer del undo un lugar eor. as acti)idades coerciales se registran en "a"el o "or edios electr+nicos, y luego se con)ierten en estos registros de datos. ay /s datos de las res"uestas de los clientes y en la industria en su conunto. (odos estos datos "ueden ser anali2ados y e0traídos utili2ando herraientas y tCcnicas es"eciales "ara generar "atrones e inteligencia, -ue reean c+o el negocio est/ uncionando. 3stas ideas "ueden ser alientados de nue)o en el negocio "ara -ue "ueda e)olucionar "ara ser /s eEca2 y e8ciente en el ser)icio a las necesidades del cliente. 5 el ciclo contin?a.
inteligencia e"resarial incluye herraientas y tCcnicas "ara la recolecci+n de datos, an/lisis y )isuali2aci+n "ara ayudar con la toa de decisiones eecuti)as en cual-uier industria. a inería de datos incluye tCcnicas estadísticas y de a"rendi2ae auto/tico "ara construir odelos de toa de decisiones a "artir de datos en *ruto. tCcnicas de inería de datos tratados en este li*ro incluyen los /r*oles de decisi+n, regresi+n, redes neuronales artiE8cial, an/lisis de congloerados, y uchos /s. inería de te0tos, inería we*, y los datos grandes ta*iCn est/n cu*iertos de una anera /cil. Una introducci+n a la odeli2aci+n de datos se incluye "ara a-uellos no iniciados en este tea.
Pala*ras cla)e An/lisis de datos, inería de datos, inteligencia e"resarial, /r*oles de decisi+n, regresi+n, redes neuronales, an/lisis de congloerados, reglas de asociaci+n.
!ontenido Abstracto ................................................. ...................................... ........ Prefacio .. .................................................. ........................................ !iii
!a"ítulo & a totalidad de Business Intelligence ... & y Data Mining Inteligencia de Negocio
$
econociiento de "atrones
9
!adena de "rocesaiento de datos 4 Grgani2aci+n de las "reguntas de re"aso del li*ro &4 &6
7ecci+n & &; ................................................ ............................... ...........
!a"ítulo $ !once"tos Business Intelligence y A"licaciones .........
$&
BI "ara toar eores decisiones $9 (i"os de to,a $9 herra,ientas
de BI
$1
a*ilidades de BI
$4
as a"licaciones de BI $4 !onclusi+n 91 Preguntas de re)isi+n
9'
(iendas li*ertad !aso 3ercicio: Paso &
9'
!a"ítulo 9 Al,acena,iento de Datos .............................................. ...........
96
!onsideraciones de dise@o "ara los eno-ues 9; DH 9< DH Desarrollo
DH Ar-uitectura Fuentes de datos
1% 1%
!argando datos Procesos 1&
DH Dise@o
1&
Acceso DH
1$
DH Buenas Pr/cticas
!onclusi+n
19 19
!GN(3NIDG
Preguntas de re)isi+n
(iendas li*ertad !aso 3ercicio: Paso $ !a"ítulo 1 de ,inería de datos ..............................................
19 11
.................... 1' a reco"ilaci+n y selecci+n de datos
16
i"ie2a de datos y la Pre"araci+n 1< as salidas de inería de datos 1; a e)aluaci+n de inería de datos de resultados '%
(Ccnicas de inería de datos '& erraientas y "lataoras "ara la Minería de Datos Minería de datos Meores Pr/cticas
Mitos so*re Data Mining
'1 '4 '6
os errores de Data Mining '<
7ecci+n $ ............................................. ... os /r*oles de decisi+n !a"ítulo '
!onclusi+n
';
Preguntas de re)isi+n
4%
(iendas li*ertad !aso 3ercicio: Paso 9
4%
........................................... 4& .............................................. ..... ........... 49 Decisi+n 41 Jr*ol de "ro*leas Jr*ol de decisiones de construcci+n 44 ecciones de la construcci+n de /r*oles de decisi+n 6& algoritos de /r*oles de 6$
!a"ítulo 4 Fegresi+n ............................................ ...
!onclusi+n
6'
Preguntas de re)isi+n
6'
(iendas li*ertad !aso 3ercicio: Paso 1
64
...................... 66
!orrelaciones y relaciones
6<
isual irada a las relaciones
6;
3l eercicio de regresi+n
<%
egresi+n no lineal 3ercicio <9 egresi+n logística entaas y des)entaas de los Modelos de egresi+n !onclusi+n eercicios de re"aso
<' <4 << <<
(iendas li*ertad !aso 3ercicio: Paso '
89
!GN(3NIDG
!a"ítulo 6 redes neuronales artiEciales
0i
..................................... ....... ;& A"licaciones e"resariales de Ann ;$ Princi"ios de dise@o de una red neuronal ;9
e"resentaci+n de una red neuronal
;'
a ar-uitectura de una red neuronal ;' 3l desarrollo de una NA
entaas y des)entaas del uso de las redes neuronales
!onclusi+n eercicios de re"aso An/lisis de conglo,erados !a"ítulo < ..............................................
;4 ;6 ;< ;<
............... ;; as a"licaciones de an/lisis de congloerados &%%
DeEnici+n de un cl?ster &%& gru"os -ue re"resentan &%$ a agru"aci+n tCcnicas de agru"a,iento
&%9
&%$ 3ercicio
K8Means Algorito "ara !lustering
&%4
7eleccionar el n?ero de gru"os &%;
entaas y des)entaas de K8edias
!a"ítulo ; Asociaci+n Fegla Minería ............................................
Algorito
&&%
!onclusi+n
&&&
eercicios de re"aso
&&&
(iendas li*ertad !aso 3ercicio: Paso 4
&&$
&&9
A"licaciones e"resariales de reglas de asociaci+n
&&1
3n re"resentaci+n de reglas de asociaci+n &&' Algoritos "ara la regla de asociaci+n &&'
A "riori Algorito
&&4
eglas de Asociaci+n de 3ercicios
&&4
a creaci+n de reglas de asociaci+n
&&;
!onclusi+n
&
%$eercicios de re"aso
&
%$(iendas li*ertad !aso 3ercicio: Paso 6
&$&
0ii
BU7IN377 IN(3IL3N!3 y inería de datos
7eccion ..................................... 9 ............................................. .... &$9 ... !a"ítulo &% (e0t ................... &$' Mining .............................................. A"licaciones de inería de te0to
&$4
Proceso de inería de te0to
&$<
a inería de la (DM
&9%
a co"araci+n de te0to Minería y Minería de datos &9& Minería de (e0tos Buenas Pr/cticas
&9$
!onclusi+n
&99
Preguntas de re)isi+n (iendas li*ertad !aso 3ercicio: Paso < !a"ítulo && He* Mining ..............................................
&99 &91
.................. &9' Minería contenido He*
&94
3structura He* Minería &94 He* inería de uso &96 Algoritos de inería we* &9<
!a"ítulo &$ Big Data ..............................................
!onclusi+n
&9;
Preguntas de re)isi+n
&9;
........................ &1& DeEnici+n de grandes )ol?,enes de datos &1$
Lran "aisae de Datos I"licaciones coerciales de Big Data
&1' &1'
I"licaciones tecnol+gicas de grandes )ol?enes &14 de datos Big Data (echnologies &14 Lesti+n de grandes )ol?enes de datos &1<
!a"ítulo &9 Modelado de datos Pri,er .............................................
!onclusi+n
&1;
Preguntas de re)isi+n
&1;
.... &'& 3)oluci+n de los 7isteas de Lesti+n de Datos &'$ Modelo de Datos elacional &'9 a i"leentaci+n del Modelo de Datos elacional &'' 7isteas de gesti+n de *ases de datos &'4
!onclusi+n
&'4
Preguntas de re)isi+n Rec"rsos
&'4
...................... #
%$adicionales ........................................... .....
&ndice ................................................. .............................................. #$'
Preacio ay uchos *uenos li*ros de te0to en el ercado en (nteligencia de negocio y de minería de datos. Así -ue, "or -uC alguien escri*ir otro li*ro so*re este tea e estado ense@ando cursos de inteligencia de negocios y la inería de datos "ara unos "ocos a@os. M/s recienteente, he estado ense@ando este curso de clases co*inadas de los estudiantes de MBA y de la inor/tica. los li*ros de te0to e0istentes "arecen deasiado largo, deasiado tCcnico, y deasiado co"leo "ara uso de los estudiantes. 3ste li*ro )iene a llenar una necesidad de un li*ro accesi*le so*re el tea de la inteligencia e"resarial y la inería de datos. Mi o*eti)o era escri*ir un li*ro de con)ersaci+n -ue se siente /cil e inorati)o. 3ste es un li*ro /cil -ue cu*re todo lo i"ortante, con ee"los concretos, e in)ita al lector a unirse a este c a"o.
3ste li*ro se ha desarrollado a "artir de is "ro"ias notas de clase. eea uchos a@os de e0"eriencia en la industria de (I, así coo de uchos a@os de e0"eriencia acadCica teach8ing. os ca"ítulos est/n organi2ados "ara un curso tí"ico graduado de un seestre. 3l li*ro contiene caselets de historias del undo real al "rinci"io de cada ca"ítulo. ay un estudio de caso se eecuta a tra)Cs de las cha"8tros coo eercicios.
Muchas gracias est/n en orden. Mi "adre, el 7r. atan al Maheshwari e ani+ a "oner is "ensaientos "or escrito y hacer un li*ro uera de ellos. Mi es"osa Neera e ayud+ a encontrar el tie"o y la oti)aci+n "ara escri*ir este li*ro. Mi herano, el Dr. 7unil Maheshwari, y he tenido uchos a@os de oento de con)ersaciones al res"ecto. Mi colega el Dr. 3di 7hi)ai "ro"orciona ayuda y asesoraiento durante i ense@an2a de los cursos BIDM. Gtro colega el Dr. 7cott erriott sir)i+ coo un odelo a
seguir coo autor de uchos li*ros de te0to. Nuestro asistente Karen 7lowick en la Uni)ersidad Maharishi de Adinistraci+n =MUM> corria el "rier *orrador de este li*ro. Decano Dr. Lreg Luthrie en MUM "ro"orciona uchas ideas y aneras de diundir el li*ro. a 7ra Adri8Mari ilonel en 7ud/rica ayud+ a crear la o"ortunidad de utili2ar este li*ro en un "rograa de MBA cor"orati)a.
0i)
P3FA!IG
De*o dar las gracias ta*iCn a is uchos estudiantes en MUM y otros lugares -ue deostrado ser *uenos socios en i a"render /s so*re esta /rea. Finalente, gracias a Maharishi Mahesh 5ogi "ara "ro"orcionar una uni)ersidad ara)illosa, a/, donde
los estudiantes a desarrollar su intelecto, así coo su conciencia.
Dr. Anil K. Maheshwari )air*eld, (A diciembre de +#-.
!APO(UG &
a totalidad de Business Intelligence y Data Mining
3l negocio es el acto de hacer algo "roducti)o "ara ser)ir las necesidades de alguien, y así ganarse la )ida y hacer del undo un lugar eor. as acti)idades coerciales se registran en "a"el o "or edios electr+nicos, y luego se con)ierten en estos registros de datos. ay /s datos de las res"uestas de los clientes y en la industria en su conunto. (odos estos datos "ueden ser anali2ados y e0traídos utili2ando herraientas y tCcnicas es"eciales "ara generar "atrones e inteligencia, -ue reean c+o el negocio est/ uncionando. 3stas ideas "ueden ser alientados de nue)o en el negocio "ara -ue "ueda e)olucionar "ara ser /s eEca2 y eEciente en el ser)icio a las necesidades del cliente. 5 el ciclo contin?a en =Figura &.&>.
)ig"ra #.# inteligencia de negocios y datos de ciclo de la minería
2
BU7IN377 IN(3IL3N!3 y inería de datos
Inteligencia de Negocio (oda organi2aci+n e"resarial tiene -ue su"er)isar continuaente su entorno e"resarial y su "ro"io dese"e@o, y luego austar r/"idaente sus "lanes de uturo. 3sto incluye el control de la industria, los co"etidores, los "ro)eedores y los clientes. a organi2aci+n tiene -ue desarrollar ta*iCn un cuadro de ando "ara reali2ar un seguiiento de su "ro"ia salud y )italidad. os eecuti)os suelen deterinar lo -ue -uieren hacer un seguiiento *asado en sus índices de rendiiento cla)e =KPI> o /reas de resultados cla)e =8A!>. os inores "ersonali2ados de*en ser dise@ados "ara entregar la inoraci+n re-uerida "ara todos los eecuti)os. 3stos inores se "ueden con)ertir en cuadros de ando "ersonali2ados -ue "ro"orcionan la inoraci+n r/"idaente y en oratos de /cil co"rensi+n.
!aselet: Money*all8Minería de datos en los De"ortes Analítica en el deporte se hio pop"lar por el libro y la pelíc"la, el blan/"eo de pelota.
Estadístico 0ill 1ames y de 2a3land 4n gerente general 0illy 0ean colocan 5nfasis en traba6ar con n7meros y datos en l"gar de er a "n atleta de estilo y las miradas. S" ob6etio era hacer "n me6or e/"ipo d"rante el "so de menos rec"rsos. El plan de acci8n clae f"e a recoger importantes 6"gadores de la banca a "n menor
costo, eitando los famosos 6"gadores /"e demandan salarios m9s altos, pero p"ede proporcionar "n ba6o rendimiento de la inersi8n de "n e/"ipo. En l"gar de con*ar en el e!periencia e int"ici8n de fri6ol 6"gadores seleccionados e!ploradores basado casi e!cl"siamente en s" porcenta6e de base :20P;. Al encontrar a los 6"gadores con "n alto
20P, pero con características /"e cond"cen e!ploradores de despido, 0ean re"nido "n e/"ipo de 6"gadores infraalorados con "n potencial m"cho mayor /"e el de "na
*nanas
os, incl"so de mercado p"eden ser ?competitie?"n e6emplo de ello, los Atl5ticos de 2a3land. En +-, dos a>os desp"5s de adoptar el mismo modelo sabermetric, los Medias Ro6as de 0oston ganaron s" primera Serie M"ndial desde #'#@. :)"ente Moneyball +-;
&. Podrían aplicar t5cnicas similares a los 6"egos de f7tbol o el cric3etB
CSi es así, c8moB
+. ¿Cuáles son las lecciones generales de esta historia?
a totalidad de Business Intelligence y Data Mining
9
a inteligencia e"resarial es un a"lio conunto de soluciones de tecnología de inoraci+n =I(> -ue incluye herraientas "ara la recolecci+n, an/lisis y "resentaci+n de inoraci+n a los clientes so*re el rendiiento de la organi2aci+n y su entorno. 3stas soluciones son algunas de las soluciones /s altaente "riori2ados "ara la in)ersi+n.
!onsidere una cadena de coercio inorista -ue )ende uchos ti"os de *ienes y ser)icios de todo el undo, en línea y en tiendas ísicas. Lenera datos so*re las )entas, co"ras y gastos desde ?lti"les lugares y tie"os. 3l an/lisis de estos datos "odrían ayudar a identiEcar los artículos /s )endidos r/"idos, artículos regionalselling, artículos de te"orada, segentos de clientes de r/"ido creciiento, y así sucesi)aente. (a*iCn (a*iCn "odría ayudar a generar ideas so*re -uC "roductos se )enden en conunto, -ue la gente tiende a co"rar "roductos -ue, y así sucesi)aente. 3stos "untos de )ista y la inteligencia "ueden ayudar ayudar a dise@ar eores "lanes de "rooci+n, "a-uetes de "roductos, tiendas y dise@os, -ue a su )e2 conducen a un negocio de eor rendiiento.
3l )ice"residente de )entas de una e"resa de )enta al "or enor -uerría reali2ar un seguiiento de las )entas
hasta la echa contra o*eti)os ensuales, el rendiiento de cada tienda y "rod8U!( categoría, y los gerentes de las tiendas "rinci"ales de ese es. 3l )ice"residente de Enan2as estaría interesado en el s eguiiento diario de los ingresos, los gastos y los uos de eecti)o "or la tiendaQ
co"ar/ndolos con los "lanesQ edir el costo del ca"italQ y así.
econociiento de "atrones Un "atr+n es un dise@o o odelo -ue ayuda a co"render algo. Patrones de ayudar a conectar a las cosas -ue "ueden no a"arecer a conectar. conectar. os "atrones ayudan a cortar a tra)Cs de la co"leidad y re)elan tendencias co"rensi*les si"les. os "atrones "ueden ser tan deEniti)o coo reglas cientíEcas duras, coo la regla de -ue el sol sie"re sale "or el este. (a*iCn "ueden ser generali2aciones si"les, tales coo el "rinci"io de Pareto, -ue esta*lece -ue el <% "or ciento de los eectos "ro)ienen del $% "or ciento de las causas.
Un odelo "erecto o odelo es uno -ue =a> descri*e con "recisi+n una situaci+n, =*> es a"liaente a"lica*le, y =c> se "uede descri*ir en un si"le ho*re8
ner. E M= $ M= $ sería tal en general, precisa, y precisa, y sencillo : LA7> LA7> odelo. Muy a enudo, las tres cualidades no son alcan2a*les en un ?nico odelo, y uno tiene -ue conorarse con dos de las tres cualidades en el odelo. os "atrones "ueden ser te"orales, -ue es algo -ue ocurre regularente durante hora. os "atrones ta*iCn "ueden ser es"aciales, tales coo las cosas se organi2an en una deterinada caino. os "atrones "ueden ser uncionales, en el -ue los clientes "otenciales hacer ciertas cosas
4
BU7IN377 IN(3IL3N!3 y inería de datos
a ciertos eectos. os *uenos "atrones son a enudo siCtrica. 7e hacen eco de las estructuras */sicas y los "atrones -ue ya soos conscientes. Un go*ierno te"oral sería -ue Ralgunas "ersonas sie"re llegan tarde,S no i"orta cu/l sea la ocasi+n o tie"o. Algunas "ersonas "ueden ser conscientes de este "atr+n y algunos "ueden no ser. a co"rensi+n de un "atr+n coo esto ayudaría a disi"ar una gran cantidad de rustraci+n y enoo innecesario. Uno "uede si"leente *roa -ue algunas "ersonas nacen R&% inutos tarde,S y reír a la *asura. Del iso odo, dice la ley de Parkinson -ue las o*ras se e0"ande "ara llenar todo el tie"o dis"oni*le "ara hacerlo.
Un "atr+n es"acial, siguiendo la regla <%8$%, "odría ser -ue el $% "or ciento de los clientes lle)a a <% "or ciento del negocio. G el $% "or ciento de los "roductos -ue generan el <% "or ciento del negocio. G el <% "or ciento de las llaadas entrantes de ser)icio al cliente est/n relacionados con s+lo el $% "or ciento de los "roductos. 3ste ?ltio "atr+n "uede ser si"leente re)elan una discre"ancia entre las características de un "roducto y lo -ue los clientes creen so*re el "roducto. 3l negocio "uede entonces decidir in)ertir en la educaci+n de los clientes eor anera -ue las llaadas de ser)icio al c liente "ueden reducirse signiEcati)aente.
Un "atr+n uncional "uede i"licar ha*ilidades "ara toar e0/enes. Algunos estudiantes se dese"e@an *ien en las "reguntas de ensayo. Gtros lo hacen *ien en "reguntas de o"ci+n ?lti"le. 7in e*argo, otros estudiantes so*resalen en hacer "royectos "r/cticos, o en "resentaciones orales. 3l conociiento de tal "atr+n en una clase de estudiantes "uede ayudar al "roesor dise@ar un ecaniso de "rue*a e-uili*rada -ue sea usto "ara todos. etener a los estudiantes es un reto continuo "ara las uni)ersidades. ecientes in)estigaciones *asadas en datos uestran -ue los estudiantes dean la escuela "or ra2ones sociales /s -ue ellos "or ra2ones acadCicas. 3ste "atr+n T "enetraci+n "uede instigar las escuelas a "restar /s atenci+n a los estudiantes -ue "artici"an en acti)idades e0tracurriculares y en desarrollo la2os /s uertes en la escuela. a escuela "uede en8chaleco en acti)idades de entreteniiento, acti)idades de"orti)as, )iaes de ca"aento y otras acti)idades. a escuela ta*iCn "uede coen2ar a reco"ilar datos de ora acti)a so*re la "artici"aci+n de todos los estudiantes en esas acti)idades, "ara "redecir los estudiantes en situaci+n de riesgo y toar edidas correcti)as.
7in e*argo, los "atrones esta*lecidos desde hace tie"o ta*iCn se "ueden ro"er. ro"er. 3l "asado "uede8no sie"re "redecir el uturo. Un "atr+n coo Rtodos los cisnes son *lancosS no signiEca -ue no "uede ha*er un cisne negro. Una )e2 -ue suEcientes anoalías son cu*iertos8DI7, el "ro"io "atr+n su*yacente s u*yacente "uede ca*iar. ca*iar. a crisis econ+ica en $%%< a $%%; ue de*ido al cola"so del "atr+n ace"tado, es decir, R"recios de la )i)ienda sie"re su*en. ” Un entorno fnanciero
desregulado
a totalidad de Business Intelligence y Data Mining
'
hecho -ue los ercados /s )ol/tiles y lle)ado a ayores oscilaciones en los ercados, lo -ue lle)a a la e)entual cola"so de todo el sistea Enanciero. a e0tracci+n de diaantes es el acto de la e0ca)aci+n en grandes cantidades de ineral sin reEnar "ara descu*rir "iedras "reciosas o "e"itas. Del iso odo, la inería de datos es el acto de la e0ca)aci+n en grandes cantidades de datos en *ruto "ara descu*rir "atrones ?tiles no tri)iales ?nicas. os datos se li"ia, y luego herraientas y tCcnicas es"eciales se "uede a"licar a la *?s-ueda de "atrones. 7uergirse en los datos li"ios y *ien orga8cidos a "artir de las "ers"ecti)as correctas "uede auentar las "osi*ilidades de hacer los descu*riientos derecha.
Un inero de diaantes e0"erto sa*e lo -ue un diaante se "arece. Del iso odo, un inero de datos e0"erto de*e sa*er -uC ti"o de "atrones -ue de*e *uscar. os "atrones son esencialente de lo -ue se antiene unida y lo -ue es se"arada. Por lo tanto, conociendo el *ien de doinio de negocio es uy i"ortante. 7e necesita conociiento y la ha*ilidad "ara descu*rir los "atrones. 3s coo encontrar una agua en un "aar. A )eces, el "atr+n "uede estar escondido a la )ista. 3n otras ocasiones, "uede tardar ucho tra*ao, y irando a lo largo y ancho, "ara encontrar "atrones ?tiles sor"rendentes. Por lo tanto, es necesario un eno-ue siste/tico "ara la inería de datos "ara re)elar de anera eEciente inoraci+n )aliosa.
Por ee"lo, la actitud de los e"leados hacia su e"leador "uede ser la hi"+tesis de -ue ser/ deterinado "or un gran n?ero de actores, coo el ni)el de educaci+n, el ingreso, la "eranencia en la e"resa, y el gCnero. Puede resultar sor"rendente si los datos re)ela -ue las actitudes est/n deterinadas en "rier lugar "or su gru"o de edad. una )isi+n tan si"le "odría ser de gran alcance en el dise@o de las organi2aciones de anera eEca2. a inería de datos tiene -ue estar a*ierto a cual-uiera y todas las "osi*ilidades.
!uando se utili2a de anera inteligente, la inería de datos "uede conducir a ideas interesantes y ser una uente de nue)as ideas e iniciati)as. Uno "uede "redecir el "atr+n de tr/Eco en las carreteras "or el o)iiento de telCono celular =en el coche> lugares en la carretera. 7i la u*icaci+n de telConos celulares en una auto"ista o carretera no se est/n o)iendo lo suEcienteente r/"ido, "uede ser una se@al de tr/Eco !onges8ci+n. "or tanto, las e"resas de telecounicaciones "ueden "ro"orcionar inoraci+n de tr/Eco en tie"o real a los conductores en sus telConos
celulares, o en sus dis"ositi)os LP7, sin la necesidad de cual-uier c/ara de )ídeo o re"orteros de tr/Eco.
Del iso odo, las organi2aciones "ueden a)eriguar el tie"o de llegada de un e"leado en la oEcina "or su telCono celular cuando a"arece en el estacionaiento. G*ser)ando el registro del gol"e de la tareta de "eriso de a"arcaiento en la e"resa
BU7IN377 IN(3IL3N!3 y inería de datos
6
garae de estacionaiento "uede inorar a la organi2aci+n si un e"leado est/ en el ediEcio de oEcinas o uera de la oEcina en cual-uier oento en el tie"o. Algunos "atrones "ueden ser tan escasa -ue una gran cantidad de datos de di)ersa tiene -ue ser )isto unto a notar cual-uier cone0i+n. Por ee"lo, la locali2aci+n de los restos de un )uelo -ue "ueden ha*er desa"arecido edio curso re-ueriría -ue re?ne datos de uchas uentes, coo los satClites, *arcos y sisteas de na)egaci+n. os datos en *ruto "ueden )enir con dierentes ni)eles de calidad, e incluso "ueden estar en conicto. os datos en la ano "ueden o no ser adecuado "ara encontrar *uenos "atrones. diensiones adicionales de datos "ueden necesitar ser a@adido "ara ayudar a resol)er el "ro*lea.
!adena de Procesaiento de Datos os datos son el nue)o recurso natural. I"lícito en esta declaraci+n es el recono8 ci+n del )alor oculto en los datos. os datos se encuentra en el cora2+n de la inteligencia e"resarial. ay una secuencia de "asos a seguir "ara *eneEciarse de los datos de una anera siste/tica. os datos "ueden ser odelados y se alacenan en una *ase de datos. os datos rele)antes se "ueden e0traer de los alacenes de datos o"eracionales de acuerdo con ciertos Enes de inores y an/lisis, y se alacenan en un alacCn de datos. os datos del alacCn se "ueden co*inar con otras uentes de datos, y e0traídos utili2ando tCcnicas de inería de datos "ara generar nue)os "untos de )ista. as ideas necesitan ser )isuali2ado y counicado a la audiencia adecuada en tie"o real "ara o*tener una )entaa co"etiti)a. Figura &.$ e0"lica la "rogresi+n de las acti)idades de "rocesaiento de datos. 3l resto de este ca"ítulo se har/ cargo de estos cinco eleentos en la cadena de "rocesaiento de datos.
Datos
(odo lo -ue se registra es de datos. as o*ser)aciones y los hechos son los datos. AnCcdotas y o"iniones son ta*iCn datos, de un ti"o dierente. os datos "ueden ser n?eros, tales coo el registro de tie"o diario o )entas
diarias. os datos "ueden ser al"hanu8Meric, tales coo los no*res de los e"leados y clientes.
Figura cadena de procesamiento de datos 1.2
a totalidad de Business Intelligence y Data Mining
6
&. os datos "odrían )enir de cual-uier n?ero de uentes. Podría )enir de registros o"erati)os dentro de una organi2aci+n, y -ue "ueden "ro)enir de los registros reco"ilados "or los organisos de la industria y los organisos gu*ernaentales. os datos "odrían "ro)enir de "ersonas -ue cuentan historias de la eoria y de la interacci+n de las "ersonas en conte0tos sociales. os datos "odrían "ro)enir de las /-uinas -ue inoraron su "ro"io estado o de los registros de uso de la we*.
$. os datos "ueden ser de uchas aneras. Puede )enir coo inores en "a"el. 3so "uede )enir coo un archi)o alacenado en un ordenador. Puede ser "ala*ras "ronunciadas "or telCono. Puede -ue sea "or correo electr+nico o chat en Internet. Puede )enir coo "elículas y canciones en DD, y así sucesi)aente.
9. (a*iCn hay datos acerca de los datos. 7e llaa etadatos. Por ee"lo,
la gente su*ir con recuencia )ídeos en 5ou(u*e. 3l orato del archi)o de )ídeo =si se trata*a de un archi)o de alta deEnici+n o resoluci+n /s *aa> son los etadatos. a inoraci+n so*re el tie"o de carga es de etadatos. 3l A!8recuento de la -ue se ha su*ido ta*iCn los etadatos. 3l registro de las descargas del )ídeo ta*iCn est/ etadatos.
os datos "ueden ser de dierentes ti"os.
&. os datos "odrían ser una colecci+n desordenada de )alores. Por ee"lo, una
re8tailer )ende caisas de colores roo, a2ul y )erde. No hay orden intrínseca entre estos )alores de color. Diícilente se "uede arguentar -ue cual-uier color es ayor o enor -ue el otro. 3sto se llaa noinal =-uiere decir no*res> de datos.
$. os datos "odrían ser )alores coo la "e-ue@a, ediana y grande ordenaron. "or ee"lo, los taa@os de caisas "odría ser e0tra "e-ue@o, "e-ue@o, ediano y grande. ay claridad -ue el edio es /s grande -ue la "e-ue@a y grande es /s grande -ue la edia. 7in e*argo, las dierencias "ueden no ser iguales. 3sto se conoce coo datos ordinales =ordenada>.
9. Gtro ti"o de datos tiene )alores nuCricos discretos deEnidas en una
cierto rango, con la su"osici+n de igual distancia entre los )alores. "untuaci+n de satisacci+n del cliente "uede ser clasiEcado en una escala de &% "untos, siendo & Po*re y &% siendo el /s alto. 3sto re-uiere -ue el deandado "ara cali*rar cuidadosaente toda la gaa de la anera /s o*eti)a "osi*le y colocar su "ro"ia edida en esa escala. 3sto se llaa inter)alo =inter)alos iguales> de datos.
8
BU7IN377 IN(3IL3N!3 y inería de datos 1. 3l ni)el /s alto de los datos nuCricos son datos de relaci+n -ue "uede toar
cual-uier )alor nuCrico. os "esos y alturas de todos los e"leados serían los )alores nuCricos e0actos. 3l "recio de una caisa ta*iCn toar cual-uier )alor nuCrico. 7e llaa relaci+n de =cual-uier racci+n> de datos.
'. ay otro ti"o de datos -ue no se "resta a ucho an/lisis ate/tico8eatical, al enos no directaente. (ales datos de*en ser "riero estructurado y des"uCs se anali2aron. 3sto incluye datos coo audio, )ídeo y archi)os gr/Ecos, a enudo llaados BGB =Binary arge G*ects>. 3ste ti"o de datos se "restan a dierentes oras de an/lisis y in8ci+n. as canciones "ueden ser descritos coo eli2 o triste, de rito r/"ido o lento, y así sucesi)aente. Pueden contener el sentiiento y la intenci+n, "ero estos no son cuantitati)aente "recisa.
a "recisi+n de los auentos de an/lisis de datos coo se hace /s nuCrico. datos de relaci+n "odrían ser soetidos a an/lisis ate/tico riguroso. Por ee"lo, los datos del tie"o "reciso so*re la te"eratura, "resi+n y huedad se "ueden utili2ar "ara crear odelos ate/ticos rigurosos -ue "ueden "redecir con "recisi+n el tie"o uturo.
os datos "ueden ser accesi*les al "?*lico y co"arti*le, o "uede ser arcado coo conEdenciales. (radicionalente, la ley "erite -ue el derecho a la "ri)acidad con res"ecto a los datos "ersonales de cada uno. ay un gran de*ate so*re si los datos "ersonales co"artidas en las con)ersaciones de edios sociales es "ri)ado o "ueden ser utili2ados con Enes coerciales.
Data*cation es un nue)o tCrino -ue signiEca -ue ahora est/ siendo o*ser)ado casi todos los en+enos y se alacena. M/s dis"ositi)os est/n conectados a Internet. M/s "ersonas est/n constanteente conectados a Rla redS, "or su red tele+nica o Internet, y así sucesi)aente. !ada clic en la we*, y cada o)iiento de los dis"ositi)os +)iles, est/ siendo gra*ada. M/-uinas est/n generando datos. 3l RInternet de las cosas ” está creciendo más rápido que el nternet de las
personas. !odo esto está generando un "olumen de crecimiento
e#ponencial de los datos$ a alta "elocidad. %a le& de 'r&der predice que la densidad & la capacidad de los medios de almacenamiento en disco duro se duplicará cada 18 meses. ( medida que los costos de almacenamiento siguen "iniendo a)a*o a un ritmo rápido$ ha& un ma&or incen+"o para gra)ar & almacenar más e"entos & ac+"idades con una ma&or resoluci,n. %os datos se almacenan en conseguir una resoluci,n más detallada$
a totalidad de Business Intelligence y Data Mining
;
0ase de datos
Una *ase de datos es una colecci+n de odelado de datos -ue se "uede acceder de uchas aneras. Un odelo de datos "uede ser dise@ado "ara integrar los datos o"erati)os de la organi2aci+n. 3l odelo de datos de res?enes de las entidades cla)e -ue "artici"an en una acci+n y sus relaciones. a ayoría de las *ases de datos de hoy siguen el odelo de datos relacional y sus )ariantes. !ada tCcnica de odelado de datos i"one reglas y liitaciones rigor8ous "ara asegurar la integridad y la consistencia de datos en el tie"o.
(oeos el ee"lo de una organi2aci+n de )entas. Un odelo de datos de "edidos de los clientes anag8ci+n i"licar/ datos so*re clientes, "edidos, "roductos y sus interrelaciones. a relaci+n entre los clientes y "edidos sería tal -ue un cliente "uede colocar uchos "edidos, "ero una orden ser/ colocado "or uno y s+lo un cliente. 7e llaa una relaci+n de uno a uchos. a relaci+n entre los "edidos y "roductos es un "oco /s co"lea. Una orden "uede contener uchos "roductos. 5 un "roducto "uede estar contenida en uchos +rdenes dierentes. 3sto se llaa una relaci+n de uchos a uchos. Dierentes ti"os de relaciones "ueden ser odelados en una *ase de datos.
as *ases de datos han crecido enoreente con el tie"o. 3llos han crecido en co"leidad en tCrinos de n?ero de los o*etos y sus "ro"iedades a ser gra*ada. (a*iCn han crecido en la cantidad de datos -ue se alacena. ace una dCcada, una *ase de datos tera*ytes de taa@o se considera grande. *ases de datos de hoy en día est/n en "eta*ytes y e0a*ytes. otros archi)os ultiedia de )ídeo y han contri*uido en gran edida al creciiento de las *ases de datos. 3l coercio electr+nico y otras acti)idades *asadas en la He* ta*iCn generan enores cantidades de datos. os datos generados a tra)Cs de edios de counicaci+n "ara8ciales ta*iCn ha generado grandes *ases de datos. os docuentos de archi)os de correo electr+nico, adunta el s iguien8ing de organi2aciones, est/n en grandes taa@os siilares.
Muchos sisteas de sotware de gesti+n de *ases de datos =DBM7> est/n dis"oni*les "ara ayudar a alacenar y gestionar estos datos. 3stos incluyen sisteas coerciales, tales coo Gracle y el sistea DB$. ay ta*iCn de c+digo a*ierto, DBM7 li*res, tales coo My7 y Postgres. 3stos "rocesos
DBM7 ayuda y alacenar MI8leones de transacciones "or )alor de los datos cada segundo.
A-uí es una si"le *ase de datos de las )entas de "elículas en todo el undo "ara un enor organi2aci+n. Muestra las transacciones de )entas de "elículas en tres cuartas "artes. Utili2ando un archi)o de este ti"o, "ueden a@adirse datos, acceder, y se actuali2a seg?n sea necesario.
&%
BU7IN377 IN(3IL3N!3 y inería de datos
Películas (ransacci+n Base de datos Fecha de la orden )endido No*re del "roducto
U*icaci+n
&
a*ril $%&9
Monty Python
$
Mayo $%&9
o -ue el )iento 3stados Unidos
alor total
3stados Unidos
V; V &'
9
Wunio del $%&9
Monty Python
India
1
Wunio del $%&9
Monty Python
Unido eino
V &$
'
ulio $%&9
Matri2
3stados Unidos
V &$
4
ulio $%&9
Monty Python
3stados Unidos
V &$
6
ulio $%&9
o -ue el )iento 3stados Unidos
<
aug $%&9
Matri2
3stados Unidos
V &$
;
se"t $%&9
Matri2
India
V &$
&%
se"t $%&9
Monty Python
3stados Unidos
&&
se"t $%&9
o -ue el )iento 3stados Unidos
&$
se"t $%&9
Monty Python
&9
No) $%&9
o -ue el )iento 3stados Unidos
&1
dec $%&9
Monty Python
3stados Unidos
V;
&'
dec $%&9
Monty Python
3stados Unidos
V;
India
V;
V &'
V; V &' V; V &'
Almac5n de datos Un alacCn de datos es un alacCn organi2ado de datos de toda la organi2aci+n, es"ecialente dise@ado "ara ayudar a toar decisiones de gesti+n. os datos "ueden ser e0traídos de la *ase de datos o"erati)a "ara res"onder a un conunto deterinado de consultas. 3stos datos, co*inados con otros datos, se "uede rodar hasta una granularidad consistente y su*ido a un alacCn de datos se"arado llaado el alacCn de datos. Por lo tanto, el alacCn de datos es una )ersi+n /s si"le de la *ase de datos o"erati)os, con el En de hacer rente a las necesidades ?nicas de toa de decisiones y la "resentaci+n de inores. os datos en el alacCn crece de ora acuulati)a a edida -ue /s datos o"eracionales -ue se dis"onga y se e0trae y se ane0a al alacCn de datos. Al contrario -ue en la *ase de datos o"erati)a, los )alores de los datos en el alacCn no se actuali2an.
Para crear un alacCn de datos si"le "ara los datos de )entas de "elículas, asuir
un o)*e+"o simple de seguimiento de las "entas de pel-culas & la toma de decisiones
a totalidad de Business Intelligence y Data Mining
&&
so*re la gesti+n de in)entario. 3n la creaci+n de este alacCn de datos, todos los datos de la transacci+n de )enta ser/n e0traídos de los archi)os de datos o"eracionales. os datos ser/n enrolladas "ara todas las co*inaciones de "eríodo de tie"o y el n?ero de "roducto. Por lo tanto, ha*r/ una Ela "ara cada co*inaci+n de "eríodo de tie"o y "roducto. 3l alacCn de datos resultante se "arecer/ a la esa lo -ue sigue.
Películas de )entas de datos Ha realoar Fila -tr endido no*re del "roducto
alor total
&
$
o -ue el )iento se lle)+
V &'
$
$
Monty Python
V 9% de
9
9
o -ue el )iento se lle)+
V 9% de
1
9
Matri2
V 94
'
9
Monty Python
V 9% de
4
1
o -ue el )iento se lle)+
V &'
6
1
Monty Python
V &< de
os datos en el alacCn de datos est/ en un grado ucho enor -ue la *ase de datos de transacci+n. 3l alacCn de datos "odría ha*er sido dise@ado en un ni)el inerior o su"erior de detalle o granularidad. 7i el alacCn de datos se dise@aron en un ni)el ensual, en lugar de un ni)el triestral, ha*ría uchas /s Elas de datos. !uando el n?ero de transacciones se acerca a illones y su"erior, con docenas de atri*utos en cada transacci+n, el alacCn de datos "uede ser grande y rico en "untos de )ista "osi*les. Uno "uede entonces ina de los datos ="icadillo> en uchos dierir8rentes oras y descu*rir "atrones signiEcati)os ?nicos. a agregaci+n de los datos ayuda a eorar la )elocidad de an/lisis. Un alacCn de datos se"arada "erite el an/lisis "ara ir "or se"arado en "aralelo, sin so*recargar los sisteas de *ases de datos o"eracionales =(a*la &.&>.
La minería de datos
Minería de datos es el arte y la ciencia de descu*rir inno)adoras ?tiles "at8charranes de datos. ay una a"lia )ariedad de "atrones -ue se "ueden encontrar en los datos. ay uchas tCcnicas, si"les o co"leas, -ue ayudan con la *?s-ueda de "atrones.
&$
BU7IN377 IN(3IL3N!3 y inería de datos
Fabla #.# =omparaci8n de los s istemas de bases de datos con los sistemas de almacenamiento de datos
Funci+n Base datos de
AlacCn de datos
Pro"+sito
os datos de alacCn de datos se li"ia
os datos al,acenados en *ases de datos "ueden ser
usado "ara uchos "ro"+sitos incluyendo datos, -ue es ?til "ara inorar de las o"eraciones del día a día y an/lisis Lranularidad datos
altaente granular -ue incluye todos los datos de granularidad ineriorQ enrollada hasta acti)idad y detalles de la transacci+n ciertas diensiones cla)e de interCs (í"icaente organi2ado alrededor de una gran cientos de archi)os de datos, )inculados ta*las de hechos, y uchas ta*las de *?s-ueda a tra)Cs de ca"os de datos counes
!o"leidad altaente co"leo con docenas o
taa@o
Base de datos crece con el creciiento
!rece a edida -ue los datos de uncionaiento
)ol?enes de acti)idad y transacciones. *ases de datos se enrolla y se a@ade ieo co"letado cada día. os datos se conser)an durante transacciones son largo an/lisis de tendencia a largo "la2o
eliinado "ara reducir el taa@o
Architectural relacional, y orientado a o*etos,
es-uea en estrella o es-uea del co"o de nie)e
elecciones
*ases de datos
Acceso a los datos
Princi"alente a tra)Cs de alto
ecanisos
lenguaes de alto ni)el, tales coo 7. se reite a inores y herraientas
7e accede a tra)Cs de 7Q salida de 7
acceso a la "rograaci+n tradicional
herraientas de )isuali2aci+n de datos
A*rir la *ase de datos a tra)Cs de *ases de datos
!onecti)idad =GDB!> de interaces
3n este ee"lo, una si"le tCcnica de an/lisis de datos se "uede a"licar a los datos en el alacCn de datos se encion+ anteriorente. Un si"le ta*ulaci+n cru2ada de los resultados "or triestre y los "roductos se re)elan algunos "atrones /cilente )isi*les.
Películas de )entas "or triestres 8 eerencias cru2adas ulaci+n
Ido con (ri T Producto
el )iento
$
V &'
9
V 9% de
1 entas totales
Matri2 Monty Python )entas totales %
V 9% de
V 1'
V 94
V 9% de
V ;4
V &'
%
V &< de
V 99
V 4%
V 94
V 6<
V &61
!on *ase en esta ta*ulaci+n cru2ada, se "uede res"onder /cilente a algunas "reguntas de )entas de "roductos, tales coo:
#.!u/l es la eor "elícula de )enta "or ingresos 8 Monty Python +.!u/l es el eor triestre en ingresos este a@o 8 G G. ="al/"ier otro patr8nB ?Matri! pelíc"la ende s8lo en
/ 0punto de temporada.
a totalidad de Business Intelligence y Data Mining
&9
3stas ideas si"les "ueden ayudar a las "roociones de arketing "lan de in)entario y la edad del ho*re de )arias "elículas. 7i una ta*ulaci+n cru2ada ue dise@ado "ara incluir los datos de locali2aci+n del cliente, se "uede res"onder a otras "reguntas, tales coo:
&. !u/l es la eor la geograía de )enta 83stados Unidos $. !u/l
es la "eor geograía de )enta 8eino Unido
9. !ual-uier otro "atr+n 8Monty Python )ende a ni)el undial, ientras -ue aca*aron -ue el )iento se )ende s+lo en los
3stados Unidos.
7i la inería de datos se reali2a a ni)el ensual de datos, sería /cil "asar "or alto la estacionalidad de las "elículas. 7in e*argo, se ha*ría o*ser)ado -ue se"tie*re es el es /s alto de )enta. 3l ee"lo anterior uestra -ue uchas dierencias y "atrones "ueden ser )istos "or el an/lisis de los datos de dierentes aneras. 7in e*argo, algunas ideas son /s i"ortantes -ue otros. 3l )alor de la )isi+n de"ende del "ro*lea a resol)er. a idea de -ue hay /s )entas de un "roducto en un deterinado triestre ayuda a un "lan director de -uC "roductos se centran en. 3n este caso, el gerente de la tienda de*e a*astecerse de Matri0 en el Barrio 9 =9>. Del iso odo, sa*er -uC tiene triestre las )entas glo*ales /s altos "erite dierentes decisiones so*re los recursos en ese triestre. 3n este caso, si 9 est/ trayendo /s de la itad de las )entas totales, esto re-uiere una ayor atenci+n en el sitio we* de coercio electr+nico en el tercer triestre.
a inería de datos se de*e hacer "ara resol)er de alta "rioridad, los "ro*leas de alto )alor. 7e re-uiere ucho esuer2o "ara reco"ilar datos, li"ias y organi2arla, e0traerlo con uchas tCcnicas, inter"retar los resultados y encontrar la )isi+n correcta. 3s i"ortante -ue haya una gran ganancia es"erada de la *?s-ueda de la )isi+n. ay -ue seleccionar los datos correctos =e ignorar el resto>, organi2arlo en un arco agrada*le y iaginati)a -ue a"orta datos rele)antes untos, y luego a"licar las tCcnicas de inería de datos "ara deducir la )isi+n correcta.
Una e"resa inorista "uede utili2ar tCcnicas de inería de datos "ara deterinar -uC nue)as categorías de "roductos "ara agregar a cu/l de sus tiendasQ c+o auentar las )entas de los "roductos e0istentesQ -ue nue)as u*icaciones "ara
a*rir tiendas enQ c+o segentar los clientes "ara una counicaci+n /s eEca2Q y así. os datos "ueden ser anali2ados en ?lti"les ni)eles de granularidad y "odrían conducir
a un gran n?ero de co*inaciones interesantes de los datos e interesante
&1
BU7IN377 IN(3IL3N!3 y inería de datos
"atrones. Algunos de los "atrones "uede ser /s signiEcati)o -ue los otros. (ales datos altaente granulares es de uso recuente, es"ecialente en las /reas de Enan2as y de alta tecnología, "or lo -ue uno "uede ganar a?n la /s ligera )entaa so*re la co"etencia.
os siguientes son los *re)es descri"ciones de algunas de las tCcnicas de inería de datos /s i"ortantes -ue se utili2an "ara generar "untos de )ista de los datos.
Hrboles de decisi8n 3llos ayudan a las "o*laciones !lasiEcar en una clases. 7e dice -ue 6% "or ciento de todos los tra*aos de inería de datos se trata de soluciones de clasiEcaci+nQ y -ue el 6% "or ciento de todos los tra*aos de clasiEcaci+n se *asa en los /r*oles de decisi+n. Por lo tanto, /r*oles deci8si+n son la tCcnica de inería de datos /s "o"ular e i"ortante. ay uchos algoritos "o"ulares de hacer /r*oles de decisi+n. 7e dierencian en tCrinos de sus ecanisos y cada tCcnica uncionan *ien "ara dierentes situaciones. 3s "osi*le "ro*ar )arios algoritos en un conunto de datos y co8Pare la e0actitud "redicti)a de cada /r*ol.
Regresi8n 3sta es una tCcnica *ien entendido del ca"o de la 7(A8dísticas. 3l o*eti)o es encontrar un eor auste de la cur)a a tra)Cs de los uchos "untos de datos. 3l eor auste de la cur)a es la -ue inii2a la =error> distancia entre los "untos de datos reales y los )alores "redichos "or la cur)a. os odelos de regresi+n se "ueden "royectar hacia el uturo con Enes de "redicci+n y "re)isi+n.
Las redes ne"ronales arti*ciales :RIA; !on origen en el ca"o de la artiEcial la inteligencia y el a"rendi2ae de las /-uinas, las redes neuronales son odelos de "rocesaiento de inor aci+n8lineales de ?lti"les ca"as -ue a"renden de los datos del "asado y "redecir )alores uturos. 3stos odelos "redicen *ien, lo -ue lle)a a su "o"ularidad. los "ar/etros del odelo "ueden no ser uy intuiti)a. Por lo tanto, las redes neuronales son o"acos coo un cuadro negro. 3stos sisteas ta*iCn re-uieren una gran cantidad de datos del "asado "ara entrenar adecuadaente el sistea.
An9lisis de conglomerados 3sta es una tCcnica de inería de datos i"ortante "ara di)Id8ci+n y la con-uista de grandes conuntos de datos. 3l conunto de datos se di)ide en un cierto n?ero de gru"os, "or discernir siilitudes y dierencias dentro de los datos. No hay una res"uesta correcta "ara el n?ero de gru"os en los datos. 3l usuario tiene -ue toar una decisi+n e0ainado -uC tan *ien el nu8*er de gru"os escogidos austa a los datos. 3sto
es /s co?nente utili2ado "ara la segentaci+n del ercado. A dierencia de los /r*oles de decisi+n y regresi+n, no hay una res"uesta correcta "ara el an/lisis de congloerados.
La asociaci8n minera regla (a*iCn llaado an/lisis de la cesta cuando se usa
en el sector del comercio minorista$ estas tcnicas )uscan asociaciones entre los datos
a totalidad de Business Intelligence y Data Mining
&'
)alores. Un an/lisis de los artículos encuentra con recuencia untos en una cesta de la co"ra "uede ayudar a )enta cru2ada de "roductos y ta*iCn crear "a-uetes de "roductos.
Jis"aliaci8n de datos
!oo datos e ideas crecen en n?ero, un nue)o re-uisito es la ca"acidad de los eecuti)os y toadores de decisiones "ara a*sor*er esta inoraci+n en tie"o real. ay un líite a la co"rensi+n huana y la )isuali2aci+n !a"ac8 dad. 3sa es una *uena ra2+n "ara "riori2ar y gestionar con enos, "ero los "rinci"ales )aria*les -ue se relacionan directaente con las /reas de resultados cla)e de un "a"el. A-uí hay algunas consideraciones al "resentar los datos:
&. Presentar las conclusiones y no s+lo inorar de los datos. $.
3lia con cuidado de una "aleta de gr/Ecos "ara -ue se ada"te a los datos.
9.
Grgani2ar los resultados "ara hacer -ue el "unto central se destacan.
1. Aseg?rese de -ue las i/genes reean con e0actitud los n?eros. Ina"ro"iado )isuales "ueden crear
inter"retaciones err+neas y alentendidos. '. acer
la "resentaci+n ?nica, iaginati)a, y eora*le.
cuadros de ando eecuti)os est/n dise@ados "ara "ro"orcionar inoraci+n so*re los "ocos elegidos
)aria*les "ara todos los eecuti)os. 3llos usan gr/Ecos, diales y listas "ara ostrar la estado de los "ar/etros i"ortantes. 3stos ta*leros ta*iCn tienen un ca8 drill8down "a*ility "ara "eritir un an/lisis de las causas de las situaciones e0ce"cionales =Figura &.9>.
)ig"ra #.G tablero e6ec"tio M"estra
diecisCis
BU7IN377 IN(3IL3N!3 y inería de datos
)ig"ra is"aliaci8n de datos #.- M"estra
a )isuali2aci+n de datos ha sido un "ro*lea interesante a tra)Cs de las disci8"linas. Muchas diensiones de los datos se "ueden ostrar de anera eecti)a en una su"erEcie de dos diensiones "ara dar una descri"ci+n rica y /s "rounda de la totalidad de la historia.
( e cl/sica "resentaci+n de la historia de la archa de Na"ole+n a usia en &<&$, "or el cart+grao rancCs Wose"h Minard, se uestra en la Figura &.1. !u*re alrededor de seis diensiones. 3l tie"o est/ de ee hori2ontal. as coordenadas geogr/Ecas y ríos se asignan. 3l es"esor de la *arra uestra el n?ero de tro"as en cual-uier "unto del tie"o -ue est/ asignado. Un color se utili2a "ara la archa hacia adelante y otro "ara el retiro. 3l tie"o te"era8 tura en cada tie"o se uestra en el gr/Eco de líneas en la "arte inerior.
Grgani2aci+n del li*ro 3ste ca"ítulo est/ dise@ado "ara "ro"orcionar la totalidad de la inteligencia e"resarial y la inería de datos, "ara "ro"orcionar al lector con una intuici+n "ara esta /rea del conociiento. 3l resto del li*ro se "uede considerar en tres secciones.
7ecci+n & se tratar/n teas de alto ni)el. !a"ítulo $ cu*rir/ el ca"o de la
inteligencia de negocio y sus a"licaciones en todas las industrias y unciones.
Cap-tulo / se e#plica )re"emente lo que es el almacenamiento de datos & c,mo a&uda
a totalidad de Business Intelligence y Data Mining
&6
con la inería de datos. !a"ítulo 1 A continuaci+n, descri*ir la inería de datos de alguna de8cola con una )isi+n general de sus "rinci"ales herraientas y tCcnicas.
7ecci+n $ se centra en las tCcnicas de inería de datos. !ada tCcnica se ostrar/ a tra)Cs de la resoluci+n de un ee"lo en detalle. !a"ítulo ' ostrar/ la "otencia y acilidad de /r*oles de decisi+n, -ue son la tCcnica de inería de datos /s "o"ulares. !a"ítulo 4 descri*ir/ estadística tCcnicas8 odelo de regresi+n. !a"ítulo 6 "ro"orcionar/ una )isi+n general de las NA. !a"ítulo < descri*ir/ c+o el an/lisis de congloerados "uede ayudar con la segentaci+n del ercado. Por ?ltio, el !a"ítulo ; se descri*e la tCcnica de inería de reglas de asociaci+n, ta*iCn llaado an/lisis de la cesta, lo -ue ayuda a encontrar los "atrones de co"ra.
7ecci+n 9 cu*rir/ nue)os teas /s a)an2ados. !a"ítulo &% introducir/ los conce"tos y tCcnicas de inería de te0to, lo -ue ayuda a descu*rir "untos de )ista de los datos de te0to, incluyendo datos de edios sociales. !a"ítulo && "ro"orcionar/ una )isi+n general del creciente ca"o de la inería we*, -ue incluye la inería de la estructura, el contenido y el uso de los sitios we*. !a"ítulo &$ "ro"orcionar/ una )isi+n general del ca"o de grandes )ol?enes de datos. !a"ítulo &9 se ha a@adido coo una cartilla so*re el odelado de datos, "ara a-uellos -ue no tienen alguna e0"eriencia en *ases de datos, y se de*e utili2ar si es necesario.
Preguntas de re)isi+n &.
Descri*ir el ciclo de la inería de inteligencia de negocio y datos.
$.Descri*e la cadena de "rocesaiento de datos. 9.!u/les son las siilitudes entre la e0tracci+n de diaantes y inería de datos
1.
!u/les son las dierentes tCcnicas de inería de datos !ual de estos
sería rele)ante en su tra*ao actual '.uC es un "anel de control !+o ayuda 4.!rear una re"resentaci+n )isual "ara ostrar el "atr+n de tie"o en tu ciudad. Podría
ostrar untos la te"eratura, la huedad, el )iento y la llu)ia T nie)e so*re un "e8ríodo de tie"o.
73!!IXN &
3sta secci+n cu*re tres i"ortantes teas de alto ni)el. !a"ítulo $ cu*rir/ los conce"tos de inteligencia de negocio, y sus a"licaciones en uchas industrias. !a"ítulo 9 se descri*en sisteas de alacenaiento de datos, y las oras de creaci+n y gesti+n de los isos.
!a"ítulo 1 descri*e la inería de datos en su conunto, con uchos hacer y no hacer de la inería de datos eEca2.
!API(UG $
!once"tos y a"licaciones de Business Intelligence
inteligencia de negocio =BI> es un tCrino general -ue incluye una )ariedad de a"licaciones inor/ticas -ue se utili2an "ara anali2ar datos de una organi2aci+n y couni8carse la inoraci+n a los usuarios "ertinentes. 7us "rinci"ales co"onentes son el alacenaiento de datos, inería de datos, consulta y "resentaci+n de inores =Figura $.&>. a naturale2a de la )ida y los negocios es crecer. a inoraci+n es la sangre )ital de los negocios. as e"resas utili2an uchas tCcnicas "ara la co"rensi+n de su entorno y "redecir el uturo "ara su "ro"io *eneEcio y el creciiento. as decisiones se toan a "artir de hechos y sentiientos. decisiones *asadas en datos son /s eecti)os -ue los *asados en sentiientos "or sí solos. as acciones *asadas en datos e0actos, la inoraci+n, el conociiento, la e0"erientaci+n y la "rue*a, usando nue)as ideas, "ueden /s "ro*a*ilidades de tener C0ito y conducir a un creciiento sostenido.
)ig"ra +.# inteligencia de negocios y datos de ciclo de la minería
$$
BU7IN377 IN(3IL3N!3 y inería de datos
os "ro"ios datos "ueden ser el aestro /s eEca2. Por lo tanto, las organi2aciones de*en reco"ilar datos, tai2ar a tra)Cs de Cl, anali2ar y e0traerlo, encontrar "untos de )ista, y luego integrar esos conociientos en sus "rocediientos o"erati)os. ay un nue)o sentido de i"ortancia y urgencia en torno a los datos, ya -ue se est/ )iendo coo un nue)o recurso natural. Puede ser e0traído de )alor, "untos de )ista, y la )entaa co"etiti)a. 3n un undo hi"erconectado, donde todo est/ "otencialente relacionado con todo, con correlaciones "otencialente inEnitas, los datos re"resentan los i"ulsos de la naturale2a en ora de ciertos e)entos y atri*utos. Una "ersona de negocios es"eciali2ada est/ oti)ado "ara utili2ar esta cachC de datos "ara a"ro)echar la naturale2a, y "ara encontrar nue)os nichos de o"ortunidades sin ser)icio -ue "odrían con)ertirse en e"resas renta*les.
!aselet: Khan Acadey8BI en la 3ducaci+n
Khan Academy es "na organiaci8n ed"catia no l"cratia innoadora /"e se est9 conirtiendo el sistema de ed"caci8n K?#+ al re5s. Proporciona lecciones de ídeo basadas en o"F"be cortos sobre miles de temas de forma grat"ita. Se dispar8 en Promi?nencia c"ando 0ill ates promoi8 como "n rec"rso /"e se "tilia para ense>ar a s"s propios hi6os. =on este tipo de "n rec"rso, a"las est9n siendo Nipped? es decir, los est"diantes hacen s" aprendia6e b9sico de tipo conferencia en casa "sando los ideos, mientras /"e el tiempo de clase se "tilia para resoler m9s problemas y entrenamiento "no?a?"no. Los est"diantes p"eden acceder a las lecciones en c"al/"ier momento para aprender a s" propio ritmo. Se registra el progreso de los est"diantes, incl"yendo lo /"e eían ídeos, c"9ntas eces se obseraron problemas, /"e se tropearon con las p"nt"aciones, y lo consig"ieron en las pr"ebas en línea.
Khan Academy ha desarrollado herramientas para ay"dar a los maestros reciben "n p"lso en lo /"e est9 s"cediendo en el a"la. Los maestros reciben "n con6"nto de salpicadero en tiempo real
tableros para darles informaci8n desde el niel macro : OC=8mo es mi clase haciendo
en la geometríaB; a niel micro :OC=8mo est9 haciendo 1ane en el dominio
polígonosB;. Armado con esta informaci8n, los maestros p"eden colocar enfo/"e selectio
en los est"diantes /"e necesitan cierta ay"da. :)"ente KhanAcademy.org;
&. C=8mo f"nciona "n tablero me6orar la e!periencia en la ense>ana y la e!periencia de aprendia6e del est"dianteB
3ise4ar un ta)lero de instrumentos para el seguimiento de su propia carrera. +.
!once"tos y a"licaciones de Business Intelligence
$9
BI "ara toar eores decisiones
( e uturo es inherenteente incierto. 3l riesgo es el resultado de un undo "ro*a*ilístico donde no hay certe2as y a*undan co"leidades. a gente usa *olas de cristal, la astrología, la -uiroancia, cerdos de tierra, y ta*iCn las ate/ticas y n?8*ras "ara itigar el riesgo en la toa de decisiones. 3l o*eti)o es hacer eecti)as deci8nes, al tie"o -ue reduce el riesgo. as e"resas calculan los riesgos y toar decisiones *asadas en una serie de hechos y "untos de )ista. conociiento Ea*le so*re el uturo "uede ayudar a los gerentes a toar las decisiones correctas con enores ni)eles de riesgo.
( e )elocidad de la acci+n ha auentado e0"onencialente con el creciiento de Internet. 3n un undo hi"erco"etiti)o, la )elocidad de una decisi+n y la consiguiente acci+n "uede ser una )entaa cla)e. Internet y las tecnologías +)iles "eriten -ue se toen decisiones en cual-uier oento y en cual-uier lugar. aciendo caso oiso de los ca*ios -ue se ue)en r/"idaente "uede "oner en "eligro el uturo de la organi2aci+n. a in)estigaci+n ha deostrado -ue un coentario desa)ora*le so*re la e"resa y sus Prod8ductos en los edios sociales no de*e ser "asada "or alto "or ucho tie"o. os *ancos han tenido -ue "agar enores sanciones a oEcina del consuidor Enanciero de "rotecci+n =!FPB> en 3stados Unidos en $%&9 "ara las reclaaciones hechas en los sitios we* de !FPB. Por otro lado, un sentiiento "ositi)o e0"resado en las redes sociales ta*iCn de*en ser utili2ados coo una o"ortunidad "otencial de )entas y "rooci+n, ientras -ue la o"ortunidad dura.
(i"os de decisiones
( 33 son dos ti"os "rinci"ales de decisiones: las decisiones estratCgicas y las decisiones o"erati)as. BI "uede ayudar a hacer tanto eor. as decisiones estratCgicas son a-uellas -ue aectan a la direcci+n de la e"resa. a decisi+n de llegar a un nue)o conunto de clientes sería una decisi+n estratCgica. as decisiones o"erati)as son las decisiones /s rutinarias y t/cticos, se centr+ en el desarrollo de una ayor e8FI!I3N!5. Actuali2aci+n de una "/gina we* de edad, con nue)as características ser/ una decisi+n o"erati)a.
3n la toa de decisiones estratCgicas, el o*eti)o en sí "uede o no estar claro, y lo iso es cierto "ara el caino "ara alcan2ar la eta. as consecuencias de la decisi+n serían e)identes alg?n tie"o des"uCs. Por lo tanto, uno est/ constanteente An/lisis en *usca de nue)as "osi*ilidades y nue)os cainos "ara alcan2ar los o*eti)os. BI "uede ayudar con el an/lisis de hi"+tesis de los uchos escenarios "osi*les. BI ta*iCn "uede ayudar a crear nue)as ideas *asadas en nue)os "atrones -ue se encuentran a "artir de la inería de datos.
$1
BU7IN377 IN(3IL3N!3 y inería de datos
as decisiones o"erati)as se "ueden hacer /s eEciente el uso de un an/lisis de los datos del "asado. Un sistea de clasiEcaci+n "uede ser creado y odelado utili2ando los datos de las instancias anteriores "ara desarrollar un *uen odelo del doinio. 3ste odelo "uede ayudar a eorar la toa de decisiones o"erati)as en el uturo. BI "uede ayudar a autoati2ar las o"eraciones de ni)el de toa de decisiones y eorar la eEciencia al hacer illones de decisiones o"erati)as a ni)el icro de una anera dirigida "or odelos. Por ee"lo, un *anco "uede -uerer toar decisiones so*re la concesi+n de "rCstaos Enancieros de una anera /s cientíEca utili2ando odelos *asados en datos. Un odelo de decisi+n ela*orados a *ase de /r*ol "odría "ro"orcionar una "recisi+n constante decisiones de "rCstao. 3l desarrollo de tales odelos de /r*ol de decisiones es una de las "rinci"ales a"licaciones de las tCcnicas de inería de datos.
BI eEca2 tiene un co"onente e)oluti)o, coo los odelos de negocio e)olucionan. !uando las "ersonas y organi2aciones act?an, se generan nue)os hechos =datos>. odelos de negocio actuales se "ueden "ro*ar en contra de los nue)os datos, y es "os8*le -ue esos odelos no se antiene *ien. 3n ese caso, los odelos de decisi+n de*en ser re)isados y nue)os "untos de )ista de*en ser incor"orados. Un "roceso sin En de generar nue)as ideas rescas en tie"o real "uede ayudar a toar eores decisiones, y "or lo tanto "uede ser una )entaa co"etiti)a signiEcati)a.
erraientas de BI BI incluye una )ariedad de herraientas y tCcnicas "ara orecer a los gestores la inoraci+n y los conociientos necesarios "ara anear el negocio de sotware. a inoraci+n "uede ser "ro"orcionada "or el estado actual de las cosas con la ca"acidad de "roundi2ar en los detalles, y ta*iCn "untos de )ista so*re los "atrones -ue conducen a la "royecci+n hacia el uturo eergente. as herraientas de BI incluyen el alacenaiento de datos, "rocesaiento analítico en línea, an/lisis de edios sociales, inorar8ci+n, ta*leros de control, consulta y inería de datos.
as herraientas de BI "ueden ir desde herraientas uy si"les -ue "odrían ser considerados herraientas de usuario Enal, a herraientas uy soEsticadas -ue orecen un conunto uy a"lio y co"leo de uncionalidad. Por lo tanto, incluso los eecuti)os "ueden
ser sus "ro"ios e0"ertos BI, o -ue "ueden conEar en los es"ecialistas de BI "ara esta*lecer los ecanisos de BI "ara ellos. Por lo tanto, las grandes organi2aciones in)ierten en soEsticados BI solu8ciones caros -ue "ro"orcionan una *uena inoraci+n en tie"o real.
Una herraienta de hoa de c/lculo, coo Microsot 30cel, "uede actuar coo un /cil "ero
herramienta de 5 efca6 por s- mismo. %os datos pueden ser descargados & almacenados en el
!once"tos y a"licaciones de Business Intelligence
$'
hoa de c/lculo, luego se anali2+ "ara "roducir "untos de )ista, a continuaci+n, se "resentan en ora de gr/Ecos y ta*las. 3ste sistea orece la autoati2aci+n liitado el uso de acros y otras características. as características analíticas incluyen unciones estadísticas y Enancieras */sicas. as ta*las din/icas ayudan a hacer soEsticada -uC "asaría si Analy8sis. +dulos adicionales "ueden ser instalados "ara "eritir el an/lisis estadístico oderadaente soEsticadas.
Un sistea de ta*leros de control, tales coo (a*leau, "uede orecer un soEsticado conunto de herraientas "ara la reco"ilaci+n, an/lisis y "resentaci+n de datos. Al Enal de usuario, ta*leros de instruentos odulares "ueden ser dise@ados y redise@ados /cilente con una intera2 de usuario gra"hi8cal. as ca"acidades de an/lisis de datos *ack8end incluyen uchas unciones estadísticas. os cuadros de ando est/n )inculados a los alacenes de datos en el e0treo "osterior "ara asegurar -ue las ta*las y gr/Ecos y otros eleentos del ta*lero de instruentos se actuali2an en tie"o real =Figura $.$>.
sisteas de inería de datos, tales coo IBM 7P77 Modeler, son sisteas industriales de la uer2a -ue "ro"orcionan ca"acidades "ara a"licar una a"lia gaa de odelos ana8líticos en grandes conuntos de datos. sisteas de c+digo a*ierto, coo Heka, son "lataoras "o"ulares dise@adas "ara ayudar a las grandes cantidades de inas de datos "ara descu*rir "atrones.
)ig"ra +.+ tablero e6ec"tio M"estra
$4
BU7IN377 IN(3IL3N!3 y inería de datos
a*ilidades de BI A edida -ue los datos crecen y e0cede nuestra ca"acidad de hacer sentido de ella, las herraientas -ue e)olucionar, y así -ue si la iaginaci+n del es"ecialista en BI. RDatos cientíEcoS ha sido llaado coo el tra*ao /s caliente de esta dCcada.
Un es"ecialista en BI e0"erto y e0"erientado de*e ser lo suEcienteente a*ierta coo "ara ir uera de la caa, a*ra la a*ertura y )er una "ers"ecti)a /s a"lia -ue en8cluye /s diensiones y )aria*les, con el En de encontrar "atrones y conociientos i"ortantes. 3l "ro*lea de*e ser irado desde una "ers"ecti)a /s a"lia -ue considerar uchos /s /ngulos -ue "ueden no ser inediataente o*)io. Una soluci+n iaginati)a de*e ser "ro"uesto "ara el "ro*lea de odo -ue el interCs8ing y ?tiles resultados "ueden eerger.
Un *uen "royecto de inería de datos coien2a con un interesante "ro*lea a resol)er. 7elecci+n del "ro*lea de la inería de datos correcta es una ha*ilidad i"ortante. 3l "ro*lea de*e ser lo suEcienteente )aliosa -ue la soluci+n sería la "ena el tie"o y los gastos. 7e necesita una gran cantidad de tie"o y energía "ara reunir, organi2ar, li"iar y "re"arar los datos "ara la inería y otros an/lisis. a inería de datos tiene -ue "ersistir en la e0"loraci+n de "atrones en los datos. 3l ni)el de ha*ilidad tiene -ue ser lo suEcienteente "roundo "ara co"roeterse con los datos y hacer -ue di+ nue)as "erce"ciones ?tiles.
as a"licaciones de BI as herraientas de BI son necesarios en casi todas las industrias y unciones. a naturale2a de la inoraci+n y la )elocidad de acci+n "uede ser dierente a lo largo *usi8sas, "ero todos los gerentes de las necesidades de hoy el acceso a las herraientas de BI "ara tener en archa hasta la echa Ctricas so*re el rendiiento del negocio. as e"resas tienen -ue integrar nue)os conociientos so*re sus "rocesos o"erati)os "ara asegurar -ue sus acti)idades con8tinue "ara e)olucionar con las "r/cticas /s eEcientes. as siguientes son algunas /reas de a"licaciones de BI y Data Mining.
="stomer Relationship Management
7#iste un negocio para ser"ir a un cliente. Un cliente sa+secho se con"ierte en un cliente ha)itual. Una empresa de)e entender las necesidades & los sen+mientos de los clientes$ "ender más de sus oertas a los clientes e#istentes$ & tam)in$ ampliar el grupo de clientes a los que sir"e. aplicaciones de 5 pueden aectar a muchos aspectos de la comerciali6aci,n.
!once"tos y a"licaciones de Business Intelligence
$6
&.Ma!imiar el rendimiento de las campa>as de mar3eting la co"rensi+n de la "untos de dolor del cliente a "artir de un an/lisis *asado en datos "ueden garanti2ar -ue los ensaes de arketing son aEnado "ara resonar eor con sus clientes.
$.Me6orar la retenci8n de clientes :an9lisis de la rotaci8n; 3s /s diícil y caro "ara ganar nue)os clientes de lo -ue es retener a los clientes e0istentes. Anotando cada cliente en su "ro*a*ilidad de dear de uar "uede ayudar a las inter)enciones eEcaces de dise@o de negocios, tales coo descuentos o gratis 7er8)icios, "ara retener clientes renta*les de una anera renta*le. 9.Ma!imiar el alor para el cliente :enta cr"ada, "pselling; !ada contacto con
el cliente de*e ser )isto coo una o"ortunidad "ara e)aluar sus necesidades cur8renta. Greciendo un cliente nue)os "roductos y soluciones en *ase a esas necesidades i"utados "uede ayudar a auentar los ingresos "or cliente. Incluso una -uea de un cliente "uede ser )isto coo una o"ortunidad "ara i"resionar al cliente. Utili2ando el conociiento de la historia y el )alor del cliente, la e"resa "uede o"tar "or )ender un ser)icio de alta calidad al cliente.
1.(denti*car y satisfacer a los clientes de alto alor Al segentar la clientes, los eores clientes "ueden ser identiEcados. 3llos "ueden ser contactados de ora "roacti)a, y encantado, con una ayor atenci+n y un eor ser)icio. os "rograas de Edeli2aci+n se "ueden gestionar de anera /s eEca2. '. Mane6o de la imagen de marca Una e"resa "uede crear un "uesto de escucha a escucha a la charla edios de counicaci+n social so*re sí iso. A continuaci+n, "uede hacer an/lisis de los sentiientos del te0to "ara entender la naturale2a de los coentarios y res"onder AP8"ro"riately a los clientes actuales y "otenciales.
="idado de la Sal"d y 0ienestar
a atenci+n sanitaria es uno de los ayores sectores de las econoías a)an2adas. a edicina *asada en la e)idencia es la nue)a tendencia en el cuidado de la salud del ho*re8ageent a *ase de datos. a"licaciones de BI "ueden ayudar a a"licar los diagn+sticos y "rescri"ciones /s eEcaces "ara )arias eneredades. (a*iCn "ueden ayudar a controlar los "ro*leas de salud "?*lica y reducir el des"erdicio y el raude.
&. Diagnosticar la enfermedad en los pacientes 3l diagn+stico de la causa de una condici+n Cdica
ci+n es el "rier "aso crítico en un co"roiso Cdica. con "recisi+n diag nosing casos de c/ncer o la dia*etes "uede ser una cuesti+n de )ida o uerte "ara
el "aciente. Ade/s de la "ro"ia situaci+n actual del "aciente, uchos
$<
BU7IN377 IN(3IL3N!3 y inería de datos
otros actores "ueden ser considerados, incluyendo la historia de salud del "aciente, historial de edicaentos, la historia de la ailia, y otros actores a*ientales. 3sto hace -ue el diagn+stico tanto de una ora de arte, ya -ue es la ciencia. 7isteas, tales coo IBM Hatson, a*sor*en toda la in)estigaci+n Cdica hasta la echa y hacer diagn+sticos "ro*a*ilísticos en la ora de un /r*ol de decisi+n, unto con una e0"licaci+n co"leta de sus recoendaciones. 3stos sisteas -uitan la ayor "arte del tra*ao de la conetura hecha "or los Cdicos en el diagn+stico de eneredades.
$. La efectiidad del tratamiento a "rescri"ci+n de edicaentos y trataiento (a*iCn es una o"ci+n diícil de tantas "osi*ilidades. Por ee"lo, hay /s de &%% edicaentos "ara la hi"ertensi+n ="resi+n sanguínea alta> solo. (a*iCn hay interacciones en tCrinos de -uC edicaentos uncionan *ien con los de/s y -ue las drogas no lo hacen. os /r*oles de decisi+n "ueden ayudar a los Cdicos a a"render y "rescri*en trataientos /s eecti)os. Por lo tanto, los "acientes "odrían recu"erar su salud /s r/"ido con un enor riesgo de co"licaciones y costes.
9. la gesti8n de la sal"d 3sto incluye un seguiiento de "aciente salud registros, el an/lisis de las tendencias de salud del cliente, de ora "roacti)a y aconse/ndoles -ue ado"ten las "recauciones necesarias. cuales-uiera
1. Mane6o de fra"de y ab"so Algunos Cdicos tienen Des8 daente ha encontrado "ara lle)ar a ca*o "rue*as innecesarias y T o co*rar deasiado a las e"resas del go*ierno y de seguros de salud. sisteas de inoraci+n de e0ce"ciones "ueden identiEcar dichos "ro)eedores, y se "ueden toar edidas contra ellos.
'. gesti8n de la sal"d p7blica a gesti+n de la salud "?*lica es uno de las res"onsa*ilidades i"ortantes de cual-uier go*ierno. Mediante el uso de herraientas y tCcnicas de "redicci+n eEcaces, los go*iernos "ueden "redecir eor la a"arici+n de la eneredad en deterinadas 2onas en tie"o real. "or lo -ue "ueden estar eor "re"arados "ara luchar contra las eneredades. Loogle se ha sa*ido "ara "re8dict el o)iiento de ciertas eneredades ediante el seguiiento de los tCrinos de *?s-ueda =coo la gri"e, la )acuna> utili2ados en dierentes "artes del undo.
Ed"caci8n
( medida que la educaci,n superior se "uel"e más caro & compe++"o$ es un gran usuario de la toma de decisiones )asada en datos. a& una uerte necesidad de efciencia$ aumentar los ingresos & me*orar la calidad de la e#periencia de los estudiantes en todos los ni"eles de la educaci,n.
!once"tos y a"licaciones de Business Intelligence
$;
&. La matric"laci8n de est"diantes :recl"tamiento y retenci8n; !oerciali2aci+n de nue)os
estudiantes "o8tenciales re-uiere -ue las escuelas "ara desarrollar "erEles de los estudiantes -ue son /s "ro"ensos a asistir. as escuelas "ueden desarrollar odelos de -uC ti"o de estudiantes se sienten atraídos "or la escuela y, a continuaci+n, llegar a esos estudiantes. os estudiantes en r iesgo de no )ol)er "ueden ser arcados, y las edidas correcti)as "ueden ser toadas en el tie"o.
$. Las ofertas de c"rsos as escuelas "ueden utili2ar los datos de inscri"ci+n a la clase desarrollar odelos de los cuales son nue)os cursos tienden a ser /s "o"ular entre los estudiantes. 3sto "uede ayudar a auentar el taa@o de las clases, reducir costes y eorar la satisacci+n de los estudiantes.
9. Al"mni promesas as escuelas "ueden desarrollar odelos "redicti)os de cual alunos son /s "ro"ensos a "roeter a"oyo Enanciero a la escuela. as escuelas "ueden crear un "erEl "ara alunos /s "ro"ensos a "roeter dona8ciones a la escuela. 3sto "odría conducir a una reducci+n en el costo de los en)íos "or correo y otras oras de diusi+n a los alunos.
Al por menor
organi2aciones inoristas crecen ediante el cu"liiento de las necesidades del cliente con Prod8ductos de calidad, de una anera con)eniente, o"ortuna y renta*le. a co"rensi+n de los "atrones de co"ra de los clientes eergentes "uede ayudar a los inoristas organi2an sus "roductos, in)entario, distri*uci+n de la tienda, y "resencia en la we* con el En de deleitar a sus clientes, -ue a su )e2 ayudar/ a auentar los ingresos y *eneEcios. os inoristas generan una gran cantidad de datos de la transacci+n y la logística -ue se "uede utili2ar "ara resol)er "ro*leas.
&.2ptimiar los nieles de inentario en diferentes l"gares os inoristas necesitan ho*re de ediana edad con cuidado sus in)entarios. le)ar deasiado in)entario i"one costos de acarreo, ientras -ue lle)a uy "oco in)entario "uede "ro)ocar el desa*asteciiento y la "Crdida de o"ortunidades de )entas. a "redicci+n de tendencias de )entas de ora din/ica "uede ayudar a los inoristas a o)er el in)entario en el -ue la ayor "arte de la deanda es. organi2aciones inoristas "ueden orecer a sus "ro)eedores con el tie"o real en la oraci+n so*re las )entas
de sus artículos "ara -ue los "ro)eedores "uedan orecer sus "roductos a los lugares adecuados y inii2ar el desa*asteciiento.
$. Me6orar la distrib"ci8n de la tienda y las promociones de entas Un an/li8 cesta de la co"ra
sis "uede desarrollar odelos "redicti)os de los "roductos -ue )enden untos
9%
BU7IN377 IN(3IL3N!3 y inería de datos
a enudo. 3ste conociiento de las aEnidades entre los "roductos "uede ayudar a re8tailers co8locali2ar esos "roductos. !oo alternati)a, los "roductos de aEnidad "odrían estar situados /s se"arados "ara -ue el cliente cainar a lo largo y ancho de la tienda, y "or lo tanto estar e0"uesto a otros "roductos. "a-uetes de "roductos con descuentos "roocionales "ueden ser creados "ara e"uar un eleento nonselling unto con un conunto de "roductos -ue se )enden *ien untos.
9. 2ptimiar la logística de efectos estacionales orecen "roductos de te"orada treen8dously renta*les o"ortunidades de )entas a corto "la2o, "ero -ue ta*iCn orecen el riesgo de in)entarios no )endidos al Enal de la te"orada. !o"render8ci+n de los "roductos -ue est/n en te"orada en la -ue el ercado "uede ayudar a los inoristas a gestionar din/icaente los "recios "ara asegurar su in)entario se )ende durante la te"orada. 7i est/ llo)iendo en un /rea deterinada, entonces el in)entario de "araguas y "onchos se "udo o)er r/"idaente allí desde las 2onas nonrainy "ara ayudar a auentar las )entas.
1.Minimiar las p5rdidas debidas a la ida 7til limitada orecen "roductos "erecederos !hal8lenges en tCrinos de eliinaci+n de in)entario en el tie"o. Mediante el seguiiento de las tendencias de )entas, los "roductos "erecederos en riesgo de no )ender antes de la echa de li-uidaci+n de anera adecuada "ueden ser descontados y "roo)idos.
0ancario os *ancos hacen "rCstaos y taretas de crCdito orecen a illones de clientes. 3llos est/n /s interesados en la eora de la calidad de los "rCstaos y la reducci+n de la orosidad. (a*iCn -uieren retener /s *uenos clientes y )ender /s ser)icios a ellos.
&. A"tomatiar el proceso de solicit"d de pr5stamo os odelos de decisi+n "ueden ser Len8rados a "artir de los datos del "asado -ue "redicen la "ro*a*ilidad de un "rCstao dando *uenos resultados. 3stos "ueden ser insertados en los
"rocesos de negocio "ara autoati2ar el "roceso de solicitud de "rCstao Enanciero. $. Detectar transacciones fra"d"lentas os il illones de transacciones Enancieras
hap:pen en todo el mundo todos los d-as. 7#cepci,n de );squeda de modelos pueden iden:+fcar patrones de transacciones raudulentas.
!once"tos y a"licaciones de Business Intelligence
9&
9.Ma!imiar el alor para el cliente :enta cr"ada, "pselling; De )enta /s Prod8ductos y ser)icios a los clientes e0istentes es a enudo la ora /s /cil de auentar los ingresos. Un cliente cuenta de che-ues en *uen estado se "odría orecer su casa, auto o "rCstaos educati)os en condiciones /s a)ora*les -ue otros clientes, y "or lo tanto, el )alor generado a "artir de ese cliente "odría increentarse.
1.2ptimiar las reseras de efectio con el pron8stico os *ancos tienen -ue antener !38tain li-uide2 "ara satisacer las necesidades de los de"ositantes -ue "ueden ser adecuados con8sacar dinero. Utili2ando los datos del "asado y an/lisis de tendencias, los *ancos "ueden "redecir cu/nto "ara antener, e in)ertir el resto "ara ganar intereses.
Sericios *nancieros casas de *olsa son un gran usuario de los sisteas de BI. as ortunas se "ueden hacer o "erdidos *asado en el acceso a la inoraci+n "recisa y o"ortuna.
&. Predecir los cambios en los precios de bonos y acciones Pronosticar el "recio de acciones y *onos es un "asatie"o a)orito de los e0"ertos Enancieros, así coo los laicos. datos de la transacci+n de la del "asado, unto con otras )aria*les, se "ueden utili2ar "ara "redecir los "atrones de "recios en el uturo. 3sto "uede ayudar a los o"eradores a desarrollar estrategias coerciales a largo "la2o. $. Eal"ar el efecto de los eentos en los moimientos del mercado os odelos de decisi+n utili2ando /r*oles de decisi+n "ueden ser creados "ara e)aluar el i"acto de los aconteciientos en los ca*ios en el )oluen de ercado y los "recios. ca*ios en la "olítica onetaria =coo la eser)a Federal de la eser)a ca*io de tasa de interCs> o ca*ios geo"olíticos =coo la guerra en una "arte del undo> "ueden tenerse en cuenta en el odelo "redicti)o "ara ayudar a toar edidas con ayor seguridad y enos riesgo.
9.(denti*car y preenir actiidades fra"d"lentas en el comercio No tienen in8 Aortunadaente ha*ido uchos casos de a*uso de inoraci+n "ri)ilegiada, lo -ue lle)a a uchos incondicionales de la industria Enanciera "roinentes -ue )an a la
c/rcel. odelos de detecci+n de raude "ueden identiEcar y "atrones de acti)idad raudulenta *andera.
Seg"ro 3sta industria es un usuario "rolíEco de odelos de "redicci+n en el seguro de Eaci+n de "recios "ro"uestas y la gesti+n de las "Crdidas de reclaaciones contra los *ienes asegurados.
9$
BU7IN377 IN(3IL3N!3 y inería de datos
&.costos del reclamo pron8stico para "na me6or plani*caci8n de negocios cuando naturales
DI7A8tros, coo huracanes y terreotos, huelgas, "Crdida de )idas y "ro"8erty ocurra. Mediante el uso de los eores datos dis"oni*les "ara odelar la "ro*a*ilidad =o riesgo> de este ti"o de e)entos -ue suceden, el asegurador "uede "laniEcar y gestionar los recursos "Crdidas y ganancias de anera eecti)a. $. Determinar planes de tarifas 8ptimas Precios un "lan de tarias de seguros re-uiere cu*rir las "Crdidas "otenciales y o*tener una ganancia. as aseguradoras utili2an ta*las actu8aria "ara "royectar la es"eran2a de )ida y las ta*las de eneredades "ara "royectar las tasas de ortalidad, y "or lo tanto el "recio de co"etiti)aente sin e*argo, de anera renta*le.
9.2ptimiar el mar3eting a clientes especí*cos Por "otencial icrosegenting clientes, una aseguradora de datos "ueden seleccionar los clientes y las eores
con e0"eriencia
dear a los clientes enos
renta*les a sus co"etidores. Insur8 "rogresi)a Ance es una e"resa con sede en 3stados Unidos -ue se sa*e -ue utili2an acti)aente la inería de datos a clientes cherry8"icking y auentar su
renta*ilidad. 1.
(denti*car y preenir actiidades fra"d"lentas de reclamo os "atrones "ueden ser iden8tiEcado en cuanto a d+nde y -uC ti"o de raude son /s "ro*a*les de ocurrir. los odelos de toa de de *ase de los /r*oles "ueden ser utili2ados "ara identiEcar y reclaaciones raudu8"restado *andera.
)abricaci8n as o"eraciones de a*ricaci+n son sisteas co"leos con interrelacionados 7u*sys8tes. De las /-uinas de tra*ao adecuado, a los tra*aadores -ue tengan los conociientos adecuados, a los co"onentes adecuados -ue llegan con la calidad adecuada en el oento adecuado, con el dinero a la uente de los co"onentes, uchas cosas tienen -ue ir a la derecha. e"resa de a*ricaci+n agra aoso de (oyota tra*aa en usto a tie"o de los sisteas de in)entario "ara o"tii2ar la in)ersi+n en in)entario y "ara eorar la e0i*ilidad de su gaa de "roductos.
&. Desc"brir n"eos patrones para me6orar la calidad del prod"cto a calidad de un PGDU!I73
UC! tam)in puede ser rastreado$ & estos datos se puede u+li6ar para crear un modelo predic:+"a de la calidad del producto se deteriore. =uchas empresas$ como las empresas de autom,"iles$ +enen que recordar sus productos si han encontrado deectos que +enen una implicaci,n seguridad p;)lica. %a miner-a de datos puede a&udar con el análisis de las causas que se pueden u+li6ar para iden+fcar las uentes de errores & a&udar a me*orar la calidad del producto en el uturo.
!once"tos y a"licaciones de Business Intelligence
99
$. Predecir Q preenir la aería de ma/"inaria 3stadísticaente, todo el e-ui"o es "ro*a*le "ara ro"er en alg?n oento en el tie"o. Predecir -uC /-uina es "ro*a*le -ue cerrar es un "roceso co"leo. os odelos de decisi+n "ara "ronosticar la a)ería de a-uinaria "odrían ser construidos usando los datos del "asado. 3l anteniiento "re)enti)o se "uede "lanear, y la ca"acidad de a*ricaci+n se "uede austar, "ara dar cuenta de este ti"o de acti)idades de anteniiento.
Felecom BI en telecounicaciones "uede ayudar a controlar la rotaci+n, "erEles de arketing T cliente, allo en la red, y la detecci+n de raudes.
&. la gesti8n de la rotaci8n clientes de telecounicaciones han ostrado una tendencia a
ca*iar sus "ro)eedores en la *?s-ueda de eores oertas. as co"a@ías de telecounicaciones tienden a res"onder con uchos incenti)os y descuentos "ara antener a los clientes. 7in e*argo, tienen -ue deterinar -uC clientes est/n en un riesgo real de conutaci+n y los -ue otros son si"leente negociar un eor trato. 3l ni)el de riesgo de*e tenerse en cuenta en el ti"o de oertas y descuentos -ue se de*e dar. Millones de estas llaadas de los clientes "asan cada es. as co"a@ías de telecounicaciones de*en "ro"orcionar de ora coherente y *asada en datos "ara "redecir el riesgo de la conutaci+n del cliente y, a continuaci+n, toar una decisi+n o"erati)a en tie"o real ientras la llaada del cliente est/ teniendo lugar. Una toa de los /r*oles o del un sistea *asado en redes neuronales se "ueden utili2ar "ara guiar al o"erador de llaadas de ser)icio al cliente a toar las decisiones correctas "ara la e"resa, de una anera consistente.
$. =omercialiaci8n de prod"ctos y la creaci8n Ade/s de los datos del cliente, e"resas de tele8co ta*iCn registros detallados de tienda de llaada =!D>, -ue descri*en "re8"recisaente el co"ortaiento con)ocatoria de cada cliente. 3stos datos ?nicos se "ueden utili2ar "ara "erElar los clientes y luego se "ueden utili2ar "ara la creaci+n de nue)os "a-uetes de "roductos T ser)icios con Enes de coerciali2aci+n. Una co"a@ía de telecounicaciones estadounidense, M!I, cre+ un "rograa llaado aigos y ailiares -ue "eritía llaadas con los aigos de uno y
ailiares en esa red a ser totalente li*re y "or lo tanto, *lo-ueado eEca2ente a uchas "ersonas en su red.
9. gesti8n de fallo en la red 3l racaso de las redes de telecounicaciones "ara tecno8 Nical allos o ata-ues aliciosos "ueden tener eectos de)astadores so*re
91
BU7IN377 IN(3IL3N!3 y inería de datos
las "ersonas, las e"resas y la sociedad. 3n la inraestructura de telecounicaciones, algunos e-ui"os es "ro*a*le -ue alle con cierto tie"o edio entre allos. Modelando el "atr+n de racaso de los di)ersos co"onentes de la red "uede ayudar con el anteniiento "re)enti)o y "laniEcaci+n de ca"acidad.
1. esti8n de fra"de ay uchos ti"os de raude en los consuidores actas. raude de suscri"ci+n se "roduce cuando un cliente a*re una cuenta con la intenci+n de no "agar "or los ser)icios. raude su"er8 i"osici+n i"lica la acti)idad ilegítia "or una "ersona distinta del titular de la cuenta legítio. as reglas de decisi+n "ueden ser desarrollados "ara anali2ar cada !D en tie"o real "ara identiEcar las "osi*ilidades de raude y ado"tar edidas eEcaces.
obierno Lo*ierno re?ne una gran cantidad de datos en )irtud de su unci+n reguladora. 3sos datos se "odría anali2ar "ara el desarrollo de odelos de uncionaiento eecti)o.
&. ="mplimiento de la ley 3l co"ortaiento social es ucho /s "redeci*le y con di*uos
ca"a2 de lo -ue ca*ría iaginar. Por ee"lo, el De"artaento de Policía de os Jngeles =APD> e0trae los datos de sus &9 illones de registros de criinalidad /s de <% a@os y odelos desarrollados de -uC ti"o de delito )a a "asar cu/ndo y d+nde. Al auentar el "atrullae en esas /reas en "articular, APD ue ca"a2 de reducir delitos contra la "ro"iedad en un $6 "or ciento. Inter8net charla se "uede anali2ar "ara a"render de y "re)enir cual-uier alas intenciones.
$. (nestigaci8n cientí*ca !ual-uier gran colecci+n de datos de la in)estigaci+n es
d+cil a -ue se e0trae de los "atrones y "untos de )ista. 3l "legaiento de "roteínas =icro*iol8logía>, an/lisis de reacci+n nuclear =ísica su*at+ica>, control de eneredades =salud "?*lica> son algunos ee"los donde la inería de datos "uede "roducir nue)os conociientos PGH8roso.
!onclusi+n 5 es un con*unto completo de herramientas inormá+cas para apo&ar la toma de decisiones con soluciones imagina+"as para una "ariedad de pro)lemas. 5 puede a&udar a me*orar el rendimiento en casi todas las industrias & aplicaciones.
!once"tos y a"licaciones de Business Intelligence
9'
Preguntas de re)isi+n &. Por -uC de*erían las organi2aciones in)ertir en soluciones de
inteligencia de negocio 7on estos /s i"ortante de lo -ue las soluciones de seguridad Por -uC o "or -uC no $. ista
de tres a"licaciones de inteligencia de negocios en la industria hotelera.
9. Descri*e
dos herraientas de inteligencia de negocio utili2ados en su organi2aci+n.
1. as
e"resas tienen una R)entaa de dos segundosS "ara tener C0ito. ue hace
eso "ara usted
(iendas li*ertad !aso 3ercicio: Paso & Libertad Stores (nc es "na cadena minorista m"ndial especialiada /"e ende comida org9nica, ropa org9nica, prod"ctos de la sal"d y prod"ctos de ed"caci8n a lohas il"minado :Estilos de ida de la sal"dable y sostenible; ci"dadanos en todo el m"ndo. La compa>ía tiene + a>os y est9 creciendo r9pidamente. "e ahora opera en los $ continentes, $ países, #$ ci"dades, y tiene $ tiendas. Se ende +. prod"ctos y tiene #. empleados. La empresa c"enta con "nos ingresos de m9s de $ mil millones y tiene "na ganancia de alrededor de "n $ por ciento de los ingresos. La empresa paga ?Atenci8n especial a las condiciones en /"e los prod"ctos son c"ltiados y prod"cidos. Se dona apro!imadamente "na /"inta parte :+ por ciento; de s"s bene*cios antes de imp"estos de ca"sas ben5*cas locales globales.
#.=rear "n c"adro de mando integral para el =E2 de la compa>ía. +.=rear otro tablero de instr"mentos para "na cabea país.
as *i*liotecas Business 30"ert "rensa digital
a inteligencia de negocios y Minería de Datos Anil K. Maheshwari, Ph.D. OEste libro es "n espl5ndido y alioso Adem9s de este tema. Fodo el libro est9 bien escrito y no tengo ning"na d"da en recomendar /"e este p"ede
3*ooks
ser adaptado como "n libro de te!to para c"rsos de postgrado en 0"si? ness (nteligencia y minería de datos.El Dr. Edi Shia6i, Des Moines, (owa
os estudiantes de negocios ,
li*ros *orndigital orientada al "lan
de estudios "ara los estudiantes a)an2ados a las e"resas, escritos "or líderes de o"ini+n acadCicas
O=omo "n noato a esta 9rea /"e acaba de empear en "n c"rso de M0A encontr5 el libro increíblemente 7til y m"y f9cil de seg"ir y s"b? base. Los conceptos est9n claramente e!plicados y /"e sea "na tarea f9cil para obtener "na comprensi8n de la materia.Sr. =raig Domoney, Hfrica del S"r
-ue traducen e0"eriencia coercial en el undo real en las lecturas del
La inteligencia de negocios y Minería de Datos 3s un li*ro de con)ersaci+n e
curso y los ateriales de reerencia
inorati)o en el /rea de la e0"losi+n del negocio Analyt8I!7. 3l uso de este li*ro,
"ara los estudiantes -ue es"eran
se "uede o*tener /cilente la intuici+n so*re la 2ona, unto con un conunto de
"ara hacer rente a la gesti+n y retos
herraientas de s+lidos de las "rinci"ales tCcnicas de inería de datos y
de lidera2go durante sus carreras
"lataoras. 3ste li*ro lo tanto se "uede usar )entaosaente coo li*ro de te0to
"roesionales.
"ara un curso de la uni)ersidad. (a*iCn es corto y lo suEcienteente accesi*le "ara un eecuti)o ocu"ado "ara con)ertirse en un cuasi8e0"erto en esta /rea en un "ar de horas. !ada ca"ítulo coien2a con un caso8let del undo real, y terina c on un estudio de caso -ue se eecuta a tra)Cs de los c a"ítulos.
Unas "olíticas a"oyadas "or los *i*liotecarios •
(limitado "so sim"lt9neo
•
la descarga y la impresi8n sin restricciones
•
acceso perpet"o por "na c"ota de "na sola e
Dr. Anil K. Maheshwari es un "roesor de sisteas de gesti+n de inor aci+n8, y director del !entro "ara el An/lisis de datos, en la Uni)ersidad Maharishi de Adinistraci+n. I"arte cursos en el an/lisis de datos, y ayuda cientíEca y orga8ni2aciones coerciales con la e0tracci+n de una )isi+n "rounda de los datos. a tra*aado en una )ariedad de roles de lidera2go en IBM en Austin (, y ta*iCn en e"resas de nue)a creaci+n. a sido "roesor en la Uni)ersidad de !incinnati, !ity Uni)ersity de Nue)a 5ork,
Iing"na plataforma o tasas de
entre otros. G*tu)o un título de ingeniería elCctrica del Instituto Indio de
mantenimiento
(ecnología de Delhi, MBA "or el Instituto Indio de Lesti+n en Aheda*ad, y
•
Los registros MAR= grat"itas
un doctorado de la Uni)ersidad !ase Hestern eser)e. Zl es un "roesional
•
Sin licencia para e6ec"tar
de la tCcnica de la editaci+n trascendental [. (iene un *log en
•
anilah.co as *i*liotecas digitales son una, el costo8e de anera integral Y ca2 "ara orecer trataientos "r/cticos de los teas i"ortantes de negocios a todos los ie*ros de estudiantes y "roesores.