on6.148
Universidad Nacional de Ingenier´ıa Facultad de Ingenier´ıa Industrial y de Sistemas Escuela Profesional de Ingenier´ıa de Sistemas Propuesta de Tesis presentada para obtener el grado de
Ingeniero de Sistemas
Credit Scoring para Pymes Financieras por Audante Ramos, N´estor Rafael
Lima - Lima Noviembre de 2007
20034021E
Credit Scoring para Pymes Financieras Audante Ramos, N´estor Rafael 7 de enero de 2008
Credit Scoring para Pymes Financieras Audante Ramos, N´estor Rafael
20034021E
Facultad de Ingenier´ıa Industrial y de Sistemas, 2007 Asesor de Tesis: Ing. Oporto D´ıaz, Samuel
Esta tesis tiene por finalidad brindar a las empresas financieras (En especial a las PYMES Financieras) un sistema de Scoring, es decir, una forma de asignarle determinada calificaci´on a los riesgos representados por clientes espec´ıficos, debido a que las empresas anteriormenete mencionadas presentan alto ´ındice de morosidad (tal y como lo demuestran los reportes de las cajas municipales de Ahorro y cr´edito y las cajas rurales)1 afectando tanto su rentabilidad como haciendo necesario la emisi´on de tasas de inter´es bastante altas para compensar el riesgo en el que incurren. Las ventajas que supone el emplear un mecanismo de escoring son, entre otras: Menor nivel de riesgo de la Entidad, mejores niveles de recaudo de Cartera y mejor utilizaci´on de los recursos, es decir, la aplicaci´on de Scoring en microfinanzas permite ante todo ser m´as rentables en los procesos2 .
1
En “Determinantes de la rentabilidad en las Cajas Rurales de Ahorro y Cr´edito”, se nos habla del caso concreto de los cr´editos agropecuarios los cuales presentaban en el a˜no 2003 un ´ındice de rentabilidad de -5.3 %adem´as el cr´edito comercial es el otro producto que registra p´erdidas para la CRAC (1.95 % de la cartera promedio), por los reducidos ingresos financieros generados y los altos costos de riesgo de estas colocaciones. 2 Tal y como nos lo indica el Ing. Javier Iba˜nez Flores del Instituto de Formaci´on Bancaria en su presentaci´on “Aplicaciones del Credit Scoring para Microfinanzas”
´ Indice general 1. Introducci´on 1.1. Introducci´on . . . . . . . . . . . . . . . 1.2. Justificaci´on . . . . . . . . . . . . . . . 1.3. Alcances y Limitaciones . . . . . . . . 1.3.1. Limitaciones de la Investigaci´on 2. Formulaci´on del problema 2.1. Descripci´on de la situaci´on problem´atica 2.2. Descripci´on del problema . . . . . . . . 2.3. Objetivo de la Investigaci´on . . . . . . . 2.3.1. Objetivo superior . . . . . . . . 2.3.2. Objetivo principal . . . . . . . 2.3.3. Objetivos espec´ıficos . . . . . . ´ 2.4. Arbol de problemas y objetivos . . . . . ´ 2.4.1. Arbol de problemas . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
. . . .
. . . . . . . .
3. Revisi´on de la bibliograf´ıa 3.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Valoraci´on de Riesgo Crediticio y Credit scoring. . . . . . . . . . . . . . . . . . 3.2.1. Valoraci´on del riesgo crediticio . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Elementos claves de la evaluaci´on de cr´edito . . . . . . . . . . . . . . . 3.2.3. Credit Scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4. Ventajas del credit scoring para las Pymes Financieras: . . . . . . . . . . 3.3. Revisi´on de algunos M´etodos no estad´ısticos aplicados en la construcci´on de Credit Scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. Algoritmos Gen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3. Investigaciones previas que han utilizado m´etodos no estad´ısticos para construir modelos de Scoring . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Antecedentes de la investigaciones . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
7 7 8 9 9
. . . . . . . .
12 12 13 14 14 14 14 15 15
. . . . . .
17 17 20 20 21 22 23
. 24 . 24 . 28 . 31 . 32
4. Metodolog´ıa de la Investigaci´on 37 4.1. Tipo de Investigaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2
˜ de la investigaci´on 5. Diseno 5.1. Objeto de la Investigaci´on . . . . . . . . 5.1.1. Poblaci´on . . . . . . . . . . . . . 5.1.2. Tama˜no de la poblaci´on . . . . . 5.1.3. Tama˜no de la muestra . . . . . . 5.2. Dise˜no de la investigaci´on . . . . . . . . 5.2.1. Tipo de dise˜no de la investigaci´on 5.2.2. Variables independientes . . . . . 5.2.3. Variables dependientes . . . . . . 5.2.4. Variables del modelo . . . . . . . 5.3. Dise˜no de la investigaci´on . . . . . . . . 5.4. Hipotesis . . . . . . . . . . . . . . . . . 5.4.1. Contraste de hip´otesis . . . . . . 5.4.2. Instrumentos de Medicion . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
38 38 38 38 38 39 39 39 39 39 43 44 44 44
6. Modelo de soluci´on 47 6.1. Modelo de soluci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7. Planificaci´on de la investigaci´on 7.1. Descripci´on de actividades - etapas 7.2. Recursos necesarios . . . . . . . . 7.3. Cronograma de trabajo . . . . . . 7.4. Presupuesto de la Investigacion . . 7.4.1. Fuentes de Financiamiento
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
49 49 49 50 50 50
8. Conclusiones 52 8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 8.2. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3
´ Indice de cuadros 5.1. Cuadro Resumen de la varibles del Modelo . . . . . . . . . . . . . . . . . . . . . 43 5.2. Tabla de Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4
´ Indice de figuras 1.1. Scoring de evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2. Scoring de Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3. Scoring de Cobranza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 ´ 2.1. Arbol de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10.
Estructura de la Red Neuronal Artificial . . . . . . Suma de Pesos . . . . . . . . . . . . . . . . . . . Funci´on de Activaci´on . . . . . . . . . . . . . . . Arquitectura de la Red . . . . . . . . . . . . . . . Redes FeedForward . . . . . . . . . . . . . . . . . Redes Recurrentes . . . . . . . . . . . . . . . . . EcuacionProgGenetica . . . . . . . . . . . . . . . Esquema de funcionamiento del algoritmo gen´etico Diagrama de flujo del procedimiento de chequeo . Diagrama de flujo del procedimiento . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
24 25 25 26 26 27 29 30 34 35
5.1. Esquema de Diseno del experimento . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2. Cuadro Diseno Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.1. Modelo Soluci´on.JPG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.1. Cronograma de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5
6
Cap´ıtulo 1 Introducci´on 1.1.
Introducci´on
Esta tesis tiene por finalidad brindar a las empresas financieras en especial a las PYMES Financieras un sistema de Scoring, es decir, una forma de asignarle determinada calificaci´on a los riesgos representados por clientes espec´ıficos, debido a que las empresas anteriormenete mencionadas presentan alto ´ındice de morosidad (tal y como lo demuestran los reportes de las cajas municipales de Ahorro y cr´edito y las cajas rurales)1 afectando tanto su rentabilidad como haciendo necesario la emisi´on de tasas de inter´es bastante altas para compensar el riesgo en el que incurren. Las ventajas que supone el emplear un mecanismo de escoring son, entre otras: Menor nivel de riesgo de la Entidad, mejores niveles de recaudo de Cartera y mejor utilizaci´on de los recursos, es decir, la aplicaci´on de Scoring en microfinanzas permite ante todo ser m´as rentables en los procesos2 . El tema de Credit Scoring ha sido altamente tratado en diversas instituciones a nivel mundial, y se han presentado m´etodos de optimizaci´on los cuales buscan mejorar su precisi´on (pues lo usual es usar, para efectos de c´alculo m´etodos estad´ısticos como curva de regresi´on lineal y curvas de regresi´on log´ıstica) usando t´ecnicas de inteligencia artificial, como es el caso de: Redes Neuronales de Retropopagaci´on, M´aquina vector-soporte, algor´ıtmos gen´eticos, etc.3 . El prop´osito de esta t´esis es seleccionar una o m´as de e´ stas t´ecnicas para desarrollar una herramienta que nos permita brindar a las PYMES financieras una herramienta de alta precisi´on para evaluar el riesgo crediticio asociado a sus clientes y, de esta manera, ayudarlas a realizar una mejor gesti´on crediticia. 1
En “Determinantes de la rentabilidad en las Cajas Rurales de Ahorro y Cr´edito”, se nos habla del caso concreto de los cr´editos agropecuarios los cuales presentaban en el a˜no 2003 un ´ındice de rentabilidad de -5.3 % adem´as el cr´edito comercial es el otro producto que registra p´erdidas para la CRAC (1.95 % de la cartera promedio), por los reducidos ingresos financieros generados y los altos costos de riesgo de estas colocaciones. 2 Tal y como nos lo indica el Ing. Javier Iba˜nez Flores del Instituto de Formaci´on Bancaria en su presentaci´on “Aplicaciones del Credit Scoring para Microfinanzas” 3 Todo lo anteriormente mencinado se abordar´a y sustentar´a en el cap´ıtulo 3, donde se presentar´a papers que hacen referencia ha estos temas
7
Nuestra tesis est´a divida en 9 cap´ıtulos y los temas a abordar en los mismos son los siguientes: En el cap´ıtulo 1 de este documento trataremos acerca de la introducci´on, justificaci´on y definici´on de los alcances de una propuesta de tesis. En el cap´ıtulo 2 de este documento se plantea la problem´atica que se desea abordar, se sigue un procedimiento - a´ rbol de problemas - para identificar el problema, luego se define el prop´osito principal del proyecto, los objetivos del proyecto y los objetivos espec´ıficos necesarios para resolver el problema identificado, estos puntos se presentan visualmente en el a´ rbol de objetivos. En el cap´ıtulo 3 se hace un breve revisi´on de la bibliograf´ıa, se hace una exposici´on de los conceptos necesarios para entender el tema abordado, se expone las t´ecnicas que utilizaron otros autores y la t´ecnica que se usar´a en este proyecto y finalmente se presenta breves res´umenes de cada uno de las investigaciones previas identificadas.
1.2.
Justificaci´on
Las Cajas Municipales de Ahorro y Cr´edito (CMAC) y las cajas Rurales siguen siendo una parte muy peque˜na del sistema financiero, alrededor 4,3 % de dep´ositos del sistema financiero y 6,4 % de los cr´editos, sin embargo, dentro de las Instituciones Microfinancieras No bancarias (IMFNB), son las m´as din´amicas en el otorgamiento de cr´editos y servicios financieros para los agentes econ´omicos que no son atendidos en el sistema financiero normal. Sin embargo, un problema que vienen enfrentando estas entidaddes financieras es la morosidad, la cual en el caso de las CMAC se situ´o en 5,1 % en el 2006. Cabe mencionar que la mejora de los indicadores de morosidad obedeci´o al mayor incremento relativo de los cr´editos directos respecto de la cartera atrasada.4 Por lo tanto, este ser´ıa la primera justificaci´on de la investigaci´on, dado que a pesar de ser e´ ste un sector con movimientos constantes el ´ındice de morosidad viene increment´andose continuamente y una de las razones es que estas empresas no est´an utilizando las ventajas que le supondr´ıan el contar con un mecanismo preciso de identificaci´on de riesgos. El escoring en Microfinanzas tiene los siguientes matices: Escoring de Seguimiento, de iniciacion y de cobranza. A continuaci´on presentamos la comparaci´on en cada uno de estos tipos de matices sin usar y usando scoring. En las figuras 1.1,1.2 y 1.3 se ven las ventajas y desventajas de cada uno de estos scoring. Otra Justificaci´on para realizar investigaci´on consiste en el realizar una mejora en los m´etodos de c´alculo que se utilizan para asignarle los scores a los clientes, que en la actualidad, en el Per´u, se realizan s´olo con t´ecnicas estad´ısticas y no hacen uso de las ventajas, en cuanto a precisi´on en 4
Este fragmento fue extra´ıdo de la publicaci´on “Las cajas municipales de ahorro y cr´edito” (Ramos [8])
8
Figura 1.1: Scoring de evaluacion el c´alculo, que nos presentan las t´ecnicas de inteligencia artificial 5 . Por u´ ltimo, est´a la motivaci´on de poner en pr´actica los conceptos de CRM, entendida como filosof´ıa de negocios, en los modelos de propensi´on y venta cruzada.
1.3.
Alcances y Limitaciones
Esta investigaci´on es v´alida para PYMES financieras peruanas, es decir, est´a supeditado a lo que son cajas municipales y rurales (Dado que el estudio se realizar´a en empresas de este tipo).
1.3.1.
Limitaciones de la Investigaci´on
Una de las limitaciones mayores que se presentan es que la informaci´on a la que se pretende acceder es de caracter sensible para las empresas financieras, por lo que los tr´amites para conse5
Lo del uso de t´ecnicas estad´ısticas para efecto de los c´alculos en la actualidad se afirma por lo expuesto en el curso “Gesti´on Crediticia” expuesta por el IFB
9
Figura 1.2: Scoring de Segmentacion guirla podr´ıan extender demasiado el tiempo de la investigaci´on.
10
Figura 1.3: Scoring de Cobranza
11
Cap´ıtulo 2 Formulaci´on del problema 2.1.
Descripci´on de la situaci´on problem´atica
Se estima que las microempresas en Per´u dan empleo a alrededor de seis millones de personas, o 75 % de la poblaci´on econ´omicamente activa, y que su participaci´on en el producto bruto interno (PBI) es aproximadamente de 30 % (Banco Interamericano de Desarrollo, 1996). Sin embargo, la capacidad del sector para desempe˜narse en forma efectiva ha sido limitada, principalmente por el escaso acceso a los servicios financieros. Esto u´ ltimo se explica porque en el sistema formal bancario no se cuenta con la capacidad institucional ni con las tecnolog´ıas crediticias apropiadas. Normalmente, la banca peruana se ha mostrado renuente a realizar operaciones con la microempresa, porque dichas actividades son percibidas como extremadamente riesgosas y de alto costo (Banco Interamericano de Desarrollo, 1996). En este contexto, en los u´ ltimos a˜nos, han aparecido las Cajas Municipales de Ahorro y Cr´edito1 (cajas municipales), que son instituciones financieras formales y reguladas sin fines de lucro, con personer´ıa jur´ıdica propia de derecho p´ublico y con autonom´ıa econ´omica, financiera y administrativa. El propietario legal es el Consejo provincial: la instancia administrativa de origen comunal existente en Per´u, estando su legislaci´on incorporada en la Ley de Bancos (Banco Interamericano de Desarrollo, 1996). Las doce cajas que conforman el sistema est´an distribuidas a nivel nacional y, en cierta forma, parecen haberse constituido en alternativas exitosas frente al sistema financiero formal, ya que su e´ nfasis est´a en el apoyo a la microempresa y a su desarrollo masivo, como una forma efectiva de contribuir a reducir los niveles de pobreza actualmente existentes (Tello, 1995). “Las cajas municipales se han desarrollado bajo el modelo de las cajas de Alemania, siguiendo una tecnolog´ıa financiera basada en dicho sistema, pero adaptada a la realidad peruana (Tello, 1995). Los principales elementos que las caracterizan se pueden resumir en: (i) gesti´on y vigilancia; de forma tal que las cajas municipales se encuentren dirigidas por una gerencia mancomunada; es decir, por dos gerentes; (ii) autonom´ıa; se trata de que la gesti´on administrativa y el desarrollo de mecanismos sean, en lo posible, independientes de la pol´ıtica partidaria, garantizando conti-
12
nuidad y maximizando la eficiencia y los resultados; (iii) fondo redistributivo; el cual sirve para canalizar los recursos externos y compensar la liquidez; (iv) capacitaci´on; que es permanente y parte integral del sistema de funcionamiento de las cajas; (v) tecnolog´ıa financiera; basada en un mecanismo de “reputaci´on” del cliente: un sistema de cr´edito individual, de peque˜nos pr´estamos iniciales y de plazos cortos per se, para progresivamente acceder a montos mayores. Probablemente, este es el coraz´on del sistema de las cajas municipales; (vi) an´alisis detallado; los clientes establecen una relaci´on individual y detallada con el personal de las cajas; (vii) tasas de inter´es; las cuales tienden a ser m´as elevadas con relaci´on al sistema financiero bancario comercial, pero relativamente bajas con respecto al costo de oportunidad (es decir, las tasas de usura) de los posibles clientes”[1]. La situacion en las Cajas Rurales es a´un menos favorable que la de las cajas municipales tal y como lo se˜nala Felipe Portocarrero [6]: “Aunque es necesario se˜nalar que la situaci´on de las CRAC presenta diferenciaciones individuales, en su conjunto, su situaci´on competitiva es desventajosa frente a las CMAC y a otras entidades microfinancieras como las Edpymes y Mibanco. Las CRAC tienen altos niveles de cartera pesada, limitados ingresos financieros,menor captaci´on de dep´ositos, mayores, gastos administrativos y reducida utilidad, a diferencia de las otras entidades, que tienen un portafolio de mejor calidad, ingresos financieros m´as elevados y una mayor base patrimonial, lo que les permite tener una mejor rentabilidad. Asegurar la viabilidad financiera de las CRAC a mediano plazo implica, de manera indispensable, lograr mejoras sostenibles ensu tecnolog´ıa crediticia y rentabilidad”. Es, en base a los criterios mencionados anteriormente, que las PYMES financieras (sean cajas rurales, municipales, etc.), presentan problemas en rentabilidad debido a las tasas de morosidad que se presentan, pues los sectores a los cuales realizan cr´editos (como los cr´editos agr´ıcolas y financieros)1 tienen riesgos muy altos y no parecen tener los mecanismos para asociarles riesgos a clientes y poder discriminar a aquellos que representan un riesgo demasiado alto.
2.2.
Descripci´on del problema
Para decidir si conceder o no productos financieros (ya sea prestamos, tarjetas de credito, etc.) a los clientes, las instituciones financieras consideran una serie de factores acerca del mismo. La cuesti´on de fondo es: ¿C´omo unimos estos factores, para que de manera objetiva, matem´atica y cient´ıfica (hasta donde sea posible) se pueda obtener una evaluaci´on de cr´edito adecuada? Las evaluaciones de cr´edito parten de analistas, que en la mayor´ıa de casos basan su labor en manuales de cr´edito en que indican las pol´ıticas de cr´edito de las respectivas instituciones, pero 1
En “Determinantes de la rentabilidad en las Cajas Rurales de Ahorro y Cr´edito”, se nos habla del caso concreto de los cr´editos agropecuarios los cuales presentaban en el a˜no 2003 un ´ındice de rentabilidad de -5.3 adem´as el cr´edito comercial es el otro producto que registra p´erdidas para la CRAC (1.95 de la cartera promedio)[8]
13
esto no siempre garantiza que los criterios se utilizar´an de manera uniforme en su estudio, y si la interpretaci´on que le dar´an los diferentes analistas ser´a la misma. De manera que para obviar este punto, en los comit´es de cr´edito, muchas veces hay que volver a estudiar el cr´edito, independientemente de la cuant´ıa [8]. Esto no representa problema cuando el volumen de cr´editos es bajo, pero ¿qu´e pasa si el volumen es alto?. Existe un volumen determinado de cr´editos que no merecen mayor estudio porque est´an muy por debajo de los requerimientos para otorgar un cr´edito, as´ı mismo existe otro volumen de personas sobre calificadas que no requieren mayor estudio. Pero existe una zona gris de cr´editos que requiere mayor concentraci´on, y de su adecuada colocaci´on depende, en u´ ltimas la gesti´on de colocaciones de la entidad financiera. ¿C´omo hacer para depurar la base, de manera que nos podamos enfocar en un estudio detallado de estos u´ ltimos?
2.3.
Objetivo de la Investigaci´on
2.3.1.
Objetivo superior
Desarrollar un modelo que ayude a eliminar las p´erdidas en instituciones financieras ocasionadas por la no cancelaci´on de las deudas, y que a su vez permita ubicar a los clientes en determinados segmentos.
2.3.2.
Objetivo principal
Brindar una herramienta que permita categorizar clientes en base a un conjunto de tipolog´ıas y/o propensi´on para hacer un adecuado manejo de los mismos, las ventajas que se derivan de esto son: Menor nivel de riesgo de la Entidad: clientes nuevos de menor riesgo, cobranza preventiva, menor deterioro de cartera. Mejores niveles de recaudo de Cartera: Gracias a mejores clientes nuevos, mejores estrategias de cobranza, mayor retenci´on de clientes. Mejor utilizaci´on de los recursos: Conocimiento de clientes facilita direcci´on a mercado objetivo, menores gastos de aprobaci´on (mayor agilidad y menos instancias), estrategias de cobranza m´as eficientes, estrategias de mercado efectiva a clientes potenciales.
2.3.3.
Objetivos espec´ıficos
Presentar un modelo que permita identificar a clientes que tengan la tipolog´ıa de clientes rentables, para acogerlos, o incentivarlo a que consuman, o en todo caso incrementen el consumo, de nuestras tarjetas de cr´edito. Que el modelo permita tambi´en identificar aquellos clientes que tienen la tipolog´ıa de clientes riesgosos para evitar cualquier tipo de fraude en el cr´edito asignado. 14
Que el sistema proceda a catalogar a clientes en base a los criterios fijados por la instituci´on financiera
2.4.
´ Arbol de problemas y objetivos
2.4.1.
´ Arbol de problemas
El a´ rbol que se muestra en la figura 2.1 muestra las causa por las cuales las entidades financieras no obtienen todas las utilidades que deber´ıan pues a pesar de querer enfocarse en retener a los clientes rentables y obtener clientes adicionales que quepan en esta categor´ıa no lo hacen, pues no cuentan con un sistema que les permita obtener una adecuada clasificaci´on de los mismos. El a´ rbol inicia con la realidad, en casi toda organizaci´on, de presencia de recursos escasos, por lo que no podemos tratar a todos los clientes por igual pues no ser´ıa ni rentable ni viable para la organizaci´on, por lo que la premisa a seguir es atender a todos bien pero engre´ır, deleitar, darle una atenci´on preferencial y personalizada a aquellos que son clientes m´as rentables o aquellos que en este momento pueden no ser rentables para la organizaci´on pero que son clientes rentables potenciales (esto a lo que me refiero cuando introduzco el t´ermino ”Necesidad de focalizar los recursos”). Esto nos al siguiente nodo del a´ rbol ”falta de metodolog´ıas y/o medios para clasificar los clientes”, pues los sistemas actuales te dan vista de los dep´ositos y de los gastos del cliente, te dan informaci´on demogr´afica del mismo, pero no los ordena en base a un patr´on, no obtiene tipolog´ıas del mismo y no podr´ıa considerar, en el caso de un nuevo cliente (al menos no de forma automatizada) si este encaja dentro de una tipolog´ıa determinada, por ejemplo, si puede ser cliente rentable, si puede ser cliente no rentable, si es un cliente rentable, etc. Esto debido a que la clasificaci´on pasa por alto muchos factores, resultado de esto pueden darse catalogaciones err´oneas de los clientes y hacer que los clientes de tipolog´ıa rentable, no se sientan identificado con nuestros servicios (sea por ejemplo una tarjeta de cr´edito, de d´ebito, etc.) y o mantengan su nivel de consumo o terminen abandonado nuestros servicios. Se presenta el caso tambi´en de que no tenemos una tipolog´ıa que nos permita identificar si un cliente es riesgoso o no, lo cual puede traernos problemas pues puede que prestemos a clientes que no tienen un adecuado h´abito de pago o al fraude, etc.
15
´ Figura 2.1: Arbol de problemas 16
Cap´ıtulo 3 Revisi´on de la bibliograf´ıa 3.1.
Introducci´on
Cuando un prestamista concede un cr´edito asume un riesgo que consiste en la probabilidad de que el prestatario incurra en un impago de la deuda ya sea total o parcial. Este hecho es el que nos conduce a preguntarnos c´omo podemos valorar este riesgo de impago para, de esta manera, conocido el valor del riesgo, poder establecer una cobertura del capital impl´ıcito en estas circunstancias. Podemos encontrarnos en dos situaciones que a nuestro entender deben ser diferenciadas: 1. Los Prestatarios son grandes empresas o instituciones y los prestamistas pueden ser grandes empresas o agentes econ´omicos individualizados (peque˜na y mediana empresa y consumidores). 2. Los Prestatarios son agentes econ´omicos individualizados y los prestamistas generalmente son entidades bancarias. En el primer caso las empresas o entidades con necesidad de liquidez emiten activos financieros y en esta emisi´on se comprometen a devolver el capital m´as intereses a quienes han adquirido estos activos. Estos prestamistas pueden incurrir en un riesgo de impago ya que dependen de la solvencia de la empresa emisora durante la vida del pr´estamo. Para estudiar la valoraci´on del riesgo de estas emisiones el primer paso es elaborar un rating1 de estas grandes empresas o instituciones, a´un sin la necesidad de que todas las empresas incluidas en el rating sean emisoras de deuda en ese momento.
17
Normalmente se utiliza el vocablo ingl´es rating en lugar de su vocablo castellano clasificaci´on puesto que las primeras empresas que decidieron realizar una clasificaci´on de entidades financieras fueron empresas estadounidenses, y por lo tanto utilizaban el t´ermino rating que despu´es se fue incorporando en las empresas europeas y del resto del mundo. La raz´on por la que surgen las empresas de clasificaci´on la encontramos en la emisi´on de bonos que realizaron las empresas de ferrocarriles en Estados Unidos para financiar su proyecto [2]. En ese momento las empresas de clasificaci´on se dedican a estudiar la mayor o menor solvencia de las diferentes empresas ferroviarias para ver si estas ser´ıan capaces o no de responder despu´es de su deuda. Como dec´ıamos al inicio de esta secci´on nos podemos encontrar con un segundo caso donde los prestamistas son entidades bancarias y los prestatarios son normalmente peque˜nas y medianas empresas y consumidores. Aqu´ı, las entidades bancarias tambi´en confeccionan una clasificaci´on para determinar el valor del riesgo en el que incurren cuando conceden un cr´edito. La clasificaci´on elaborada por las entidades bancarias se denomina Credit Scoring. Un Credit Scoring es un m´etodo estad´ıstico usado para predecir la probabilidad de impago de un pr´estamo. Utilizando datos hist´oricos y t´ecnicas estad´ısticas, el credit scoring trata de aislar los efectos de varias caracter´ısticas de clientes en el impago de los cr´editos. El m´etodo produce una “calificaci´on” que el banco puede utilizar para clasificar un pr´estamo en t´erminos de riesgo. En la actualidad, el e´ nfasis en la elaboraci´on de un credit scoring radica en el cambio de objetivos para tratar de minimizar el riesgo de impago de un cliente en un producto en particular y al mismo tiempo buscar para la entidad bancaria el m´aximo beneficio que puede conseguir con este cliente. Como ya hemos indicado un credit scoring es un m´etodo de evaluaci´on del riesgo cuando se solicita un pr´estamo. Para construir un modelo de medici´on se tienen que analizar los datos hist´oricos correspondientes a las caracter´ısticas de los clientes a los que se les concedi´o un pr´estamo y determinar las que se utilizan para indicar que el pr´estamo fue bien concedido. Un modelo de credit scoring bien construido deber´ıa dar un alto porcentaje de altas calificaciones para los clientes que pagaron su pr´estamo y un alto porcentaje de bajas calificaciones para los clientes que no pagaron su pr´estamo o viceversa.
18
Pero el modelo as´ı planteado no es perfecto, y algunos malos clientes reciben calificaciones tan altas (bajas) como los buenos clientes. Los datos que se suelen tener en cuenta, seg´un Lopez [2] son: 1. Renta mensual 2. Deudas 3. Activos financieros 4. Tiempo de permanencia en el trabajo 5. Comportamiento de pago o impago en otros pr´estamos 6. Cuant´ıa destinada al pago de vivienda (alquiler o hipoteca) y son estos datos con los que el banco puede proceder a dar una calificaci´on a su cliente. Nuestro trabajo estar´a enfocado hacia la creaci´on de Credit Scoring para entidades bancarias, muy en especial en cuanto a las PYMES Financieras, Cajas Rurales de Ahorro y Cr´edito y Cajas Municipales. La aplicaci´on de an´alisis discriminante a todas las variables que hemos indicado anteriormente como importantes en la elaboraci´on de estos modelos nos permite decidir que combinaci´on de estos factores o datos es la mejor para predecir el impago del pr´estamo y cu´al es el peso que tiene cada caracter´ıstica en el impago del cr´edito. En la mayor´ıa de los sistemas de calificaci´on (no en todos), una alta calificaci´on indica poco riesgo, y por lo tanto habr´a una calificaci´on de corte que determina un conjunto de clientes a los que se conceder´a el cr´edito porque el riesgo de la concesi´on es menor. Aplicando estrictamente el modelo pertinente, el banco deber´ıa aprobar aquellos pr´estamos cuya calificaci´on quedara por encima de la calificaci´on de corte y denegar aquellos que quedaran por debajo de la misma. Habr´ıa que estudiar con detenimiento aquellos que no superan o no alcanzan la nota de corte de forma holgada. Incluso un buen sistema de credit scoring no predice con total certidumbre lo que va a ocurrir con cualquier pr´estamo individual, pero s´ı proporciona una predicci´on bastante precisa de la probabilidad de que la concesi´on de un cr´edito bajo unas caracter´ısticas pueda resultar impagado. Para construir un buen modelo de credit scoring se necesitan suficientes datos hist´oricos, que reflejen el desarrollo de los cr´editos tanto en periodos en los que las condiciones econ´omicas han 19
sido buenas como en los periodos en los cuales las condiciones econ´omicas han sido malas. Tambi´en se emplean m´etodos no estad´ısticos en la construcci´on de credit scoring, entre los que destacamos las redes neuronales. Los m´etodos no estad´ısticos son menos exigentes con las caracter´ısticas que deben cumplir las variables del modelo que los m´etodos estad´ısticos, por lo tanto, tienen el potencial para ser utilizados en el desarrollo de modelos que son m´as heterog´eneos como pr´estamos a empresas. Las redes neuronales son algoritmos de inteligencia artificial que permiten desde el aprendizaje a trav´es de la experiencia discernir la relaci´on entre las caracter´ısticas del cliente y la probabilidad de impago y determinar qu´e caracter´ısticas son m´as importantes en la predicci´on del impago.
3.2.
Valoraci´on de Riesgo Crediticio y Credit scoring.
Este apartado corresponde a la definici´on de los conceptos de riesgo crediticio, de como se valora y la definicion y detalle del Credit Scoring
3.2.1.
Valoraci´on del riesgo crediticio
El riesgo de cr´edito es uno de los elementos m´as importantes a considerar por los o´ rganos gobernativos de una cooperativa de Ahorro y cr´edito. Este riesgo es inherente a la actividad de las CAC, y por lo tanto el objetivo permanente deber ser disminuir su impacto en los estados financieros. Pero para disminuir tal impacto debemos, antes de todo, cuantificar el nivel de riesgo al que esta sometida la CAC. Es decir debemos valorar nuestro riesgo crediticio. A partir de los conceptos difundidos por el acuerdo de Basilea en 1988, espec´ıficamente sobre adecuaci´on de capital a riesgo, han surgido en el mundo una serie de modelos estad´ısticos y matem´aticos que pueden constituirse en herramientas para que los entes de cr´edito aprendan a valorar el riesgo. Para que la CAC escoja un modelo espec´ıfico debe, antes que todo, conocer los conceptos b´asicos sobre los que operan. Para hablar de valoraci´on en riesgo de cr´edito, vamos a definir riesgo crediticio como: La probabilidad que un deudor falle en los compromisos adquiridos con la CAC. Como se sabe el cr´edito no es otra cosa que un contrato en el que la parte deudora se obliga con la CAC, para cancelar la deuda pendiente, a pagar unas cuotas de dinero en unos plazos espec´ıficos. Cualquier incumplimiento en los dos componentes b´asicos (plazo y monto) del compromiso se considera un fallo. Pero este fallo no implica p´erdida autom´atica para la CAC, pues cuando este ocurre la CAC activa una serie de mecanismos de defensa, tendientes a evitar que el fallo se traduzca en p´erdida.
20
Frente a un fallo en el plazo, el mecanismo m´as usado es el cobro de intereses de mora, que te´oricamente, debe resarcir a la CAC, de las eventuales p´erdidas que la mora le ocasiono por el descase en el flujo de caja de la cooperativa, por el cual asumimos que tuvo que utilizar pasivos m´as costosos.
3.2.2.
Elementos claves de la evaluaci´on de cr´edito
La cuesti´on de fondo es: ¿C´omo unimos estos factores, para que de manera objetiva, matem´atica y cient´ıfica (hasta donde es posible) se pueda obtener una evaluaci´on de cr´edito adecuada? Las evaluaciones de cr´edito parten de analistas, que en la mayor´ıa de casos basan su labor en manuales de cr´edito en que indican las pol´ıticas de cr´edito de las CAC, pero esto no siempre garantiza que los criterios se utilizar´an de manera uniforme en su estudio, y si la interpretaci´on que le dar´an los diferentes analistas ser´a la misma. De manera que para obviar este punto, en los comit´es de cr´edito, muchas veces hay que volver a estudiar el cr´edito, independientemente de la cuant´ıa. Esto no representa problema cuando el volumen de cr´editos es bajo, pero ¿qu´e pasa si el volumen es alto?. Existe un volumen determinado de cr´editos que no merecen mayor estudio porque est´an muy por debajo de los requerimientos para otorgar un cr´edito, as´ı mismo existe otro volumen de personas sobre calificadas que no requieren mayor estudio. Pero existe una zona gris de cr´editos que requiere mayor concentraci´on, y de su adecuada colocaci´on depende, en u´ ltimas la gesti´on de colocaciones de la cooperativa. ¿C´omo hacer para depurar la base, de manera que nos podamos enfocar en un estudio detallado de estos u´ ltimos? Reacomodando a nuestros intereses los criterios de Basilea II, como lo mencionamos atr´as, el estudio del cr´edito y del cliente, no es una labor que se deba hacer una sola vez, sino que debemos encontrar m´etodos de calificaci´on del riesgo de incumplimiento en nuestra cartera, los cuales no se deben ajustar solo al establecimiento de provisiones por mora o certeza de incumplimiento, (p´erdida esperada) sino que debemos avanzar en el establecimiento de m´etodos, que nos permitan medir los incumplimientos basados en modelos estad´ısticos que partiendo una calificaci´on de nuestro cliente actual nos permita estimar p´erdidas futuras (p´erdidas estimadas). El documento que activa todo el proceso crediticio, y por tanto del que depende un bajo riesgo crediticio para las CAC es la solicitud de cr´edito. De ah´ı la importancia de estudiar al detalle su formato, la informaci´on que se exige, y los documentos soporte requeridos. Las solicitudes de cr´edito pueden adolecer de dos fallas:
1. Exceso de informaci´on: Muchas veces las CAC desarrollan modelos de solicitud o aplicaci´on de cr´editos en las que se pide informaci´on que es in´util o irrelevante para el analista, y no sirve a los prop´ositos jur´ıdicos de adecuada identificaci´on del cliente o sus activos. Estas solicitudes alejan a los clientes, que por f´ısico aburrimiento prefieren buscar otra instituci´on. 21
2. Falta de informaci´on: Sucede muchas veces que por simplificar procesos, o atraer clientes, las solicitudes son recortadas, al punto de perder informaci´on valiosa para el analista de cr´edito. Existen solicitudes que presentan ambas fallas, por un lado exceso de informaci´on, y por otro falta de informaci´on vital. Se requiere que los modelos de solicitud de cr´edito sean revisados peri´odicamente para establecer su utilidad, por parte del equipo de cr´edito. As´ı si otro departamento requiere de informaci´on (Por ejemplo cobranzas o mercadeo), esa informaci´on deber´a ser migrada a bases de datos diferentes, dejando en las bases de cr´editos la informaci´on indispensable. Para minimizar el riesgo las CAC deben fijar en sus manuales limites a la exposici´on en riesgo por Concentraci´on en empresas: No prestar m´as de determinado porcentaje del patrimonio o del capital. As´ı como l´ımites en la aprobaci´on de cr´editos por gerente, comit´e de cr´edito, Junta Directiva. Adicionalmente se impone un estudio permanente por parte del a´ rea de cr´editos de la situaci´on macroecon´omica del pa´ıs, y de los sectores objetivo de cr´edito de las CAC, y con base ese estudio limitar montos de cr´edito por sector. Una pol´ıtica de diversificaci´on y segmentaci´on de cr´editos por sectores. El crecimiento de la cartera debe ser cauteloso, y debe estar en relaci´on con la situaci´on de la econom´ıa.
3.2.3.
Credit Scoring
A partir del peso que daremos en nuestras evaluaciones de cr´editos a los factores anteriormente mencionados: Capacidad de pago, moralidad comercial y solvencia - garant´ıas; Y considerando los elementos claves en un estudio de cr´edito: solicitud, manuales, y estudio del ambiente econ´omico. Podemos adentrarnos en un m´etodo que en la actualidad usa la Banca, y que ha demostrado alta eficiencia. El m´etodo consiste en un sistema de puntajes, en el que se califique en una escala definida la informaci´on obtenida. Este sistema para evaluaci´on de cr´editos lo llamaremos de puntaje o credit scoring. El puntaje unido al an´alisis de situaci´on del cliente nos permitir´a asignar Cupos de Cr´edito, los que dejaremos a disposici´on del cliente para utilizar en diferentes productos. Los cupos asignados deben ser estudiados en per´ıodos de tiempo definido (por ejemplo un a˜no). El credit scoring es una herramienta dise˜nada en EE.UU, y sobre el que se han desarrollado gran cantidad de modelos con distintos objetivos. Sin embargo existen dos modelos de credit sco-
22
ring que de deben considerar las cooperativas de ahorro y cr´edito:
1. El credit scoring de aplicaci´on: mediante el cual, y a trav´es de un software, la cooperativa califica por puntos las solicitudes de cr´edito asign´andole mayores porcentajes a los factores que considera m´as importantes. As´ı el software califica la solicitud de cr´edito, y ubica la calificaci´on en una escala predeterminada, en la que se ha definido unos valores m´ınimos aceptables de aprobaci´on del cr´edito, y si el cr´edito calificado no obtiene tal puntaje es rechazado, (por ejemplo s´ı se determin´o que la escala es de uno a diez y la calificaci´on m´ınima es de 3.5, todo cr´edito con una calificaci´on inferior ser´a rechazado). Los cr´editos ubicados en escalas superiores son pre-aprobados. 2. El credit scoring de comportamiento: se hace un seguimiento del cliente de manera peri´odica, mediante la actualizaci´on de datos, que son incluidos dentro del software para que este califique al cliente, y a trav´es de esta calificaci´on, determine s´ı existe riesgo de p´erdida de la cartera colocada al mismo. Este u´ ltimo modelo es el que las CAC podr´ıan asimilar a los IBR de Basilea II, para efectos de determinar las p´erdidas estimadas, basadas en la calificaci´on de clientes. El credit scoring requiere de dos elementos fundamentales: 1. Informaci´on hist´orica: La cual posee, como lo mencionamos anteriormente, la mayor´ıa de las CAC. 2. An´alisis estad´ıstico: Esta labor la realizan, normalmente, consultores externos a la CAC, con conocimientos profundos en estad´ıstica y matem´aticas, cuya labor principal ser´a la de tomar la informaci´on hist´orica, para que correlacionada mediante algoritmos, identifiquen comportamientos de los clientes, y con base en estos resultados puedan determinar probabilidades de ocurrencia de hechos futuros.
3.2.4.
Ventajas del credit scoring para las Pymes Financieras:
Las ventajas de Aplicar un credit scoring a las Pymes Financieras ser´ıan las siguientes: Elimina la subjetividad en los an´alisis crediticios, principalmente, de cr´editos personales. Facilita la evaluaci´on de cr´edito al procesar m´as r´apidamente solicitudes descartando las que no cumplen requisitos m´ınimos Permite el ordenamiento y la utilizaci´on de informaci´on hist´orica que es muy valiosa para la Pymes Financieras, pero que muchas veces no sabe utilizar.
23
3.3.
Revisi´on de algunos M´etodos no estad´ısticos aplicados en la construcci´on de Credit Scoring
A continuaci´on se presentan algunos de los m´etodos no estad´ısticos aplicados para la construcci´on de modelos de credit scoring 1
3.3.1.
Redes Neuronales
Una red neuronal artificial (RNA) es un modelo computacional inspirado en redes neuronales biol´ogicas que puede ser consideradas como un sistema de procesamiento de informaci´on con caracter´ısticas como aprendizaje a trav´es de ejemplos adaptabilidad, robustez, capacidad de generalizaci´on y tolerancia a fallas[12]. La RNA puede ser definida como una estructura distribuida, de procesamiento paralelo, formada de neuronas artificiales (llamados tambi´en elementos de procesamiento), interconectados por un gran numero de conexiones (sinapsis), los cuales son usados para almacenar conocimiento que esta disponible para poder ser usado.
Estructura de la Neurona Artificial Una neurona artificial es una unidad de procesamiento de informaci´on de redes neuronales. El modelo de neurona mas conocido es de McCulloch-Pitts.
Figura 3.1: Estructura de la Red Neuronal Artificial 1
No presentamos los m´etodos estad´ısticos porque de estos m´etodos se tienen m´as conocimiento y han sido tocados en innumerables publicaciones
24
Puede observarse que N se˜nales de entrada son representadas por las variables x1 , x2 ...xN las cuales est´an asociadas a pesos que son representados por las variables wji los cuales determinan el nivel de influencia de la neurona j para la neurona i. Existen dos esta de procesamiento para cada neurona: suma y activaci´on. En la primera etapa, las se˜nales de entrada xj y los pesos wji son combinadas por el sumatoria:
Figura 3.2: Suma de Pesos Donde yi es llamado de estado interno de la neurona i . En la segunda etapa, la salida de la neurona es generada a trav´es de la aplicaci´on de una funci´on llamada funci´on de activaci´on. xi = f (yi )
(3.1)
donde la salida de la neurona es representado por xi y f corresponde a la funci´on de activaci´on aplicada al estado interno de la neurona, que tiene como objetivo limitar el nivel de activaci´on de entre [-1 ,1] o [0 1], en el caso de xi sea un valor continuo y si xi es discreto entonces el puede ser : {-1,1} o {0,1}
Figura 3.3: Funci´on de Activaci´on Existen varios tipos de funci´on de activaci´on. La figura muestra dos funciones de activaci´on m´as usadas: la funci´on de grado y la tangente hiperb´olica. Como se vio en la primera figura la salida de una neurona puede ser la entrada de otra. Generalmente, una red neuronal se forma por muchas neuronas de alguna forma acoplados.
25
Arquitectura de Red La definici´on de arquitectura es un punto importante en el modelaje de una red neuronal, por que ella restringe un tipo de problema que puede ser tratado. Por ejemplo las redes de una capa. Una red tambi´en puede estar formada por m´ultiples capas, las que pueden ser clasificadas en tres grupos: capa de entrada, capas intermediarias u ocultas y capas de salida
Figura 3.4: Arquitectura de la Red Basado en flujo de las se˜nales, las redes neuronales tambi´en pueden ser clasificadas en dos tipos: FeedForward y redes Recurrentes. 1. Redes FeedForward Como podemos ver la estructura de una red FeedForward consiste en capas de neuronas donde la salida de una neurona de una capa, alimenta todas las neuronas de la capa siguiente. El aspecto fundamental de esta estructura es que no existen las uniones de retroalimentaci´on. La red MuitiLayer Perceptron (MLP) de un tipo de red feedforward (D. Rumelhart, 1986).
Figura 3.5: Redes FeedForward 2. Redes Recurrentes Redes recurrentes son aquellas que poseen conexiones de realimentaci´on, como es visto en la figura, las cuales proporcionan un comportamiento din´amico. El modelo de Hopfield es un ejemplo de red neuronal recorrente y ser´a presentado m´as adelante. 26
Figura 3.6: Redes Recurrentes En general los siguientes par´ametros son importantes para definir la arquitectura de una red neural: n´umero de capas, n´umero de neuronas en cada capa y tipo de conexi´on entre dos neuronas, que definen la red de feedforward o Recorrentes.
Algoritmos de Aprendizaje de un RNA Una propiedad importante de las redes neuronales es la habilidad de aprender a partir de su ambiente. Eso es realizado a trav´es de un proceso interactivo de ajustes aplicado a sus pesos de conexi´on entre dos neuronas, denominados entrenamiento. Existen muchos algoritmos de aprendizaje. Cada uno sirve para determinar redes neuronales. Entre los principales se tienen: 1. Aprendizaje por Correcci´on de Error: Algoritmo muy conocido basado en la regla Delta, que busca minimizar la funci´on de error usando un gradiente descendente. Este es el principio usado no algoritmo BackPropagation, muy utilizado para el entrenamiento de redes de multiples capas como la Multilayer-Perceptron (MPL)(James A. Freeman, 1991); 2. Aprendizaje Competitivo: La cual dos neuronas de una capa compiten entre si por el privilegio de permanecer activos, tal que una neurona con mayor actividad ser´a el u´ nico que participar´a del proceso de aprendizaje. Es usado en mapas de Kohonen (Kohonen, 1988) y en redes ART (Gail A. Carpenter, 1992); 3. Aprendizaje Hebbiano: Son dos neuronas que est´an simult´aneamente activos a conexiones entre ellos que debe ser fortalecida caso contrario ser´a debilitada (Hebb,1949) utilizada en el Modelo de Hopfield (Hopfield, 1982); 4. Aprendizaje de Boltzmann Es una regla de aprendizaje estoc´astico obtenido a partir de principios de te´orico de informaci´on y de termodin´amica. El objetivo de aprendizaje de Boltzmann es ajustar los pasos de conexi´on de tal forma que el estado de las unidades visibles satisfaga una distribuci´on de probabilidades deseada en particular (D. Ackley, 1985); Otro factor importante es la manera por la cual una red neuronal se relaciona con el ambiente . A partir de ese concepto existen los siguientes paradigmas de aprendizaje: 1. Aprendizaje Supervisado: Se utiliza un agente externo que indica a la red la respuesta deseada para el patr´on de entrada; 27
2. Refuerzo: Es una variante de aprendizaje supervisado a la cual se informa a la red solamente una critica de correcci´on de salida de red y no la respuesta correcta en si; 3. Aprendizaje No Supervisado (auto-organizaci´on): No existe un agente externo indicando la respuesta deseada para los patrones de entrada. Este tipo de aprendizaje es utilizado en los modelos de Mapas de Kohonen (Kohonen, 1988), redes ART1, ART2 (Gail A. Carpenter, 1992) (G. Carpenter, 1987).
3.3.2.
Algoritmos Gen´eticos
Esta t´ecnica se basa en los mecanismos de selecci´on que utiliza la naturaleza, de acuerdo a los cuales los individuos m´as aptos de una poblaci´on son los que sobreviven, al adaptarse m´as f´acilmente a los cambios que se producen en su entorno. Hoy en d´ıa se sabe que estoscambios se efect´uan en los genes de un individuo, y que los atributos que les permite adaptarse mejor a su entorno se trasmiten a sus descendientes cuando e´ ste se reproduce. Un investigador de la Universidad de Michigan llamado John Holland era consciente de la selecci´on natural, y a fines de los a˜nos sesenta desarroll´o una t´ecnica que permiti´o incorporarla a un programa. Su objetivo era lograr que las computadoras aprendieran por s´ı mismas. A la t´ecnica que invent´o Holland se le llam´o originalmente planes reproductivos, pero se hizo popular bajo el nombre algoritmo gen´etico tras la publicaci´on de su libro en 1975. Los algoritmos gen´eticos son m´etodos adaptativos que pueden usarse para resolver problemas de b´usqueda y optimizaci´on. Est´an basados en el proceso gen´etico de los organismos vivos. A lo largo de las generaciones, las poblaciones evolucionan en la naturaleza de acorde con los principios de la selecci´on natural y la supervivencia de los m´as fuertes, postuladospor Darwin. Por imitaci´on de este proceso, los algoritmos gen´eticos son capaces de ir creando soluciones para problemas del mundo real. La evoluci´on de dichas soluciones hacia valores o´ ptimos del problema depende en buena medida de una adecuada codificaci´on de las mismas. Un algoritmo gen´etico consiste en una funci´on matem´atica o una rutina de software que toma como entradas a los ejemplares y retorna como salidas cuales de ellos deben generar descendencia para la nueva generaci´on. En la naturaleza los individuos de una poblaci´on compiten entre s´ı en la b´usqueda de recursos tales como comida, agua y refugio. Incluso los miembros de una misma especie compiten a menudo en la b´usqueda de un compa˜nero. Aquellos individuos que tienen m´as e´ xito en sobrevivir y en atraer compa˜neros tienen mayor probabilidad de generar un gran n´umero de descendientes. Esto significa que los genes de los individuos mejor adaptados se propagar´an en sucesivas generaciones hacia un n´umero de individuos creciente. La combinaci´on de buenas caracter´ısticas provenientes de diferentes ancestros, puede a veces producir descendientes “superindividuos”, cuya adaptaci´on es mucho mayor que la de cualquiera de sus ancestros. De esta manera, las especies evolucionan
28
logrando unas caracter´ısticas cada vez mejor adaptadas al entorno en el que viven. Los algoritmos gen´eticos usan una analog´ıa directa con el comportamiento natural. Trabajan con una poblaci´on de individuos, cada uno de los cuales representa una soluci´on factible a un problema dado. A cada individuo se le asigna un valor o puntuaci´on, relacionado con la bondad de dicha soluci´on. En la naturaleza esto equivaldr´ıa al grado de efectividad de un organismo para competir por unos determinados recursos. Cuanto mayor sea la adaptaci´on de un individuo al problema, mayor ser´a la probabilidad de que el mismo sea seleccionado para reproducirse, cruzando su material gen´etico con otro individuo seleccionado de igual forma. Este cruce producir´a nuevos individuos, descendientes de los anteriores, los cuales comparten algunas de las caracter´ısticas de sus padres. Cuanto menor sea la adaptaci´on de unindividuo, menor ser´a la probabilidad de que dicho individuo sea seleccionado para la reproducci´on, y por tanto, de que su material gen´etico se propague en sucesivas generaciones. De esta manera se produce una nueva poblaci´on de posibles soluciones, la cual reemplaza a la anterior y verifica la interesante propiedad de que contiene una mayor proporci´on de buenas caracter´ısticas en comparaci´on con la poblaci´on anterior. As´ı, a lo largo de las generaciones, las buenas caracter´ısticas se propagan a trav´es de la poblaci´on. Favoreciendo el cruce de los individuos mejor adaptados, van siendo exploradas las a´ reas m´as prometedoras del espacio de b´usqueda. Si el algoritmo gen´etico ha sido bien dise˜nado, la poblaci´on converger´a hacia una soluci´on o´ ptima del problema. El algoritmo gen´etico simple Un algoritmo gen´etico (AG) es un proceso de b´usqueda sistem´atica a partir de una poblaci´on de soluciones potenciales de un problema, as´ı las soluciones candidatas que est´en m´as pr´oximas a la soluci´on del problema tienen una mayor oportunidad de llegar a ser la soluci´on candidata que otras. Dicho lo anterior, se necesita una codificaci´on o representaci´on del problema, que resulte adecuada al mismo. Adem´as se requiere una funci´on de ajuste o adaptaci´on al problema, la cual asigna un n´umero real a cada posible soluci´on codificada La ecuaci´on es un ejemplo de una funci´on de scoring que ha sido utilizada en la literatura
Figura 3.7: EcuacionProgGenetica Suponemos que queremos calcular los par´ametros a1 , a2 ...ap , b1 , b2 ...bp y c en la siguiente ecuaci´on de credit scoring para clasificar la asignaci´on de un pr´estamo, donde xi1 , xi2 ...xip son los valores de las caracter´ısticas de la aplicaci´on i.
29
Cuando los par´ametros son estimados, entonces se puede clasificar una aplicaci´on como buena o mala si el valor de f (xi ) es mayor o menor que cero. El procedimiento seguido en un Algoritmo Gen´etico se muestra en la Figura siguiente:
Figura 3.8: Esquema de funcionamiento del algoritmo gen´etico Durante la ejecuci´on del algoritmo, los padres deben ser seleccionados para la reproducci´on, a continuaci´on dichos padres seleccionados se cruzar´an generando dos hijos, sobre cada uno de los cuales actuar´a un operador de mutaci´on. El resultado de la combinaci´on de las anteriores funciones ser´a un conjunto de individuos (posibles soluciones del problema), los cuales en la evoluci´on del algoritmo gen´etico formar´an parte de la siguiente poblaci´on.
30
3.3.3.
Investigaciones previas que han utilizado m´etodos no estad´ısticos para construir modelos de Scoring
A continuacinuaci´on se exponen estudios en los que se han utilizados los m´etodos mencionados y algunos otros para la creaci´on de credit Scoring: A comparison Study of Credit Scoring Models Este documente considerar un modelo de clasificaci´on o asignaci´on de puntajes para credito [12]. Se compara 3 poderosos modelos de clasificacion: Programaci´on Gen´etica (GP), Redes neuronales de retropropagaci´on.(BP), maquinas de soporte a vectores (SVM) usando un modelo combinado de ambas, estas t´ecnicas son aplicadas a un modelo de scoring bastante simplificado (pues no se busca ahondar en los modelos, sino compararlos en un ambiente no tan complicado,la idea es que sirva como punto de partida para otras investigaciones) para medir su eficiencia tanto individual como agrupadas. Al inicio de la lectura, nos habla de 2 modelos bastante usados para los que es clasificaci´on, puntaje o propensi´on(en realidad est´as son traducciones libres de la palabra Scoring), los modelos tradicionales, basados en m´etodos estad´ısticos cl´asicos y los modelos de miner´ıa modernos basados en t´ecnicas de Inteligencia artificial. Explican el porqu´e fijarse m´as que nada en los u´ ltimos, dado que los primeros han fallado en cubrir las necesidades presentes en el mercado, y nos nombra algunas de las mas populares t´ecnicas modernas: redes neuronales, programaci´on gen´etica,y vectores de soporte a decisiones. Ahora, para el caso del modelo el describe la funci´on que describe el conjunto de datos de un cliente como: S = (x1 , y1 )...(xi , yi )...(xn , yn )
(3.2)
Donde: xi contiene los m atributos o datos: (xj1 , yj1 )(xj2 , yj2 )...(xjm , yjm ) , y yi denota el tipo de cliente, por ejemplo bueno o malo. La tarea de la clasificaci´on es justamente construir un modelo de tal que para el nuevo x, podamos predecir y: y = f (x)
(3.3)
Ellos proponen como ´ındice de medici´on para la prueba: #clientescorrectamenteclasif icados ∗ 100 % (3.4) #clientestotales Al final de la prueba se concluye que los 3 modelos arrojan buenas clasificaciones para el caso del problema, pero que mejor clasificaci´on o m´as certera se consigue cuando hacen uso del modelo combinado que ellos han construido. P recision =
31
Credit Scoring using Least Squares Support Vector Machine base on data of Thai Financial Institution Este paper [11] nos habla, primero, de la necesidad que tienen las entidades financieras por clasificar a los clientes en base a diferentes grupos de riesgos , y nos dice que para este caso se han desarrollado innumerables t´ecnicas de clasificaci´on. Nos habla del e´ xito que tienen actualmente, para este prop´osito, las t´ecnicas de Support Vector Machine (SVM) y de la popularidad que e´ sta ha alcanzado, y de paso nos presenta la t´ecnica Least Squares Suport Vector Machine (LS-SVM), las cuales son una reformulaci´on de las anteriores la ventaja es que es menos costoso que el anterior dado que es su costo es regulado por la funci´on de m´ınimos cuadrados y las restricciones de igualdad y no de desigualdad como en el caso anterior. Otro punto a tener en cuenta es que con el LS-SVM no tendr´ıamos que resolver conjuntos de sistemas lineales y no el caso de la programaci´on cuadr´atica como es el caso de la anterior. La idea es aplicar esta t´ecnica en entidades financieras en Tailandia. Para el caso de hacer clasificaciones necesitamos tanto data de entrenamiento como data de prueba , los cuales son algunas muestra de la data total. Para el caso de la data de entrenamiento, cada conjunto de ellas contienen un valor objetivo a lo que llamaremos marcas de clase y tambi´en poseen ciertos atributos a los que llamaremos caracter´ısticas. Sin embargo en la data de prueba nosotros s´olo contamos con atributos y tenemos que producir un modelo o´ ptimo el cual es capaz de producir le con bastante precisi´on el valor esperado. Al final del experimento lograron producir un modelo, el cual a su criterio es computacionalmente simple pero no por eso deja de ser un poderoso clasificador no lineal para predecir data financiera en Tailandia, y agrupa a los clientes en base, claro, a los criterios establecidos por la instituci´on: buenos clientes, clientes regulares, clientes con tendencia a malos y demasiado malos. Al final, tambi´en, los autores llegaron a la conclusi´on de que los resultados fueron satisfactorios, pero que la precisi´on lograda se podr´ıa mejorar con una mayor cantidad de data de entrenamiento.
3.4.
Antecedentes de la investigaciones
En esta secci´on se muestran aquellas investigaciones de otros autores que han creado modelos de credit scoring y se describe brevemente las t´ecnicas que utilizaron
32
Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acquisition, performance and risk events defined by the bank using a decision tree and stochastic process Este art´ıculo [5] nos habla de un sistema para clasificar los clientes de un entidad bancaria en base a ciertas caracter´ısticas y en base a ello pronosticar su comportamiento financiero, para ello se hace a la revisi´on de sus cuentas de deposito directo (chequeo de sus cuentas), para hacerlo sujeto de promociones, ofrecerle condiciones para sus tarjetas de cr´edito o de d´ebito o en todo caso catalogarlo como sujeto de riesgo un cliente con peligro de fraude para la instituci´on. B´asicamente se hace la clasificaci´on teniendo como referencia a los grupos de clientes m´as deseados y a los menos deseados (los cuales nos sirven como extremos), y ubicando las categor´ıas respectivas entre estos 2 extremos, esto con el fin de dirigir y canalizar los esfuerzos dependiendo del grupo de inter´es al que pertenezcan. Este m´etodo, entonces, nos da la facilidad de catalogar clientes en base al comportamiento de sus cuentas de dep´osito directo que est´a almacenado en los archivos de informaci´on del cliente del banco respectivo y logra agrupar a los cliente que cumplen determinado patr´on en base a criterios comunes como el poder adquisitivo, rendimiento y criterios de riesgo y par´ametros definidos por el banco. El m´etodo procesa todos los datos requeridos por el usuario y hace uso del m´etodo de a´ rboles de decisi´on para asignarles peso y par´ametros y luego agruparlos en segmentos, luego haciendo uso de t´ecnicas estoc´asticas (m´etodos estad´ısticos) -las cuales comprenden: Regresi´on lineal, modelo de regresi´on log´ıstica, modelo de detecci´on de interacci´on autom´atica, de la regla shi-cuadrado, a´ rboles de clasificaci´on y regresi´on, del modelo de reglas de inducci´on y el uso del modelo de redes neuronales- presenta un reporte que muestra los segmentos en los cuales ubic´o a los clientes en base a sus caracter´ısticas, su posibilidad de respuesta a determinadas promociones o acciones y el retorno sobre la inversi´on que resulta de los criterios establecidos y definidos por la entidad financiera.
Systems and methods for decisioning or approving a financial credit account based on a customer’s check-writing behaviour Esta invenci´on [10] presenta un m´etodo implementado en computadora y a la vez una metodolog´ıa para determinar el riego crediticio asociado con un cliente. El sistema consta de los siguientes pasos. El sistema consta a su vez de un m´odulo de entrada (que puede ser una computadora, una laptop, una PDA, etc), que ser´ıa la interfaz entre el usuario y el programa, un dispositivo de almacenamiento (que simboliza a los elementos que temporalmente o permanentemente almacenan la data y las instrucciones), un dispositivo que permita conectarse en red para hacer las validaciones 33
Figura 3.9: Diagrama de flujo del procedimiento de chequeo respectivas, una base de datos que tenga la informaci´on crediticia y las caracter´ısticas demogr´aficas del cliente y una terminal de salida donde se ver´ıa el reporte de riesgo asociada al cliente.
System and method for automatic evaluation of credit requests Este art´ıculo [3] nos habla de una herramienta de decisi´on para responder autom´aticamente a las peticiones de cr´edito de alguna entidad financiera. La herramienta nos sirve pues nos da la facilidad de operar f´acilmente en ambientes globalizados, internacionales, en los cuales los asesores de clientes, asociados con clientes actuales o potenciales pueden residir en diferentes pa´ıses que los funcionarios de cr´edito, sin necesidad de complicarse innecesariamente la vida como en el caso de los sistemas basados en papeles y mecanismos de aprobaci´on que le hacen la vida m´as dif´ıcil al cliente. El sistema permite a su vez ser utilizado como caja blanca o como caja gris, esto es, para el caso de la caja blanca es cuando es un cliente que ya ha demostrado un buen comportamiento y el asesor tiene la suficiente autoridad para aprobar el cr´edito, para el caso de la caja gris es cuando es un nuevo cliente y hay datos que analizar, entonces se requiere de la aprobaci´on del funcionario del cr´edito. Aqu´ı un diagrama de flujo para entenderlo mejor
34
Figura 3.10: Diagrama de flujo del procedimiento Data proccesing technique for scoring bank customer relationship and awarding incentive rewards El procedimiento ilustrado en esta patente[9] es bastante similar al descrito por Pliha ”[5], de hecho la precede y la idea b´asicamente est´a en identificar clientes leales para darle de una u otra manera un incentivo y mejorar la relaci´on con estos. En realidad este procedimiento se podr´ıa decir que ilustr´o a la norma antes mencionada en lo que es centrarse en el cliente correcto, fij´andose b´asicamente en el n´umero de seguridad social, donde cada numero de seguridad social almacenado en la base de datos del banco (entendi´endose por banco a cada entidad financiera, de ahorros o de pr´estamo) es asignado a un conjunto de relaciones basados en el n´umero de cuentas corrientes ligadas con cada numero de seguridad social (SSN) y el periodo en que cada cuenta a si ayudada por el numero de seguridad social (El t´ermino relaciones hace referencia a todo tipo de transacci´on financiera, de cuenta o interacci´on del cliente 35
establecida con el banco, tales como cuentas de ahorros, pr´estamos, tarjetas de cr´edito, etc). El periodo de tiempo que el n´umero de seguridad social ha estado activo es el considerado en el proceso de calificaci´on de la relaci´on con el cliente. Es a partir de la implementaci´on de este proceso y su c´alculo, que los puntos que hacen relaci´on a cada SSN son sumados y clasificados para que encajen para un reconocimiento del banco como puede ser bajos intereses, o una carga menor por los servicios, etc. EL problema con esta invenci´on es que no se da la suficiente consideraci´on a medir y clasificar la informaci´on financiera almacenada en los archivos de informaci´on del cliente . El numero de cuenta y los a˜nos de longevidad pierden direcci´on de la habilidad financiera del Tenedor de la cuenta SSN. Recombining Forecasts Used in Personal Credit Scoring Este modelo [4] nos habla de la necesidad de aplicar modelos de selecci´on de caracter´ısticas en sitios como en los que no se aprovechan las ventajas que estos podr´ıan darle como es el caso de China. Inicialmente nos describe por qu´e ser´ıa ventajosa la clasificaci´on de clientes en diferentes categor´ıas y nos narra todo el proceso que se deber´ıa seguir.Nos comenta que el encajar un cliente en uno de estos status puede ser logrado evaluando su informaci´on b´asica personal, su situaci´on econ´omica y su registro de cr´edito. Nos menciona, asimismo, los 2 tipos de m´etodos a usar para clasificar clientes: Los m´etodos estad´ısticos, tales como la regresi´on lineal y la regresi´on log´ıstica; y los m´etodos de estimaci´on no param´etrica y m´etodos de inteligencia artificial, que puede incluir redes neuronales, a´ rboles de decisi´on, etc. La idea central de la lectura es mostrar que se puede lograr una mejor clasificaci´on combinando los m´etodos ya conocidos siguiendo un procedimiento que es como sigue: Primero, usa los m´etodos de regresi´on lineal y regresi´on log´ıstica. Luego dise˜na modelos combinatorios de pron´ostico usando 3 redes neuronales diferentes. Luego compara la precisi´on de los 3 m´etodos de clasificaci´on de cr´edito. Luego utiliza una red neuronal de perceptron para combinar la salida de los 3 m´etodos combinados y observar el cambio de precisi´on, as´ı es que puede juzgar el efecto en el pron´ostico de la combinaci´on que se realiz´o al final. Al final, se demuestra que siguiendo este procedimiento se mejora la eficacia del m´etodo y disminuye principalmente la tasa de error en cuanto a 2 problemas principales que son los que afectan a las instituciones financieras: Catalogar como buen cliente a un mal cliente, y clasificar como mal cliente a un buen cliente.
36
Cap´ıtulo 4 Metodolog´ıa de la Investigaci´on 4.1.
Tipo de Investigaci´on
El tipo de investigaci´on presentado en este estudio tiene naturaleza correlacional pues se busca explicar c´omo el comportamiento de un conjunto de variables independientes correlacionadas influye en una variable dependiente, que en en este caso vendr´ıa a ser el error obtenido con ese modelo. La definici´on de variables tanto de entrada (variables independientes y variables de entrada del modelo) y las de salida (variable dependiente y variables de salida del modelo), se precisan con m´as detalle en el cap´ıtulo 5, as´ı como la correlaci´on entre variables en el cap´ıtulo 6.
37
Cap´ıtulo 5 ˜ de la investigaci´on Diseno 5.1.
Objeto de la Investigaci´on
Nuestro objeto de investigaci´on es: El cliente que solicita un producto en un momento determinado en una institucion dada. Tal nivel de detalle se requiere por que los productos que ofrece la instituci´on pueden ser diversos (prestamos, tarjetas de cr´editos, tarjeta de d´ebito, etc.) y entonces podr´ıamos tener varias entradas repetidas para un mismo cliente (dado que puede usar m´as de un producto) pero no en todas las evaluaciones realizadas las ponderaciones asignadas a cada uno de los factores sean lo mismo (por ejemplo: puede ser un buen prospecto para realizarle un prestamo bajo pero no para concederle una tarjeta de cr´edito).
5.1.1.
Poblaci´on
Nuestra poblaci´on la conforman todos los clientes de entidades financieras, sean estos Bancos, Cajas Municipales, Cajas Rurales, Cooperativas u otras PYMES Financieras.
5.1.2.
˜ de la poblaci´on Tamano
Dado que el tama˜no de la poblaci´on va a depender de la empresa Financiera a la cual apliquemos el modelo, y dado que el n´umero de clientes de las mismas es bastante elevado, asumiremos que el tama˜no de la poblaci´on es infinito.
5.1.3.
˜ de la muestra Tamano
Para poder plantear un modelo de credit scoring se necesita datos hist´oricos de clientes, y el punto de mira para conseguirlos estuvo en las entidades bancarias, pero el resultado del esfuerzo desplegado fue nulo puesto que se acogen al secreto de datos para no ceder informaci´on sobre sus clientes. Ante tal negativa, y el empe˜no por desarrollar el presente trabajo, recurr´ı a los datos que
38
encontr´e en el CD del libro Credit Scoring and its Aplications [7] que nos permite plantear y probar el modelo. Disponemos en principio de 20 variables (entre ambas continuas y categ´oricas) para explicar el pago o impago de los cr´editos concedidos por una entidad bancaria a 1000 clientes (n=1000) de los que conocemos que 700 pr´estamos han sido amortizados, mientras que los 300 restantes han resultado insolventes.
5.2.
˜ de la investigaci´on Diseno
5.2.1.
˜ de la investigaci´on Tipo de diseno
La investigaci´on a realizar tiene un car´acter experimental, pues lo que se busca es explicar como influyen las variables independientes en la variable dependiente. Para nuestro caso tratamos de probar la precisi´on del modelo elaborado teniendo como variables de entrada el m´etodo a utilizar y sus parametros.
5.2.2.
Variables independientes
Las variables independientes ser´ıan: El m´etodo a aplicar para construir modelo de credit scoring (Redes neuronales, algoritmos gen´eticos, etc). El valor de los param´etros usados para construir el modelo. Por ejemplo: Para los algoritmos de clasificaci´on de las Redes neuronales el parametro ser´ıa el K del algoritmo de K-Fold cross validation.
5.2.3.
Variables dependientes
el error calculado del pronostico.
5.2.4.
Variables del modelo
La data de prueba “German Credit dataset´´ consiste de variables de entrada,entre variables continuas y categoricas, y una sola variable objetivo: El tipo riesgo del cliente (CreditRisk: Good or bar), la cual indica si el individuo representa un buen o mal riego: Las variables del modelo son las siguentes: CHECKING: Estado de la de la cuenta de cr´edito
39
1: < a 0 DM 1 2: mayor a 0 menor a 200 DM 3: mayor e igual 200 DM/ Su salario lo tiene asignado hace m´as de un a˜no. 4: no tiene asignadas cuentas de cr´edito. DURATION: Duraci´on en meses HISTORY: Historial crediticio 0: no ha solicitado cr´edito/ Ha pagado todos sus cr´editos correctamente. 1: Todos los cr´editos en este banco los ha pagado correctamente. 2: Hay cr´editos correctamente pagados hasta ahora. 3: Se ha demorado en pagar sus cuentas en el pasado 4: Cuenta cr´ıticas, indebidamente pagado en este banco y en otras instituciones. PURPOSE: Prop´osito para el que se solicit´o el pr´estamo 0: auto (nuevo) 1: auto (usado) 2: alimentos/indumentaria 3: radio/televisi´on 4: cuestiones dom´esticas 5: reparaciones 6: educaci´on 7: vacaciones 8: retraining 9: negocios X: otros 1
DM,Deutsche Mark, el marco Alem´an que se us´o hasta la introducci´on del Euro en 1999
40
AMOUNT: Monto de cr´edito asignado SAVINGS: Cuentas de ahorro 1: menor a 100 DM 2: mayor a 100 menor a 500 DM 3: mayor a 500 menor a 1000 DM 4: mayor a 1000 DM 5: Desconocido/ No tiene asignadas cuentas de ahorro EMPLOYED: Tiempo que lleva en su empleo actual 1: desempleado 2: menor a 1 a˜no 3: mayor a 1 menor a 4 a˜nos 4: mayor a 4 menor a 7 a˜nos 5: mayor e igual a 7 a˜nos INSTALLP: MARITAL: Estado civil y sexo 1: masculino: divorciada/separada 2: femenino: divorciada/separada/casada 3: masculino: soltero 4: masculino: casado/viudo 5: mujer: soltera COAPP: otras deudas/ garant´ıas 1: ninguna 2: co-aplicante 3: garante
41
RESIDENT: A˜nos que lleva viviendo en la actual residencia PROPERTY: Propiedad
1: estable 2: si no 1: acuerdo comunal/centro vecinal /seguro de vida 3: si no 1/ ni 2: carro y otras pertenencias de valor 4: desconocido/ sin propiedades AGE: Edad en a˜nos OTHER: si es cliente de otras instituciones 1: bancos 2: tiendas 3: ninguno HOUSING: Vivienda 1: alquilada 2: propietario 3: vive en casa de un amigo, familiar, etc. EXISTCR: N´umero de cr´editos en esta instituci´on JOB: Trabajo 1: desempleado/sin oficio- no residente (que no es legal en el pa´ıs) 2: Sin habilidades - residente 3: Empleado con oficio 4: Gerente/Independiente/Empleado altamente calificado DEPENDS: Personas que depende de e´ l. TELEPHON: Tel´efono 1: no 42
2: si, registrado a nombre del cliente FOREIGN: trabajador extranjero 1: si 2: no La siguiente tabla muestra m´as resumidamente estas variables: Variable CHECKING DURATION HISTORY PURPOSE AMOUNT SAVINGS EMPLOYED INSTALLP MARITAL COAPP RESIDENT PROPERTY AGE OTHER HOUSING EXISTCR JOB DEPENDS TELEPHON FOREIGN GOOD BAD
Role entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada entrada Salida
Medida ordinal interval ordinal nominal interval ordinal ordinal interval nominal nominal interval nominal interval nominal nominal interval ordinal interval binary binary binary
Descripci´on Estado de la de la cuenta de cr´edito Duraci´on en meses Historial crediticio Prop´osito para el que se solicit´o el pr´estamo Monto de cr´edito asignado Ahorro Tiempo que lleva en su empleo actua Estado civil y sexo otras deudas/ garant´ıas A˜nos que lleva viviendo en la actual residencia Propiedad Edad en a˜nos Es cliente de otras instituciones vivienda N´umero de cr´editos en esta instituci´on trabajo Personas que depende de el telefono trabajador extranjero buen o mal cr´edito
Cuadro 5.1: Cuadro Resumen de la varibles del Modelo
5.3.
˜ de la investigaci´on Diseno
Es el proceso por el cual las variables independientes llegan a convertirse en variables dependientes, al aplicarse sobre el objeto de investigaci´on. En la presente tesis, este proceso se define por la funci´on Scoring, que se muestra en la figura: En la siguiente figura se presenta las combinaciones entre los valores de las clases de m´etodos a usar y los parametros a considerar.En cada experimento se especificcan indicadores, los cuales se asociaran al grado de presici´on del resultado del experimento. El dise˜no del experimento se presenta en la siguiente figura. 43
Figura 5.1: Esquema de Diseno del experimento
5.4.
Hipotesis H1 : La precisi´on del modelo elaborado ser´a mayor al 80 %. H2 : Un modelo mixto de credit scoring ofrecer´a mayor precisi´on que un modelo no estad´ıstico o que un modelo s´olo estad´ıstico.
5.4.1.
Contraste de hip´otesis
H0 : La precisi´on del modelo elaborado no ser´a mayor al 80 %. H0 : Un modelo mixto de credit scoring no nos ofrecer´a mayor precisi´on que un modelo no estad´ıstico ni que un modelo s´olo estad´ıstico.
5.4.2.
Instrumentos de Medicion
Sean los valores para la caracter´ıstica GOOD BAD: Good = 1, Bad = 0. Las posibilidades que se pueden dar en una prueba ser´ıan las siguientes: Valores Reales 1 0
Valores obtenidos en la prueba 1 0 Verdaderos Positivo (a) Falso Positivo (b) c Falso Negativo (d) Verdadero Negativo
Cuadro 5.2: Tabla de Indicadores Por como est´a dispuesta la tabla existen las siguientes posibilidades: 44
Figura 5.2: Cuadro Diseno Experimento La posibilidad de que algunos clientes que siendo un mal riesgo sean considerados como un buen riesgo, ellos ser´ıan considerados como FALSOS POSITIVOS. La posibilidad de que algunos clientes que siendo un mal riesgo sean considerados como un mal riesgo, ellos ser´ıan considerados como FALSOS NEGATIVOS. La posibilidad de que algunos clientes que siendo un buen riesgo sean considerados como un mal riesgo, ellos ser´ıan considerados como VERDADEROS NEGATIVOS. La posibilidad de que algunos clientes que siendo un buen riesgo sean considerados como un buen riesgo, ellos ser´ıan considerados como VERDADEROS POSITIVOS. A partir de la tabla podemos determinar los siguientes indicadores:
SENSIBILIDAD: Es la posibilidad en los buenos riesgos, de ser catalogados como tales: a/(a + c) ESPECIFICIDAD: Es la posibilidad en los malos riesgos, de salir catalogados como tales: d/(b + d)
45
VALOR PREDICTIVO POSITIVO: La posibilidad de que aquellos salgan como buenos riesgos, sean buenos riesgos. a/(a + b) VALOR PREDICTIVO NEGATIVO: La posibilidad de que los que sena catalogados como malos riesgos, seanmalos riesgos d/(c + d) Estos indicadores nos ayudar´ıan a cuantificar el riesgo, dado que nuestro objetivo es: Maximizar la cantidad de verdaderos positivos Minimizar la cantidad de falsos positivos Otros indicadores sugeridos ser´ıan:
P recisi´ ondelmodelo =
#clientescorrectamenteclasif icadosenladatadeprueba ∗ 100 % #clientestotalesenladatadeprueba (5.1)
V ariaciaci´ onP recisi´ on = precisionmodelocualquiera − precisi´ onmodeloderef erencia. (5.2) Errordelmodelo = 100 % − precisiondelmodelo.
46
(5.3)
Cap´ıtulo 6 Modelo de soluci´on 6.1.
Modelo de soluci´on
En esta secci´on se describe del proceso de soluci´on del problema planteado en el proyecto de tesis. La descripci´on de cada partees como sigue: Se realiza con anticipaci´on la elecci´on de la t´ecnica o tratamiento a aplicar en a la data. Se realiza la limpieza de la data en crudo mediante un proceso de data cleaning. Se realiza la obtenci´on de la muestra N. Se realiza la normalizaci´on de la data en N (puesto que la data puede ser discreta, continua, etc y a nosostros nos interesa obtener 0 o 1 de valor de salidad); para que cada una de las caracte Se realiza un proceso de selecci´on de caracter´ısticas para de esta manera quedarnos estudiando s´olo aquellas caracter´ısticas que expliquen mejor la data. En este paso se realizan los siguientes procedimientos: Generaci´on del subconjunto, consiste en el mecanismo de b´usqueda que produce subconjuntos de caracter´ısticas candidatos a ser evaluados. Evaluaci´on del subconjunto, consiste en medir la optimalidad del subconjunto generado en el paso anterior para los fines de un problema de aprendizaje, que en este trabajo es de clasicaci´on. Criterio de paro, determina cuando un proceso de selecci´on de caracter´ısticas debe parar. General- mente el proceso de selecci´on de caracter´ısticas se detiene cuando se alcanza el valor de alg´un par´ametro o umbral establecido. Validaci´on de resultados, evaluaci´on del modelo de selecci´on de caracter´ısticas con datos reales, y la variaci´on al quitar caracter´ısticas irrelevantes en los datos, del indicador de desempe˜no del algoritmo. 47
Al llegar a este paso se habr´a obtenido un conjunto de caracter´ısticas a las que llamar´e D. Este grupo se dividir´a usando alguna t´ecnica de inteligencia artificial ( dependiendo de los parametros del m´etodo) en data de entrada y data de entrenamiento Se corre la data de entrenamiento con el fin de entrenar a la red Se hace correr la red con la data de prueba, y luego se compara con la data de prueba Se compara los casos resultados de la corrida con la data original, considerandose como e´ xito toda coincidencia entre data de entrenamiento y data de prueba. Se calcula el error obtenido con esta t´ecnica La siguiente figura ilustra el procedimiento de descrito anteriormente:
Figura 6.1: Modelo Soluci´on.JPG
48
Cap´ıtulo 7 Planificaci´on de la investigaci´on 7.1.
Descripci´on de actividades - etapas
Las principales actividades ser´ıan: 1. Formular la propuesta de investigaci´on: Es decir, afinar la propuesta que estamos presentando en esta ocasi´on, abarcar la mayor cantidad de bibliograf´ıa actual para mejorar nuestro marco te´orico 2. Recolectar la data: Aqu´ı se ver´a la posibilidad de trabajar con otra data para validar nuestro modelo y as´ı mejorar la performance del mismo. ˜ el prototipo de Software: Esta actividad es posiblemente la que tenga m´as tareas 3. Disenar pues es en esta donde no s´olo se desarrolla el modelo sino que tambi´en se procede a la construcci´on del prototipo de software a dise˜nar. 4. Optimizar el prototipo: Es en esta parte donde ponemos a prueba y mejoramos constantemente nuestro modelo, esta parte parece que va a ser la m´as complicada pues se requiere cierto nivelde expertis que se espera adquirir en el transcurso del desarrollo de la presente tesis.. Cabe se˜nalar que a partir del dise˜no las etapas posteriores las considero como correspondientes a desarrollar en tesis 2 5. An´alizar los resultados: Ver qu´e resultados arroja la investigaci´on e interpretarlos. 6. Redactar de la pre-tesis: La que incluye el modelo desarrollado as´ı como el prototipo
7.2.
Recursos necesarios
Algunos de los recursos (a mi juicio los m´as importantes) a obtener son: computadoras 49
licencias de matlab licencias de SPSS Internet Suscripcion a revistas cientificas: IEEE, ACM Libros, revistas y publicaciones cient´ıficas personal de apoyo en la investigaci´on asesores de la investigaci´on
7.3.
Cronograma de trabajo
El tiempo a dedicarle a la tesis es de 2 horas diarias, tener esto en cuenta porque 1 d´ıa de avance en el cronograma es en realidad 2 horas de trabajo. Dicho lo anterior, el cronograma de trabajo se presenta en la siguiente figura.
7.4.
Presupuesto de la Investigacion
M´as que un presupuesto lo que se presenta en esta parte es una cotizaci´on del monto a desembolsar para realizar la investigaci´on Concepto Unidades Costo (Soles) licencias de matlab 1 5000 licencias de SPSS 1 300 Suscripcion a revistas cientificas: IEEE, ACM 200 Libros, revistas y publicaciones cient´ıficas 800 Investigador 1 800 Total 7100
7.4.1.
Fuentes de Financiamiento
La fuente de financiamiento va a ser propia, y prestamos de familiares.
50
Figura 7.1: Cronograma de trabajo
51
Cap´ıtulo 8 Conclusiones 8.1.
Conclusiones La data que usamos para el desarrollo del experimento sirvi´o como instrumento para construir un modelo y probar el mismo, sin embargo queda pendiente la validaci´on del modelo con data real, es decir, data de instituciones financieras. Producto de la revisi´on de la literatura se comprob´o que los m´etodos de credit scoring se est´an volviendo cada vez m´as precisos, pero un problema por el cual no han resultadas exitosas algunas experiencias se debe al factor humano, recordemos que el modelo busca agilizar y automatizar el proceso de asignaci´on de riesgos, mejorar la precisi´on del mismo, pero un sistema es m´as que eso y para que funcionen deben funcionar unidos hardware, software y procedimientos manuales. Los modelos de credit scoring aplicados actualmente pueden ganar m´as valor si se concibieran como instrumentos que permitan viabilizar regulaciones como: Basilea II o Solvencia II.
8.2.
Trabajos Futuros
Las ampliaciones a este trabajo constituyen lo que es el desarrollo del modelo de credit scoring y la total automatizaci´on del proceso de asignaci´on de riesgo, revisiones y enmienda de los errores cometidos en esta primera investigaci´on as´ı como la inclusi´on de nuevos enfoques producto de la revisi´on de nueva bibliograf´ıa y de un mayor conocimiento del tema.
52
Bibliograf´ıa ´ ´ Investigaciones [1] Chong Alberto. Cajas municipales, microcrEdito y pobreza en el perU. BREVES, (9):3–4, 2000. [2] L´opez Pascual J. El rating y las agencias de calificaci´on. Dykinson., 1996. [3] CH) Kunz, Reto (Monchaltdorf. System and method for automatic evaluation of credit requests. (20070198401), 2007. [4] Jiang Ming-hui. Recombining forecasts used in personal credit scoring. (150001), 2007. [5] Apt. 1603 Nashville TN US) Pliha, Robert Kenneth (555 Church St. Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acquisition, performance and risk events defined by the bank using a decision tree and stochastic process. (7296734), 2007. [6] et. all. Portocarrero M.Felipe. ¿son rentables las cajas rentables de ahorro y cr´edito? Economia y Sociedad (CIES), (54):2–3, 2004. [7] L. et. al. Thomas. Credit Scoring and its Applications. SIAM, 2002. ´ [8] William Ramos Toledo. Las cajas municipales de ahorro y cr´edito. AVANCE ECONOMICO, pages 1–2, 2006. [9] Larry W. Shurling. Data proccesing technique for scoring bank customer relationship and awarding incentive rewards. (6009415), 1999. [10] VA US) Wokaty Jr., Robert Dwane (Richmond. Systems and methods for decisioning or approving a financial credit account based on a customer’s check-writing behavior. (20070033135), 2007. [11] Usanee Worrachartdatchai. Credit scoring using least squares support vector machine base on data of thai financial institution. 2007. [12] Defu et. al. Zhang. A comparison study of credit scoring models. (361005), 2007.
53
Vita Audante Ramos, N´estor Rafael naci´o en Per´u, Departamento de Lima, el 15 de Abril de 1985. Ingres´o a la Universidad Nacional de Ingenier´ıa en Marzo del 2003. Actualmente se desempe˜na como practicante en la empresa consultora de Sistemas de Informaci´on: Gesfor Osmos Per´u S.A.
L A PRESENTE PROPUESTA ´ STOR R AFAEL Y . MOS , N E
DE TESIS FUE TIPOGRAFIADA CON LATEX POR
c
Audante Ramos, N´estor Rafael 2007
AUDANTE R A -