Ahorrando capital con ML una aproximación sencilla

fjroar
20 jun 2022
5 Min. de lectura

Hace tiempo ya, desde la institución Banco de España se publica el siguiente artículo https://repositorio.bde.es/bitstream/123456789/14004/1/dt2032e.pdf y más tarde desde la regulación europea EBA, se publica el siguiente discusion paper https://www.eba.europa.eu/sites/default/documents/files/document_library/Publications/Discussions/2022/Discussion%20on%20machine%20learning%20for%20IRB%20models/1023883/Discussion%20paper%20on%20machine%20learning%20for%20IRB%20models.pdf

Figura 1: Código de implementación de la fórmula de cálculo de RWA para hipotecas

Lo que pretendo con esta entrada es hacer un poco de “calculo gordo y poco fino” sobre unos datos cualesquiera tomados de kaggle y comparar los algoritmos utilizados por los actuales Data Scientist bajo un entorno regulatorio a la clásica regresión logística (y por ende credit scoring). ¡Ojo! Que no voy a hablar de Machine Learning, sino que lo que voy a hacer es comparar un algoritmo clásico frente a uno de corte más actual y por tanto no me meteré en lo que significaría realmente un aprendizaje realmente automatizado, lo que quedaría para otra entrada.

En este sentido, voy a tratar de un modo muy simplista, un tema muy complejo y delicado como es el del riesgo de crédito en banca y lo que tiene que ver con la estimación del capital regulatorio, donde se habla constantemente que con pequeñas mejoras de estimación, se conseguiría liberar grandes cantidades de dinero, pero … ¿Es esto cierto? ¿Cómo hacer una cuantificación de lo que se dice basados en datos? Para hacer lo anterior, consideré los datos de https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset Unos 30.000 registros con una tasa de impago del 20% que son datos que los asimilaré a una posible cartera hipotecaria y para lo que voy a hacer una aproximación sencilla de estimación de mejora de un algoritmo avanzado frente a uno clásico.

Para lo anterior conviene saber que el capital regulatorio viene a ser como ese dinero que el banco debe tener en la hucha por si se produce un impago masivo por parte de sus clientes, o una crisis, … y poder seguir funcionando dotando de liquidez los depósitos de sus clientes. Así pues, cada vez que un banco concede un crédito, asume el riesgo de que el cliente no se lo devuelva íntegramente y para ello debe hacer una reserva de dinero para que, en grandes números, los que paguen, cubran a los que no pagan. Estas reservas de capital son revisadas anualmente y hay como 2 esquemas principales, el primero es que un banco reserva un 35% del riesgo que asume (en una hipoteca) y lo manda a la “huchaca” y el segundo es que el regulador permite que el banco calcule un porcentaje de reserva en función del riesgo de impago, basado en sus propios datos, acorde a la siguiente fórmula para hipotecas (véase https://www.bde.es/f/webbde/SJU/normativa/circulares/c200803.pdf pg 94):

En esta fórmula hay 2 parámetros fundamentales que debe estimar la entidad bancaria y son el parámetro PD (probability of default o probabilidad de que un cliente pague o no pague) y LGD (loss given default o el dinero que finalmente, dado que ha impagado, no se va definitivamente a recuperar, a veces se llama también severidad), en este ejercicio se va a suponer que el LGD es constante siempre vale 0.45

Pues bien, la fórmula anterior que proviene del modelo de Vacisek (ver por ejemplo https://www.cemla.org/PDF/boletin/PUB_BOL_LXII-03-03.pdf ) para riesgo de crédito y cuya obtención no resulta sencilla, aunque por ley la tienes que utilizar, esta fórmula tiene en cuenta consideraciones como la correlación del impago que se suele suponer como R = 0.15 y que se consiga tener capital suficiente a un percentil del 99.9%, según se considera en dicha formulación.

Pues bien, en este trabajo lo que se hace es estimar 2 modelos de riesgo de crédito (que podrían ser por ejemplo de admisión) uno bajo un algoritmo tipo regresión logística y otro bajo otro de tipo random forest, dado que los datos estaban relativamente bien, se dejaron todas las variables explicativas (salvo la ID) y la explicada (que se denomina target) y construyo los modelos que muestro en el código de mi github https://github.com/FJROAR/Ejemplo-Blog-RWA obteniendo los siguientes resultados en cuanto a área bajo la curva:

Regresión Logística: 72.38% Random Forest: 76.33%

Figura 2: Curvas ROC realizadas con la librería ROCR

Una de las cosas que se observa en los datos es que la tasa de default era del 20% y no es realista (el banco estaría quebrado no, lo siguiente … si fuera así), en este caso se va a suponer un calibrado “grosero” a un tasa promedio más comedida. Este proceso de calibrado en la realidad suele ser bastante complejo y requiere de un ciclo completo de al menos unos 10 años, pero aquí sencillamente se va a suponer que la probabilidad media real (incondicionada o independiente a la muestra) estaría en torno al 1% y por tanto lo que se crea es un factor f que convertiría la tasa promedio del dataset original en unas medias en torno a dicho 1% con el factor:

f = 0.01 / tasa ~ 0.04

Pues bien, tras esto se aplica una política de riesgos “trivial” del tipo que sólo se acepta riesgo si la probabilidad predicha y calibrada por el modelo resulta ser menor al 1%, se trabaja con el conjunto test, que no se usó en la muestra. Cuando sucede eso y si se suponen que las hipotecas de media están en torno a los 150.000€ se obtienen las siguientes cifras para cada una de la modalidad estándard o avanzada en la estimación “grosera” del riesgo de crédito que en el citado conjunto test resultan ser de:

Regresión Logística Random Forest

Modelo Estándard: 317.625.000 Modelo Estándard: 306.547.500

Modelo Avanzado: 368.339.934 Modelo Avanzado: 300.048.403

En este caso y para las pocas exposiciones que se consideran (casi unas 10.000 exposiciones) se observan cosas interesantes como:

No por aplicar un modelo construido a partir de datos mejora las metodologías estándard de los reguladores, hay que ver cómo son las carteras y si realmente hay muchas exposiciones de bajo riesgo
Un modelo avanzado puede mejorar a uno clásico y suponer un importante ahorro de capital, en este caso, frente a la propia metodología estándard el ahorro sería de un 2.12%, pero es que si se compara frente a lo que supondría el Modelo Estándard de una regresión logística, dicho ahorro estaría en torno al 5.86
Por tanto ¿Merece la pena pagar el coste de regulación en hacer que un modelo de analítica avanzada sea más interpretable o mejor detallado? Claramente implica mucho más trabajo pero el dilema a considerar es si porque resulta complejo pero funciona, ¿Es admisible que se deje o no inmovilizado más o menos capital?
Es claro que la regulación debe exigir, si alguna vez acepta un algoritmo avanzado, una elevada batería de test y de pruebas, pero también parece claro que el incentivo para que las entidades bancaria atraigan talento y hagan cosas avanzadas y bien, está también ahí
Indicar que en estadística no existen “los siempres”, ni “los nuncas”, todo depende, y bajo mi experiencia también es cierto que una logística bien trabajada puede igualar y en ocasiones superar perfectamente a un random forest o algoritmo superior si se actúa, como he visto en más de una ocasión como no “autómatas preparadores de datos” sino como auténticos científicos a los que les gusta analizar datos y aplicar técnicas analíticas

Finalmente conviene recordar que los cálculos a realizar en casos reales y bajo entornos regulados resultan mucho más complejos que los aquí realizados. Con esta entrada sólo se desea demostrar de modo muy divulgativo y práctico como algoritmos avanzados podrían permitir una mejora de la predictividad de los modelos actuales formados por Credit Scoring y Regresiones Logísticas en su mayoría.

Ahorrando capital con ML una aproximación sencilla

Entradas recientes

Comments