LO QUE NO TE CUENTA TU CONSULTOR PARTE II: JUICIOS EXPERTOS EN EXCEL
- fjroar
- 7 oct
- 4 Min. de lectura
A veces es mejor no hacer un modelo que dejar su construcción a los que denomino "los insensatos del Excel" o incluso inventárselo directamente aludiendo a que no hay datos.
Lo anterior parece raro pero lo he visto más de una vez, de hecho, en una de esas ocasiones me tocó "heredar" en un antiguo trabajo, un modelo que había hecho alguien, de cuyo nombre ni me acuerdo y ni quiero. Pero el hecho es que pequé de ingenuo ya que tras "aceptarlo" (no sin alguna pega, pero reconozco que me debí haber puesto más duro) me doy cuenta que había seguido una serie de pautas que no merecen ni ser calificadas como metodología:
Se consideró unas variables del tipo "me dice el cliente" y para las cuáles tenía datos
En cada variable creó unos tramos por "criterio" experto y asignaba por ejemplo un 1 si era un riesgo alto y un 5 si el riesgo era bajo (con un par)
El score básicamente era una suma de las anteriores puntuaciones
Al final se hizo unos cuantos tramos de población con letras desde la A creo hasta la F (no recuerdo bien) y hala, a rular
¿Qué podía fallar en todo esto?
Para mi estupor me cuentan que el cliente ya había pagado y puesto en producción (o al menos estaba usando) el modelo y que a partir de ahora yo me encargaba de la fiesta, mientras que la persona que lo hizo (creo que se sintió aliviado), se dedicaría a otros menesteres con su Excel...
Pues bien, con una documentación más simple que un sandwich vegetal, tras algunas iteraciones la cosa empieza a petar y es que claro:
Habían vendido una moto de mucho cuidado
Nada de hacer test ni pruebas de fiabilidad adicionales tipo OOT, ni tan siquiera un mínimo test simplón
Por supuesto, no había ni la más mínima referencia a un modelo de regresión logístico, ni nada con cierta sofisticación más allá que lo que un Excel pueda estimar
Y aquí no había excusa ya que había datos y por desgracia impagos más que suficientes, aunque también viví el caso en el que se paga para que alguien invente un modelo directamente porque no hay datos
Pues básicamente este fue uno de los múltiples motivos por lo que tuve que dejar un trabajo, imagínense conociendo todo esto, encima tenía que callármelo ¡Yo que soy un bocazas para estas "cacas"! y aunque intentamos hacer un modelo de verdad alternativo, sin embargo, se vendió el engendro anterior y ni oir hablar de una alternativa con un mínimo de lógica basados en tranformaciones sensatas del tipo WoE o usando la variable directamente en el modelo mediante una regresión logística, nada "dendedla y no enmendadla".
Así pues consideremos el siguiente ejemplo de código sencillo de un conjunto de datos de R de impagos con unas pocas variables:
library(dplyr)library(scorecard)library(ISLR)data("Default")df <- Default
df$default <- ifelse(df$default == "Yes", 1, 0)
df_list <- split_df(df, y = "default", ratios = c(0.6, 0.4), seed = 30)
label_list <- lapply(df_list, function(x) x$default)
df_train <- df_list$train
df_test <- df_list$test
bins_train <- woebin(df_train, y = "default")
woebin_plot(bins_train)
Con estas pocas líneas (si se tienen todas las librerías necesarias) se llega a los siguientes gráficos clave:



Pues bien, lo que pasó con el susodicho insensato del excel es que dejó volar su intuición sin hacer ni la más mínima visión univariante tal como la que aquí presento y entonces hizo algo así como:
Si eres estudiante te penalizo y te doy 1 punto en caso contrario 5 (da igual si se pone 2 o 3, ... el desastre no se va a apañar si se opera así)
A bajo balance (suponiendo que es un concepto relacionado con el dispuesto, habría que aclarar más, pero no es ahora el objetivo, por lo que se supone lo anterior) en la tarjeta 1 punto y a alto balance 5
A bajo ingreso 1 punto y a alta ingreso 5
Es de observar que en estos casos la intuición y el querer forzar al uso de todas las variables es una muy mala idea, claramente, la primera de las variables debería quitarse y habría que plantearse lo mismo con la tercera, ya que prácticamente es la segunda, la que nos daría el modelo.
No obstante, lejos de crear un modelo ahora o de interpretar esta salida vuelvo a señalar la importancia de visualizar y analizar las variables bajo distintas técnicas y metodologías sólidas que nos puedan dar luz, salirse de metodologías como la de Credit Scoring o directamente hacer algo tipo Regresión Logística o usar modelos de Analítica Avanzada, resulta arriesgado, jugar con el "juicio experto" podría aún entenderlo en aquellas ocasiones en las que no se tienen datos de impago que es cuando se empieza una línea de negocio pero desde luego pagar para que un tercero haga una invención tipo es directamente tirar el dinero y si hay datos, como fue el caso que aquí relaté, hacer algo basados en "la cuenta de la vieja", es directamente suicida.







Comentarios