Contar con buenos modelos predictivos ya no es suficiente

David A. Cañones, Lead Data Scientist en WhiteBox, ha sido testigo (y partícipe), durante los últimos años, de la transformación digital de muchas empresas en cuanto al uso de datos se refiere. No obstante, no todas se encuentran en el mismo nivel de madurez.

Por ese motivo, Cañones suele clasificar a las empresas en 4 grupos. El primero de estos lo conforman aquellas que no usan datos, aunque cada vez quedan menos empresas de este tipo, y su tamaño suele ser pequeño. Estas compañías toman decisiones basadas en la experiencia (intuición) de sus directivos. El segundo grupo está formado por las empresas que utilizan datos para entender el presente. Una gran mayoría de organizaciones ya se encuentran en este grupo y son capaces de conocer en qué punto se encuentran analizando datos históricos. Se puede incluir en esta franja a todas aquellas que cuentan con herramientas de BI y que han realizado proyectos de analítica tradicional. Además de estos, el tercer grupo engloba las compañías que hacen uso de los datos para predecir el futuro. En este sentido, cada vez son más las empresas que están intentando incorporarse a este grupo y todas aquellas que han desarrollado (con éxito) modelos predictivos se pueden englobar aquí. Finalmente, las empresas que usan datos para cambiar el futuro constituyen el cuarto grupo, pero muy pocas empresas han logrado avanzar hasta la que, hoy en día, se considera la última frontera en cuanto al uso de los datos se refiere. Esto se debe a que no es sencillo, porque hacen falta tanto buenos datos como buenos modelos.

Hace aproximadamente un año, Cañones tuvo la oportunidad de comenzar a trabajar con algunos de los clientes de WhiteBox (aquellos más aventajados en su estrategia de transformación digital) en su transición a esta última cuarta fase. En este artículo, el Lead Data Scientist quiere compartir su experiencia en este tipo de proyectos para explicar en qué se diferencian de otros de inteligencia artificial más tradicionales.

Partiendo de un ejemplo real, si en lugar de simplemente predecir la fuga de clientes (churn) se quiere evitar esta fuga, no basta con únicamente entrenar un modelo excelente que prediga qué clientes se van a fugar con mayor probabilidad, sino que se tiene que ser capaz de establecer relaciones causa-efecto entre las posibles palancas de actuación y las predicciones. ¿Qué se puede hacer para evitar esa fuga? ¿De entre todas las opciones que existen, cuál es la más óptima?

La revolución de la inferencia causal

Existe una rama de la ciencia de datos, con una serie de algoritmos específicos (todavía poco conocidos), llamada inferencia causal, que se especializa en la obtención de relaciones causa-efecto a partir de los datos. Los fundamentos de la inferencia causal son bastante antiguos y se han utilizado, sobre todo, en el sector farmacéutico para evaluar la efectividad de nuevos medicamentos.

Hoy en día, la inferencia causal ha sufrido una pequeña revolución gracias a la aparición de nuevos algoritmos (desarrollados principalmente por empresas como Google, Uber o Microsoft) que permiten identificar aquellas palancas de actuación más óptimas a un nivel de detalle nunca visto hasta ahora y que están revolucionando varias industrias. Sin ir más lejos, la inferencia causal está detrás del Premio Nobel de Economía de 2021.

Los nuevos avances en inferencia causal solventan estos problemas gracias a la integración de modelos de Machine Learning, permitiendo el aprendizaje, usando grandes históricos de datos observables y evitando en gran medida la creación de grupos de control y tratamiento (cosa que en ocasiones puede no ser posible o ético). Además, también permite obtener relaciones causa-efecto con una alta resolución, promoviendo, por ejemplo, la realización de campañas de marketing personalizadas a nivel de cliente o tratamientos personalizados a nivel de paciente.

El desarrollo de modelos de inferencia causal requiere, por un lado, de conocimiento experto más allá de la herramienta o librería concreta que se vaya a utilizar (hay que tener muy claros los principios) y, en muchas ocasiones, de datos con los que las empresas no suelen contar. En un proyecto real de fuga de clientes (churn), desarrollado en WhiteBox, se enriquecieron los datos del cliente con datos externos sobre los precios de la competencia y las nuevas ofertas, siendo este un factor fundamental en la fuga.

Recapitulación

Los proyectos de inferencia causal son cada día más demandados por los clientes de WhiteBox, ya que permiten pasar de únicamente realizar predicciones a tener una serie de palancas que permiten pasar a la acción.

Este enfoque causal a la inteligencia artificial está permitiendo a las empresas dar un paso más en su transformación digital, haciéndolas dueñas (y no simplemente espectadoras) de su futuro.