Una de las tendencias recientes en materia de Inteligencia Artificial es la automatización de los flujos de trabajo de modelado predictivo.

Empresas como DataRobot, que recientemente alcanzó el estatus de “empresa unicornio” tras levantar 200M$ de inversión el julio pasado, prometen “democratizar el acceso a la IA en las organizaciones”.

Gigantes tecnológicos de la talla de Google y Amazon han tardado poco en subirse al carro con productos como el AutoML Tables de Google, disponible en beta en su nube empresarial.

El servicio permite efectuar búsquedas de arquitecturas de redes neuronales de manera automática, labor que normalmente desempeñan seres humanos.

Objetivo

Dada la escasez en el mercado de científicos de datos experimentados, así como la carestía de este tipo de perfiles, la propuesta de valor ha sido acogida con entusiasmo por los clientes potenciales.

El objetivo es facilitar a empleados generalistas el poder asumir la carga de trabajo de perfiles técnicos especializados, a veces, más cercanos al mundo académico que al día día de las empresas.

Si bien la Inteligencia Artificial suele despertar inquietud social alrededor de la posible automatización de puestos de trabajo, resulta irónico que esta vez son los científicos de datos los que están tratando de automatizarse a sí mismos. Justicia poética, que dirían algunos.

Beneficios: mitos y realidades

AutoML promete obtener beneficios a las empresas, fundamentalmente, de dos maneras:

Si bien hay algo de verdad en ambas afirmaciones, vamos a examinar estos dos puntos por separado para ver qué hay de cierto en ellos.

En un reciente estudio del conocido portal de minería de datos Kaggle (empresa adquirida por Google en 2017) preguntaron a una muestra de 23.000 científicos de datos acerca de sus hábitos de trabajo, tratando de entender en qué fases del proceso invertían más tiempo en sus quehaceres diarios.

Aparentemente, en torno a un 40% del tiempo se destina a labores de conversión y limpieza de datos (ETL) y tan solo un 20% lo dedican al modelado propiamente dicho, entendido como tal el ajuste y el refinado del algoritmo para obtener un mejor resultado.

Otras labores que, a veces, se pasan por alto serían la puesta en servicio de los modelos (9%) y la comunicación de los resultados obtenidos (11%), sin las cuales nada de lo anterior tendría sentido.

Por lo tanto, el grueso del trabajo se centra en labores ajenas al modelado, una parte poco glamurosa pero de vital importancia en el ciclo completo. Aunque hay empresas en el mercado como Trifacta y Datameer que pretenden posicionarse en este segmento de mercado para reducir esfuerzo en las labores de ETL, la oferta existente de AutoML impacta únicamente sobre el 20% del trabajo del científico de datos. La prometida reducción de costes es, por tanto, limitada.

No obstante, al estar en una edad temprana de este tipo de soluciones, no se puede descartar que, a futuro, estos sistemas puedan llegar a abarcar más funciones que las que ofrecen en este momento.

De este modo, cumplirían finalmente la promesa de la que hacen gala en sus folletos de marketing. Pero, ahora mismo, están muy lejos de conseguir su propósito, puesto que están enfocados en la selección del modelo así como en la elección de los parámetros más adecuados para obtener un mejor resultado.

Conviene recalcar, de todas maneras, que el proceso de ajuste de parámetros constituye una parte laboriosa del trabajo y un enfoque metódico aplicado de manera rigurosa puede ayudar a concluir la tarea con éxito.

Y es aquí donde llegamos a nuestro segundo punto de discusión. ¿Se pueden obtener mejores resultados con AutoML a la hora de elegir el modelo que el que obtendría un científico de datos de manera independiente?

Para un amplio porcentaje de los casos, la respuesta ahora mismo parece ser afirmativa, pero con algunos matices.

AutoML vs Científicos de datos

El portal Kaggle actúa como facilitador de concursos de minería de datos, donde las empresas plantean un problema de modelado concreto y científicos de datos de todo el mundo compiten por ofrecer una solución en un plazo limitado de tiempo.

Los premios para los mejores clasificados oscilan desde los 500$ hasta los 200000$. La competencia en este tipo de concursos es feroz, y conseguir alzarse con el triunfo es una labor ardua dada la intensidad de la competición.

Pues bien, Google ha estado haciendo pruebas de su producto de AutoML en distintas competiciones de Kaggle. A día de hoy ganaría al 75% de los científicos de datos que se presentan a estos concursos. Aunque no llega a ser competitivo con los expertos, no hay que infravalorar la derivada con respecto al tiempo.

Este software irá mejorando con el paso de los años, pudiendo llegar a sobrepasarlos en último término. Las disrupciones tecnológicas, y esta lo es, a menudo aparecen como una solución inferior y sus detractores las menosprecian en base al momento presente, obviando el potencial de mejora alcanzable. Como científico de datos debo decir que este pensamiento me resulta, cuanto menos, inquietante.

Por ejemplo, en mayo de 2019, AutoML Tables participó en un Hackathon KaggleDays en San Francisco, compitiendo contra 74 equipos de maestros de Kaggle, que son aquellos científicos de datos con el historial más laureado en este tipo de concursos.

El desafío consistía en predecir defectos de fabricación en piezas de automóviles con información sobre las propiedades del material. Aunque el concurso era de una duración muy limitada con respecto al formato habitual, debiendo declarar al ganador con tan solo unas pocas horas de trabajo, el equipo de Google AutoML ocupó un meritorio segundo lugar en la clasificación final.

Todo esto a pesar de tener que competir contra los participantes de Kaggle de nivel maestro, por lo que podemos afirmar que la amenaza de la disrupción es real y debe ser tenida en cuenta.

Pero lo que no dice Google, y lo que de cara a armar un business case marcaría el diferencial a la hora de afrontar una inversión en este tipo de tecnología, es el estrecho margen por el que logra imponerse a los humanos, que es bastante ajustado.

La precisión alcanzable en una labor de modelado tiene una cota superior teórica dependiente del problema, normalmente a priori desconocida, y unos mínimos obtenibles con muy poco esfuerzo que cualquier científico de datos competente podría alcanzar en un abrir y cerrar de ojos.

En el concurso de San Francisco, la diferencia de puntuación entre el primer y el décimo clasificado fue inferior a un 1.1%, y con respecto al puesto 50 apenas de un 4.1%.

Salvo para casos de uso donde la palanca sobre los ingresos o los costes de una empresa fuera muy grande, a efectos prácticos, sería deseable priorizar el tiempo en llegar al mercado rápidamente en lugar de invertirlo en perfeccionar la precisión del modelo.

Por ejemplo, estamos colaborando con una empresa del sector de la ‘utilities’ en un modelo de previsión de la demanda que afecta a sus más de 9 millones de clientes. Bajo este marco la inversión estaría plenamente justificada. En otro escenario donde la palanca fuera inferior, prima el poner el modelo en producción cuanto antes para comenzar a capturar valor y pasar inmediatamente al siguiente caso de uso.

Conclusión

De momento, mantenemos esta tecnología en observación. El AutoML puede llegar a abrir el abanico de proyectos de Inteligencia Artificial en las empresas al bajar las barreras de entrada para afrontar este tipo de soluciones.

En un artículo futuro evaluaremos las distintas alternativas open source que hay en el mercado, si no quisiéramos tirar de billetera de la mano de uno de los proveedores de pago. El mundo del AutoML es una tendencia en auge y conviene estar al tanto de su evolución futura. Desde Paradigma lo estaremos vigilando de cerca.

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete