La Inteligencia Artificial tiene otro premio de talla mundial
Written by danilo_3re2RJc on 03/08/2025
El 5 de marzo de 2025, la Asociación de Maquinaria Computacional (ACM por sus siglas en inglés) anunció a los ganadores del premio de computación Alan Turing [premio Alan Turing] del 2024: Ellos son Andrew Barto y Richard Sutton. Este prestigioso premio, considerado como el “Premio Nobel de Computación”, les fue otorgado por su destacada contribución para el desarrollo conceptual y algorítmico de aprendizaje por refuerzo, un campo muy importante dentro de la Inteligencia Artificial (IA). En este artículo haremos un análisis de 5 ejes importantes en torno a este destacado reconocimiento.
¿Qué es el aprendizaje por refuerzo?
El aprendizaje por refuerzo es un campo de la IA, donde un agente (software o hardware) interactúa con un ambiente de donde obtiene datos y una señal de recompensa que le permite mejorar o reforzar su comportamiento para alcanzar un objetivo dado. Por ejemplo, este mecanismo de aprendizaje es el que usamos para entrenar a nuestras mascotas, que en este caso son los agentes de aprendizaje, a los cuales les damos un premio o estímulo (que típicamente es comida) cuando se acercan o logran el comportamiento deseado. Los estímulos refuerzan las acciones deseadas, mientras que su ausencia, o castigo, permite descartar aquellas acciones que no son útiles para completar el objetivo dado.
Este mismo mecanismo de aprendizaje es el que usamos los seres humanos para aprender a caminar, nadar, andar en bicicleta, tocar un instrumento musical o cualquier otra actividad motriz. Por ejemplo, cuando aprendemos a andar en bicicleta, los datos que recibimos del ambiente son los que ingresan a través de nuestros sentidos (visión, tacto, y oído). Basándose en estos datos, nuestro cerebro predice si estamos avanzando, manteniendo el equilibrio o nos hemos caído. La señal de recompensa viene en forma de estímulo, que es la sensación de emoción o plenitud que sentimos cuando avanzamos sin caernos, o en forma de castigo, que es el dolor o frustración que sentimos cuando nos caemos. Basándose en estos datos, ajustamos nuestras acciones (por ejemplo, pedalear, mantener la postura y dirigir el manubrio) hasta dominar la conducción de la bicicleta.
A nivel computacional, la señal de recompensa con la que un algoritmo aprende se transmite a través de números reales. Típicamente, un número positivo representa un estímulo y un número negativo representa un castigo. Mientras más grande sea el valor numérico, más alto será el estímulo y viceversa.
¿Por qué es importante el aprendizaje por refuerzo?
Se han desarrollado varias aplicaciones de aprendizaje por refuerzo que han tenido y tienen un gran impacto en la sociedad. Por ejemplo, en 2016 AlphaGo, un algoritmo entrenado con aprendizaje por refuerzo, le ganó en 4 de 5 partidas a Lee Sedol, que en ese momento fue el campeón mundial del juego del Go. De la misma manera, en la industria de los vehículos autónomos, se usa este tipo de aprendizaje para entrenar a los pilotos automáticos en la conducción. En robótica, el aprendizaje por refuerzo se usa para entrenar a robots para que se adapten a diferentes entornos para realizar tareas variadas con alta eficiencia. Otro campo de aplicación es en el ajuste fino de modelos de lenguaje grandes, donde el aprendizaje por refuerzo ha sido utilizado para mejorar continuamente la calidad de sus respuestas, haciéndolas más útiles y precisas para el usuario. Gracias a este proceso, los modelos de lenguaje grandes han pasado de ser meros diccionarios digitales para convertirse en agentes conversacionales que, inclusive, simulan capacidad de razonamiento, donde ChatGPT y DeepSeek han captado la mayor atención del público general.
¿Qué es el premio Alan Turing?
El premio Alan Turing es el máximo galardón que se otorga en el ámbito de las ciencias de la computación. Desde 1966 se lo otorga anualmente por parte de la Association for Computing Machinery (ACM) a aquellas contribuciones que han transformado de manera profunda y duradera el campo de la computación. Por esta razón se lo denomina coloquialmente como el “Premio Nobel de Computación”. Este premio se entrega en homenaje a Alan Mathison Turing, matemático y pionero inglés cuya formulación del concepto de algoritmo y la invención de la máquina de Turing en 1936 sentaron las bases de la computación moderna. Desde su creación, este galardón ha evolucionado para, aparte de una medalla y diploma de reconocimiento, incluir también un incentivo económico de un millón de dólares, el cual se reparte en partes iguales entre los ganadores.
¿Quién es Andrew Barto?
Andrew G. Barto nació en 1948 en Estados Unidos de América. En 1970 se graduó con honores en matemáticas en la Universidad de Michigan. Obtuvo su doctorado en ciencias de la computación en 1975 en la misma institución. Inició su carrera académica en 1977 en la Universidad de Massachusetts Amherst, donde fue promovido a profesor asociado en 1982 y a profesor titular en 1991. En esta universidad, dirigió el Departamento de Ciencias de la Computación entre 2007 y 2011, y además cofundó el Laboratorio de Aprendizaje Autónomo. Barto es ampliamente reconocido en el campo de la IA por sus contribuciones fundamentales para el desarrollo de algoritmos esenciales de aprendizaje por refuerzo, como Q-learning. Es también coautor, junto a Richard Sutton, del libro Reinforcement Learning: An Introduction.
¿Quién es Richard Sutton?
Richard S. Sutton nació en Estados Unidos de América y, en su vida adulta, adoptó la ciudadanía canadiense mediante naturalización. Obtuvo su licenciatura en psicología en la Universidad de Stanford en 1978, y continuó su formación en la Universidad de Massachusetts Amherst, donde obtuvo su maestría en 1980 y su doctorado en 1984, bajo la dirección de Andrew Barto. Tras trabajar en la industria estadounidense, en laboratorios como GTE y AT&T Shannon, Sutton se consolidó en la academia como profesor en la Universidad de Alberta en Edmonton – Canadá en 2003, donde lideró hasta el 2018 el Laboratorio de Aprendizaje por Refuerzo e Inteligencia Artificial. Sus contribuciones fundamentales incluyen el desarrollo de algoritmos de aprendizaje por refuerzo basados en diferencias temporales y policy gradient.
Según ha relatado David Silver, uno de sus ex estudiantes destacados de doctorado y pionero de AlphaGo, Sutton dirigió su tesis doctoral en un momento en el que atravesaba serias dificultades de salud, llegando incluso a estar su vida seriamente comprometida. Esta experiencia destaca tanto la dedicación como el compromiso de Sutton con la formación y el avance del conocimiento en su área, pese a sus vicisitudes y desafíos personales. Adicionalmente, desde 2019 he tenido el privilegio de conocer e interactuar con el Dr. Sutton, y la cualidad más importante que puedo destacar es su amplia apertura para mantener conversaciones de alto nivel intelectual y científico.
Conclusión
El campo de la IA sigue acumulando premios destacados de talla mundial. En 2024 ganó dos premios Nobel [puede leer el artículo La inteligencia artificial ganó dos premios Nobel en el 2024] y esta vez, en 2025, Andrew Barto y Richard Sutton han obtenido el prestigioso premio de computación Alan Turing. Este premio les ha sido entregado por su destacada contribución para sentar las bases y desarrollar algoritmos muy importantes de aprendizaje por refuerzo. Estos algoritmos son un componente clave de aplicaciones modernas que abarcan desde juegos hasta sistemas autónomos y agentes conversacionales de última generación.