En un avance significativo en el campo de la inteligencia artificial (IA), investigadores del Instituto Tecnológico de Massachusetts (MIT) han logrado simular con éxito la visión periférica en modelos de aprendizaje automático. Este logro podría marcar un hito en la mejora de la seguridad de los conductores y brindar una perspectiva invaluable sobre el comportamiento humano.
Los modelos entrenados mostraron una mejora en la detección de objetos en la periferia visual.
La visión periférica, una capacidad inherente en los seres humanos, permite percibir formas y objetos fuera de la línea de visión directa, aunque con un nivel de detalle reducido. Esta habilidad amplía nuestro campo visual y resulta crucial en situaciones cotidianas, como detectar un vehículo que se aproxima lateralmente a un automóvil.
A diferencia de los humanos, los modelos de IA carecían de esta facultad hasta ahora. Los científicos del MIT han desarrollado un conjunto de datos de imágenes que simula la visión periférica en estos sistemas, permitiéndoles identificar peligros potenciales de manera más efectiva o predecir si un conductor humano percibiría un objeto en aproximación.
Aún existía una brecha considerable en comparación con el desempeño humano.
Al entrenar modelos de aprendizaje automático con este conjunto de datos, los investigadores observaron una mejora notable en su capacidad para detectar objetos en la periferia visual. Sin embargo, aún persistía una brecha en comparación con el desempeño humano.
Los resultados también revelaron diferencias fundamentales entre la IA y los humanos. A diferencia de las personas, ni el tamaño de los objetos ni la cantidad de desorden visual en una escena tuvieron un impacto significativo en el rendimiento de los modelos de IA.
«Aquí está sucediendo algo fundamental. Probamos muchos modelos diferentes, e incluso cuando los entrenamos, mejoran un poco, pero no se parecen mucho a los humanos. Entonces, la pregunta es: ¿Qué falta en estos modelos?», expresó Vasha DuTell, postdoctorada y coautora del estudio.
Responder a este interrogante podría permitir a los investigadores construir modelos de IA que perciban el mundo de manera similar a los seres humanos. Además de mejorar la seguridad vial, estos avances podrían utilizarse para desarrollar pantallas más fáciles de ver para las personas.
Anne Harrington MEng ’23, autora principal del estudio, agregó:
«Modelar la visión periférica, si realmente podemos capturar la esencia de lo que se representa en la periferia, puede ayudarnos a comprender las características de una escena visual que hacen que nuestros ojos se muevan para recopilar más información».
Los coautores del estudio incluyen a Mark Hamilton, estudiante de posgrado en ingeniería eléctrica e informática; Ayush Tewari, postdoctorado; Simon Stent, director de investigación del Instituto de Investigación Toyota; William T. Freeman, profesor Thomas y Gerd Perkins de Ingeniería Eléctrica e Informática y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL); y Ruth Rosenholtz, científica investigadora principal del Departamento de Ciencias Cognitivas y del Cerebro y miembro de CSAIL.
La investigación, que se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje, destaca la importancia de comprender la visión periférica humana en la interacción entre personas y máquinas, según afirmó Rosenholtz.
Aunque aún queda camino por recorrer, este avance marca un hito en el desarrollo de sistemas de IA que puedan interpretar el mundo de manera más similar a los seres humanos, abriendo nuevas posibilidades en áreas como la seguridad vial, las interfaces de usuario y la comprensión del comportamiento humano.