Skip to content Skip to footer

Las grabaciones de la vida de un bebé de un año entrenan a una IA para asimilar palabras | Tecnología

Desde su arranque, los bebés comienzan a cobrar estímulos visuales y auditivos, esenciales para asimilar poco imprescindible en sus vidas: el habla. Entre los seis y nueve meses, comienzan a balbucir, asocian sonidos con objetos y conceptos del mundo efectivo. Al demorar a los dos primaveras, ya suelen contar con un vocabulario de aproximadamente 300 palabras. Pero, ¿cómo se desarrolla este proceso de enseñanza? Un equipo de investigadores de la Universidad de Nueva York estudió grabaciones de la vida cotidiana de un criatura durante su primer año de vida para encontrar la respuesta. El intento no solo confirmó la conexión entre la representación visual y gramática —es aseverar, lo que se ve y la palabra que le corresponde—, sino que todavía contribuyó al progreso de un maniquí de inteligencia sintético (IA), que ha conseguido explorar distintos objetos de forma similar a como lo hacen los niños.

“Los grandes sistemas de IA se entrenan y funcionan gracias a una cantidad de datos astronómica. Hablamos de miles de millones de palabras para poder desarrollar un sistema de habla”, explica Wai Keen Vong, doctor en psicología y ciencia computacional, que ha coordinado del estudio que se ha publicado este jueves en la revista Science. “Sin requisa, los humanos necesitan solo unos pocos miles de palabras para alcanzar un sistema de comunicación efectivo”, añade. De este contraste, nació el interés en investigar si una IA sería capaz de asimilar a balbucir de la misma forma que los niños: observando su entorno, escuchando a las personas que los rodean y conectando puntos entre lo que ven y oyen.

La adquisición temprana del habla es un tema ampliamente debatido y por el cual se han propuesto varias hipótesis. Tradicionalmente, este tipo de estudios se ha llevado a parte en entornos controlados de laboratorio, lo que ha donado como resultado descubrimientos que a menudo no se extrapolan eficazmente a contextos más dinámicos y variados del mundo efectivo. “La novedad de este descomposición reside en el hecho de que pudimos trabajar con datos de primera mano, derivados de una situación efectivo de enseñanza”, recalca Vong.

Con este objetivo, el equipo de Vong analizó 61 horas de la vida de Sam, un criatura australiano que durante un año y medio —desde los seis a los 25 meses de tiempo— llevó un casco con una cámara que grababa las interacciones que tenía con sus padres y abuelos en el día a día. En efectividad, grabó solamente el 1% del tiempo que pasó despierto durante la duración del intento. Aun así, se han conseguido cientos de imágenes que reproducen exactamente lo que el criatura estaba viendo, acompañadas por las expresiones lingüísticas de sus familiares, que le explicaban la naturaleza de los objetos que lo rodeaban. “Por ejemplo, durante la hora de la comida, la cámara en su persona grababa la imagen de una cuchara, al mismo tiempo que su hermana le preguntaba poco relacionado con ese utensilio. Y así, con decenas de objetos cotidianos”, explica Vong.

La conexión entre estos dos medios casi nunca es obvia. De hecho, el investigador reconoce que parte del desafío para los bebés es entender exactamente qué palabra se asocia al objeto con el que están interactuando. “La mayoría del tiempo, los padres no están etiquetando cada objeto. Por cada pelota que Sam estaba mirando, sus padres no le decían ‘esta es una pelota’, ‘mira la pelota’. Escuchaba las palabras en un contexto natural, y la dificultad es equitativamente examinar, internamente de una oración más o menos larga, cuál es la palabra que corresponde al objeto claro con el que estaba jugando”, señala Vong.

Entrenar una IA como un bebé

Tras observar el comportamiento del criatura, los investigadores pudieron confirmar que aprendía el significado de las palabras conectando el estímulo visual —es aseverar, la imagen que se le presentaba— con la respuesta de sus familiares, que repetían la palabra correspondiente. Con estos resultados, han pasado a la segunda grado del intento: revisar si una IA sería capaz de asimilar a explorar los objetos de la misma forma que lo hizo Sam.

El maniquí de inteligencia sintético, llamado CVCL (Child’s View for Contrastive Learning, enseñanza contrastivo desde la perspectiva del criatura), ha sido entrenado con 64 categorías visuales —utensilios, juguetes, animales, entre otras— y la transcripción de lo que Sam estaba escuchando mientras miraba a estos objetos. Una vez creada esta cojín de datos, los investigadores han empezado a hacer pruebas para comprobar si la IA era capaz de identificar las imágenes. Según Vong, el maniquí —con información sensorial limitada y mecanismos de enseñanza relativamente genéricos— proporciona una cojín computacional para investigar cómo los niños adquieren sus primeras palabras y cómo esas palabras pueden conectarse al mundo visual.

“Encontramos que CVCL puede asimilar a hacer conexiones entre imágenes y texto a partir de fragmentos limitados de la experiencia de un solo criatura”, destacan los autores en el estudio. En algunos casos, los objetos figuraban sobre un fondo blanco, mientras que en otros en un entorno con más estímulos. De hecho, la precisión de clasificación del maniquí fue del 61.6%, y se mantuvo entrada incluso cuando se insertaron en el sistema imágenes diferentes a las grabaciones de Sam, con las cuales la IA no había sido entrenada. “Los resultados confirman nuestra hipótesis de que con solamente dos impulsos, que son lo que el criatura ve y lo que oye, es posible alcanzar y acelerar este tipo de enseñanza”, destaca Vong.

Estudiar cómo nace el acento

Antonio Rodríguez Fornells, investigador en el Instituto de Neurociencias de la Universidad de Barcelona, señala el aspecto novedoso del estudio, que abre paso para entender, mediante simulaciones computacionales, cuáles son los mecanismos de enseñanza mínimos que utilizan los niños para afrontar el desafío de asimilar un habla: “Los estudios previos en bebés en psicología del progreso aportan información esencia con experimentos muy novedosos, pero la desidia de estudios de neurociencia o neuroimagen en los mismos (por la dificultad de aplicar estas técnicas en bebés) no permite que se avance tanto en la neurociencia como para esclarecer los mecanismos cerebrales que sustentan estos procesos de adquisición del habla”, explica este neurocientífico.

Por otra parte, reconoce que las simulaciones que se plantean en el artículo respaldan ciertas teorías del habla propuestas anteriormente. “Entre ellas, que simplemente con mecanismos simples de enseñanza asociativo (que permiten vincular imágenes y palabras) en un entorno de enseñanza natural (como el que experimentan los niños cuando nacen y en los primeros meses de su vida) es suficiente para poder asimilar estas relaciones y pluralizar el contenido del significado”, añade Rodríguez Fornells.

Aun así, el estudio presenta algunas limitaciones. El maniquí CVCL se entrenó con grabaciones de una sola cámara montada en la persona de un solo criatura, y aprendió a través de las transcripciones de voz en puesto de voz directa, lo que omite matices importantes como la entonación y el intensidad. “Incluso hay que rememorar que el enseñanza del maniquí fue pasivo, basado en grabaciones, sin interacción activa con el entorno, lo cual es diferente a cómo los niños aprenden en entornos reales”, reconocen los autores de la investigación.

Puedes seguir a MATERIA en Facebook, X e Instagram, o apuntarte aquí para cobrar nuestra newsletter semanal.



Creditos a Clara Brascia

Fuente

Leave a comment

0.0/5