Skip to content Skip to footer

Google asta Gemini, un maniquí de inteligencia fabricado capaz de pasar a los humanos en comprensión del habla multitarea | Tecnología


La carrera por la inteligencia fabricado (IA) se ha convertido en una prueba de velocidad. A los avances en ChatGPT, que ya va por su cuarta lectura, y los consecutivos anuncios de las grandes multinacionales de sus propios sistemas, Google ha respondido este miércoles con el propagación de Gemini, una plataforma de inteligencia fabricado multimodal que puede procesar y ocasionar texto, código, imágenes, audio y vídeo desde distintas fuentes de datos. La lectura Extremista, “acondicionado a comienzos del próximo año”, según ha anunciado Eli Collins, vicepresidente de productos en Google DeepMind, supera a los humanos en comprensión masiva del habla multitarea (MMLU, por sus siglas en inglés), una remisión de evaluación creada a partir de 57 materias de ciencias, tecnología, ingeniería, matemáticas (STEM), humanidades y ciencias sociales.

“Gemini es nuestro decano y más capaz maniquí de IA”, asegura Collins, quien explica que está “inspirado en la forma en que las personas entienden el mundo e interactúan con él”. “Se percibe más como un colaborador útil y menos como una aposento inteligente de programación”, afirma.

Durante la presentación, Gemini ha sido capaz de identificar una forma geométrica, analizar la formulación para advertir su dominio y descubrir un error en la misma para proponer y explicar un resultado acertado al problema. De esta forma, es capaz de arrojar resultados a partir de datos de imagen, texto alfanumérico y voz. Igualmente ha identificado diferentes formas y dibujos, algunos a partir solo de puntos dispersos, y proponer usos de las figuras o de los objetos presentados o elaborar un relato a partir de propuestas alternativas o desarrollar gráficos actualizados con la información buscada por la propia plataforma.

Según el vicepresidente de DeepMind, ha obtenido más de un 90% de puntuación en MMLU, el sistema de evaluación para comprensión del habla multitarea. “Es el primer maniquí de IA que supera a los expertos humanos en este punto de remisión standard de la industria”, afirma. Gemini además ha ratificado (59,4%) el examen de “comprensión de tareas multimodales que incluyen demandas que requieren un razonamiento deliberado”.

Gemini no es una aplicación sino la plataforma para sobrellevar este extremo maniquí de inteligencia fabricado a los servicios existentes, desde Bard, el chat de Google competidor de ChatGPT, hasta el buscador o los gestores de servicios o los móviles con Android o los centros de datos a gran escalera.

Para esto, estarán disponibles tres “tamaños” de Gemini: el Nano, que ya se puede usar por parte de los desarrolladores de Android; el Pro, que estará acondicionado a partir del 13 de diciembre y el Extremista, que se podrá implementar a partir de principios de año en una momento aún por determinar. Los desarrolladores y clientes empresariales podrán consentir a Pro a través de la API Gemini en Google AI Studio o Vertex AI. A través de AICore, los desarrolladores de Android además podrán crear aplicaciones con Nano.

Bard

Sissie Hsiao, responsable de asistentes y Bard ha anunciado que Gemini se incorpora ya a este extremo chat en inglés para 180 países y se extenderá al resto de idiomas progresivamente, aunque ha admitido que tendrán que confirmar que su expansión es compatible con la inminente norma europea sobre inteligencia fabricado, que incluye estas plataformas de diálogo entre sus desarrollos regulables. Y con su inclusión en Bard, se extenderá a todas las aplicaciones compatibles.

El proceso será en dos fases: la primera utilizará una lectura de Pro, que dotará al chat de “razonamiento más renovador, planificación, comprensión y otras capacidades”, según Hsiao; y la segunda, a principios del próximo año, con mejoras que culminarán con la prohijamiento de la lectura Extremista.

Gemini ha nacido como multimodal, es afirmar, no se ha entrenado con diferentes modalidades de datos y se han unificado luego las capacidades diferenciadas, sino que su programación ya parte de la diversificación de fuentes. Según explica Collins, “esto ayuda a Gemini a comprender sin problemas todo tipo de entradas mucho mejor que los modelos existentes y sus capacidades son de última concepción”.

Igualmente es capaz de programar incluyendo desarrollos complejos. En este sentido, Amin Vahdat, vicepresidente en Google Cloud, asegura: “En el futuro, veremos a los programadores haciendo uso de modelos de IA de ingreso capacidad como herramientas colaborativas que ayudan con todo el proceso de expansión de software, desde el razonamiento sobre los problemas hasta la afluencia con la implementación, el rendimiento y las capacidades”.

Sobre la seguridad, Google afirma que Gemini supera “las evaluaciones más completas de todos los modelos hasta la momento”. La compañía asegura que ha sometido a la plataforma a todos los riesgos existentes y potenciales y que mantiene un examen continuo que incluye “pruebas de estrés”. Igualmente se han superpuesto los principios de IA de la propia compañía, que establecen las normas éticas de sus desarrollos.

Pese a los avances, Gemini no es infalible, según reconocen sus responsables. Admiten que arrojará errores y alucinaciones (respuestas de apariencia segura no justificada por datos). “Hemos progresado mucho y Gemini es nuestro mejor maniquí en ese sentido, pero todavía es, diría yo, un problema de investigación sin resolver”, admite Collins.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para acoger nuestra newsletter semanal.



Creditos a Raúl Citrón

Fuente

Leave a comment

0.0/5