Skip to content Skip to footer

José Hernández-Orallo, hábil en IA: “No se pueden usar los baremos de los seres humanos para evaluar la inteligencia químico” | Tecnología


José Hernández-Orallo (Kennington, Londres, 51 primaveras) consiguió su primer ordenador, con 10 primaveras, en una rifa. “Era un Spectrum, mi hermano se hacía una colección de una ilustración de informática por fascículos y, si la acababas, entrabas en la rifa”, recuerda. La ganaron. “Jugábamos, como cualquier escuincle de ahora, pero además programábamos, teníamos un control completo del ordenador. No son como los de ahora”. Hoy es doctor y profesor de la Universidad Politécnica de Valencia, hábil mundial en evaluación de inteligencia químico y ha liderado la carta que, próximo a otros 15 investigadores, ha publicado la revista Science en la que reclaman la penuria de “repensar” la evaluación de las herramientas de IA para avanzar en dirección a unos modelos más transparentes y retener cuál es su efectividad positivo, qué es lo que pueden y no pueden hacer.

Pregunta. ¿Qué le parece la intrepidez de Geoffrey Hinton de dejar su trabajo en Google para poder advertir con viejo sencillez de los peligros que plantea la inteligencia químico?

Respuesta. Lo que dice Hinton es suficiente regular, pero me sorprende un poco que lo diga ahora, cuando eso mismo lo venimos diciendo desde hace tiempo en centros como el Centre for the Study of Existential Risk o el Leverhulme Centre for the Future of Intelligence [ambos de la Universidad de Cambridge y a los que está afiliado]. Y yo creo que él ha dicho cosas parecidas antaño, quizás no tan claras ni tan suspensión. Me sorprende que Hinton se dé cuenta ahora que los sistemas artificiales y naturales son muy diferentes, y lo que vale para unos (capacidades, evaluación, control, ética, etc.) no tiene por qué funcionar para los otros, excepto del hecho obvio de la escalera y la multiplicidad (se pueden replicar, comunicar y desempolvar mucho más rápido que los humanos). Pero es bienvenido que un sabio tan relevante diga esto así y ahora. Hay una coincidencia muy reincorporación en los riesgos, aunque podamos retrasar en las prioridades. Por ejemplo, yo no creo que la vivientes de material desleal (texto, imágenes o vídeo) sea tan problemático, ya que subir nuestro desconfianza y obligarnos a contrastar las fuentes es sano. Me preocupan más algunas soluciones al “problema del alineamiento” que están permitiendo que ciertos países, grupos políticos o religiosos alineen la IA a sus intereses e ideología, o que se censuren los sistemas de IA en una dirección particular. La palabra “alineamiento”, entendida como “alineamiento único”, me recuerda épocas muy oscuras de la humanidad.

P. ¿Cómo llegó a la inteligencia químico?

R. Había otra ilustración en casa, de la progreso humana. Me fascinaba la inteligencia, cómo había evolucionado y quería entenderla. Incluso leía libros de filosofía. Y, con todas las piezas juntas, estudié Informática porque era lo que estudiaba mi hermano aunque, entonces, la inteligencia químico era la porción de una asignatura. A posteriori hice la juicio en el sección de Razonamiento y Filosofía de la Ciencia en la Universidad de Valencia, que tenía un software más orientado a la filosofía de la inteligencia químico. Me cautivó y siquiera tenía más opciones porque no teníamos medios. Fue un año en el que conseguí por otra parte trabajar en lo que me gustaba, escribir un compendio y hacer la prestación social sustitutoria. A veces no eliges, va una cosa detrás de la otra pero al final me dedico a lo que siempre me ha gustado que es entender la inteligencia, tanto la natural como la químico.

P. ¿Qué es la evaluación de los sistemas de inteligencia químico?

R. Sabemos para qué sirven las bicis o los robots de cocina, y las tareas que pueden hacer, y se evalúan desde el punto de aspecto de calidad. Hasta hace poco, los sistemas de inteligencia químico iban por ese camino. Si tenían que clasificar perros y gatos, lo que interesaba es que clasificaran lo mejor posible perros y gatos. Eran sistemas orientados a una tarea. Si sabes cómo evaluarla, sabes si sirve para la tarea que quieres y cuántos fallos comete. Pero eso difiere mucho de sistemas como GPT4, que tienen capacidad cognitiva.

P. ¿Cómo son ahora esos sistemas?

R. Un sistema es bueno si te vale, si cumple tus expectativas, si no te sorprende negativamente. La IA son sistemas de propósito universal. Hay que determinar qué son capaces de hacer en almohadilla a la forma que tú les das las instrucciones. Son suficiente buenos pero no son seres humanos, se piensa que van a reaccionar igual que una persona y ahí empiezan los problemas. Contestan con cierta seguridad y crees que es correcto. Eso no quiere opinar que los humanos contesten siempre correctamente pero estamos acostumbrados a calibrar a la masa, retener si son fiables o no y estos sistemas no funcionan con las intuiciones que usamos con los seres humamos.

P. ¿Y cómo se puede mejorar las evaluaciones en estas herramientas de propósito universal, capaces de hacer tantas cosas?

R. Pues es poco que se ha intentado. Se candela evaluación basada en capacidades, no en tareas. Hay una enorme tradición y una ciencia para ese tipo de evaluaciones pero muchos se han atrevido a usar los mismos test que se utilizan para los humanos e intentar aplicarlos en IA y no están pensados para máquinas. Es como usar un termómetro de hormaza para tomar la temperatura corporal, no va a funcionar.

P. ¿Pero existe la forma de evaluar la inteligencia químico por capacidades?

R. Es lo que estamos intentando desarrollar. Por ejemplo, GPT4 da una evaluación con test, sobre todo de educación, test de comunicación a la universidad, de química, física, de idioma, un poco de todo. Intentar comparar el resultado que obtiene con los de los humanos y opinar que está al 70% del percentil no tiene ningún sentido. Puede ser un indicador pero eso no quiere opinar que está por encima del 70% de la masa. Cuando aplicas estos instrumentos sobre humanos asumes un montón de cosas, que puede traer un café, por ejemplo… ahora dile al sistema que te traiga un café.

P. Entonces ¿no hay forma de evaluarlos?

R. No podemos evaluar cómo funcionan por tareas porque no acabaríamos nunca. Para la evaluación de un sistema como estos hay que extraer indicadores, en este caso capacidades, que permitan inferir cómo va a funcionar el sistema en el futuro. No es dar un número. Debemos poder comparar humanos y sistemas de inteligencia químico pero se está haciendo mal. Es un sistema muy enrevesado, pero no pierdo la esperanza. Estamos como estaba la física en siglo XV o XVI. Ahora es todo muy confuso. Hay que romper esquemas y el objetivo final es, en décadas o siglos, salir a una serie indicadores universales que se puedan aplicar no solo a humanos y a inteligencia químico sino a otros animales.

P. ¿Entiende que dé miedo?

R. Nosotros somos una especie en el contexto de la progreso y solo somos un tipo de inteligencia de las que puede acontecer. A veces nos creemos que somos sublimes pero hemos llegado ahí por un montón de azares de la progreso. Lo más parecido son los bonobos y hay un brinco importante porque hemos adquirido habla y creemos que somos una cúspide en la escalera natural y no es así. Con la inteligencia químico, nos preguntamos cuál es nuestro ocasión. La diferencia es que nuestra progreso se nos ha cubo y existe el suficiente consenso de que no juguemos ni nadie inicio a hacer especies nuevas pero, con la inteligencia químico estamos jugando y cuando juegas te puedes liquidar. Estamos llegando a unos niveles de sofisticación que los juegos no son bromas y hay que tomárselos en serio. Es fascinante, es como crear un nuevo mundo.

P. Los autores de la carta proponen una hoja de ruta para los modelos de IA, en la que sus resultados se presenten de forma más matizada y los resultados de la evaluación caso por caso se pongan a disposición del divulgado.

R. Sí. El nivel de recuento ha de ser viejo. En otros casos, con los datos de entrenamiento, operación y código, lo puedo ejecutar pero con estos sistemas es ficticio por el coste computacional y energético.

P. Pero ¿pueden ser más transparentes?

R. Se puede ser transparente en el proceso. Lo que pedimos es que se sea más detallado en los resultados. Que se dé comunicación a los detalles en cada uno de los ejemplos. Si hay un millón de ejemplos quiero los resultados para cada uno del millón de ejemplos porque yo no tengo capacidad de reproducir eso y no solo porque no tengo comunicación al cuenta y eso limita lo que es sustancial en ciencia que es el recuento por pares. No tenemos comunicación a las partes en las que descompostura.

P. ¿La regulación es una decisión?

R. Es necesaria pero se tiene que hacer proporcionadamente. Si no se regula, habrá rebotes seguro. Si no regulas la aviación, se producen accidentes, la masa pierde confianza y la industria no despega. Si pasa poco grasa, la reacción de la sociedad puede ser ponerse en contra de estos sistemas y a medio y derrochador plazo tendrán menos difusión y uso del que pueden tener para unas herramientas que, en universal, son positivas para la sociedad. Hay que regular pero no frenar demasiado. La masa tiene miedo a estallar pero sabemos que la regulación de la aviación es de las más estrictas, que los aviones son uno de los medios de transporte más seguros y las compañías saben que, a derrochador plazo, es benéfico para ellas.

P. ¿Puede acontecer una regulación para todos, mundial?

R. Existe una Agencia de Energía Atómica y acuerdos de ADN recombinante. Ha fallado en los alimentos modificacdos genéticamente, los países no se ponen de acuerdo y en Europa estamos consumiendo estos alimentos pero no podemos hacerlos, y eso es lo que nos puede tener lugar. La regulación de la UE puede tener errores pero hay que lanzarse y ponerla en marcha.

P. ¿Cree que esta regulación debe ser estricta o laxa?

R. Creo que se ha de particularizar al grosor. Ha de ser estricta con los grandes y más laxa con los pequeños. No le puedes exigir lo mismo a Google que a una startup de cuatro chavales en la universidad porque si no matas la innovación.

P. ¿Ha existido de nuevo un desfase entre la regulación y la ciencia?

R. Es que la inteligencia químico va muy rápida y hay cosas que no se pueden anticipar. Es difícil regular poco que es tan transversal, tan cognitivo. Vamos lentos pero además llegamos tarde con las redes sociales y tardamos siglos con el tabaco.

P. ¿Arrojaría poco de luz retener cómo funcionan las cajas negras?

R. Las cajas negras no explican qué es lo que hace el sistema. Para efectivamente retener qué es, cuándo descompostura y qué expectativas tiene, se necesita mucha evaluación. Para evaluar a los alumnos no les hacemos un escáner, les hacemos un test. Si queremos retener cómo funciona un coche, queremos retener si han probado si se sale o no en una curva y no me va a ayudar retener cuántas bujías tiene sino retener cuántas pruebas han hecho. Por eso es fundamental el tema de la evaluación. Lo que queremos es probar esos sistemas hasta delimitar en qué dominio lo puedes usar de una forma segura. Así se evalúan coches y aviones.

P. ¿Por qué la inteligencia químico crea esa ansiedad?

R. Se están haciendo esfuerzos de divulgación pero su objetivo no es entender cómo funciona. La crítica a OpenAI, es que ha cubo comunicación al sistema más potente de inteligencia químico a cientos de millones de personas, incluidos niños y personas con problemas mentales, con una cláusula con la que no se hacen responsables y esa es la civilización que tenemos hoy en día. Nos bajamos aplicaciones y nadie se hace responsable. Creo que han pensado que si no hacen que la masa lo use, cómo van a retener los riesgos. Pero se pueden hacer pruebas piloto. Ellos dicen que existe un comunicación escalonado pero es una política de carrera. Es un combate a Google en su negocio buscadores para ser líderes. Y la masa tiene miedo porque unos cuantos actores lo dominan todo y es un oligopolio.

Puedes seguir a EL PAÍS Tecnología en Facebook y Twitter o apuntarte aquí para aceptar nuestra newsletter semanal.

Suscríbete para seguir leyendo

Lee sin límites



Creditos a María Fabra Bellido

Fuente

Leave a comment

0.0/5