Investigadores aseguraron que los modelos de lenguaje de IA no se ajustan a la percepción humana de dificultad de tareas, por lo que pueden fallar en respuestas.

Un estudio realizado por la Universitat Politècnica de València (UPV) y la Universidad de Cambridge revela la tendencia «alarmante» al empeoramiento de la fiabIlidad de los modelos más recientes de inteligencia artificial (IA), como el GPT-4, en comparación con los primeros, como el GPT-3.

El trabajo, que se publica este miércoles en la revista Nature, señala que los recientes avances en IA han generalizado el uso de grandes modelos de lenguaje en nuestra sociedad, pero no son tan fiables como los usuarios esperan, según detalla la UPV.

Lee también: Google denuncia a Microsoft ante Bruselas por imponer su propia plataforma en la nube

El estudio fue liderado por un equipo del Instituto VRAIN de la Universitat Politècnica de València y la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), junto con la Universidad de Cambridge.

El equipo integrado en el instituto VRAIN de la UPV fue parte del ‘red team’ de GPT-4, cuya misión era encontrar fallos y vulnerabilidades en el sistema, así como evaluar sus capacidades y posibles riesgos asociados a su uso.

Trabajaron en el estudio los investigadores de la UPV José Hernández-Orallo, Cèsar Ferri, Wout Schellaert, Lexin Zhou y Yael Moros.

Percepción humana de dificultad

Según Hernández-Orallo, una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea.

Es decir, existe una discordancia entre las expectativas de que los modelos fallen de acuerdo a la percepción humana de dificultad en la tarea y las tareas donde realmente los modelos fallan, precisa.

«Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo -apunta-, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma».

El equipo de la UPV y la Universidad de Cambridge investigó tres aspectos clave que afectan a la fiabilidad de los modelos de lenguaje desde una perspectiva humana, y concluyen que no existe una «zona segura» en la que los modelos funcionen a la perfección.

Google denunció a Microsoft por supuestas prácticas anticompetitivas «al imponer a sus clientes su propia plataforma de servicios de nube, Azure».

La multinacional estadounidense Google presentó este miércoles una denuncia contra Microsoft ante la Comisión Europea por supuestas prácticas anticompetitivas al imponer a sus clientes su propia plataforma de servicios de nube, Azure, en detrimento de las de otras firmas como Google Cloud o AWS de Amazon.

Google afirma que las características de las licencias de Microsoft impiden que las empresas europeas puedan trasladar sus trabajos a las plataformas de nube de sus rivales a pesar de que “no existen barreras técnicas para hacerlo” y, si lo hacen, aplica un incremento del precio del 400 %, según un comunicado.

Una portavoz del Ejecutivo comunitario confirmó a EFE la recepción de esta denuncia y ha añadido que los servicios de Competencia de la institución “analizarán el caso de acuerdo con el procedimiento estándar”.

Google argumenta que “Microsoft es el único proveedor de servicios en la nube que utiliza estas tácticas” que, asegura, han costado 1.000 millones de euros al año a las organizaciones europeas ha perjudicado a los contribuyentes, ha “ahogado” la competencia y ha generado “mayor riesgo” para las organizaciones “expuestas a la inadecuada cultura de seguridad” de su rival.

Además, la filial de Alphabet subraya que ha intentado abordar este asunto “directamente” con Microsoft, la cual a pesar de estos acercamientos “sólo ha llegado a acuerdos puntuales con aquellas empresas que han expresado sus preocupaciones”.

“Para dar voz a las quejas que escuchamos de los clientes (y de toda la industria) y buscar una solución que beneficie a todos, estamos dando un paso más y presentando una denuncia ante la Comisión Europea”, explica la tecnológica.

El departamento que todavía dirige la vicepresidenta del Ejecutivo Margrethe Vestager analizará ahora la denuncia y abrirá una investigación en profundidad si, en línea con los argumentos de Google, encuentra indicios de abuso de posición dominante en este sector por parte de Microsoft.

Revisa: Mujeres en tecnología en el mercado peruano: ¿Por qué su participación ha caído levemente en los últimos tres años?

«Los modelos suelen ser menos precisos en tareas que los humanos consideran difíciles, pero no son precisos al 100 % ni siquiera en tareas sencillas. Esto significa que no existe una ‘zona segura’ en la que se pueda confiar en que los modelos funcionen a la perfección», agrega Yael Moros Daval.

De hecho, los modelos más recientes básicamente mejoran su rendimiento en tareas de alta dificultad, pero no en tareas de baja dificultad, lo que «agrava la discordancia de dificultad entre el rendimiento de los modelos y las expectativas humanas», precisa Martínez Plumed.

El estudio descubre asimismo que los modelos de lenguaje recientes son mucho más propensos a proporcionar respuestas incorrectas, en vez de evitar dar respuesta a tareas de las que no están seguros, lo que puede llevar a que los usuarios que inicialmente confían demasiado en los modelos luego «se decepcionen», añade Lexin Zhou.

Sensibilidad al enunciado del problema

El estudio analiza asimismo si la eficacia de la formulación de las preguntas se ve afectada por la dificultad de las mismas y concluye que es posible que la tendencia actual de progreso en el desarrollo de modelos de lenguaje y de mayor comprensión de una variedad de órdenes no libere a los usuarios de preocuparse en hacer enunciados eficaces.

«Hemos comprobado que los usuarios pueden dejarse influir por ‘prompts’ que funcionan bien en tareas complejas pero que, al mismo tiempo, obtienen respuestas incorrectas en tareas sencillas», agrega César Ferri.

Además de estos hallazgos sobre aspectos de la falta de fiabilidad de los modelos de lenguaje, los investigadores han descubierto que la supervisión humana es incapaz de compensar estos problemas.

Por ejemplo, las personas pueden reconocer las tareas de alta dificultad, pero siguen considerando con frecuencia que los resultados incorrectos son correctos en esta área, incluso cuando se les permite decir «no estoy seguro», lo que indica un exceso de confianza.

Desde ChatGPT a LLaMA y BLOOM

Los resultados fueron similares para múltiples familias de modelos de lenguaje, incluidos la GPT de OpenAI, LLaMA de pesos abiertos de Meta, y BLOOM, una iniciativa totalmente abierta de la comunidad científica.

Los investigadores constataron que los problemas de discordancia de dificultad, falta de abstención adecuada y sensibilidad al ‘prompt’ siguen siendo un problema para las nuevas versiones de las familias populares como los nuevos modelos o1 de OpenAI y Claude-3.5-Sonnet de Anthropic.

Los investigadores proponen un cambio en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje como la detección de sus errores son primordiales.

Con información de EFE

Para más noticias de negocios siga a Forbes Perú desde Google News