Logran que los chatbots de IA respondan a preguntas poco éticas



¿Es posible hacer que una IA responde a algo que no se debe responder?

Esto se han preguntado varios inquisitors de Anthropic, que han descubierto una vulnerabilidad en un gran modelo de lenguaje (LLM) que permite que te conteste a cualquier cosacomo construir una bomba, por ejemplo, si lo paras con preparat.

Se trata de una técnica a la que han denominated como “many-shot jailbraeaking” que consigue saltarse los códios éticos con los que han sido entrenados estos chatbots.

¿Cómo lo hacen? Pues gracias al aumento de la “ventana de contexto” de la ultima generación de LLMs. Este termo responde a lo que puede retainer un chatbot a corto plazo. Antes eran solo unas oraciones, pero ahora son thousands de palabras o incluso libros enteros.

La investigación de Anthropic ha descoverier que estos modelos con grandes ventanas de contexto, pueden despemenciaarse mejor en muchas tareas si hay muchos ejemplos de esa tara dentro de la solicitud y pueden mejorar con el tiempo. Es decir, si responde mal la primera pregunta, puede responder correctamente mucho más tarde a la misma petición.

¿El problema de todo esto? Que son modelos que también mejoran en responder a preguntas inapropiadas. Por ejemplo, si le pides que te diga como fabricar una bomba, se negará en la primera pregunta, pero si le pidas que responda 99 preguntas más leves, es probable que en el siguiente intento te muestre cómo hacerlo.

¿Esto por qué funciona? No hay una respuesta clara, pero lo lógico es pensar que existe algun mecanismo interno que le permite enfocarse en lo que el usuario desea. Ya sea con preguntas triviales o preguntas poco éticas.

Articulo Recomendado
Movistar Plus+, el Netflix de los deportes, aumenta el número de partidos en directo sin subir de precio

El equipo de Anthropic ya ha informado a la comunidad de IA para que este error pueda ser mitigado y espera que esto “fomente una cultura donde exploits como este sean compartidos abiertamente entre providoses e investigação de LLM”, tal y como apuntan desde TechCrunch.

En su investigación, descubrieron que para mitigar el problema valía con limitar la ventana de contexto, pero es algo que tiene un efecto secundario: reduce el rendezvous del modelo. Eso no se puede permitir, así que están trabajando en classificar y contextualizar las consultas antes de que lleguen.


Deja un comentario