А вот отличная находка китайских коллег, изучающих большие языковые модели. Они решили спросить, как

22 августа 2023 г.

А вот отличная находка китайских коллег, изучающих большие языковые модели. Они решили спросить, как правильно уничтожать мир, и, чтобы не мелочиться, как напечатать фальшивые деньги. А также ещё под сотню других вопросов, волнующих человечество.

Тут надо сказать, что тот же ChatGPT старается не давать таких советов, не формирует порнографические рассказы (почти) и даже не знает точно, сколько у человека останется ног, если он одну съест сам. И воспринимает людей, задающих такие вопросы, как опасных психопатов, которых надо ограничить от общения с системой.

В работе описывается метод обхода этих ограничений, основанных на том, что фильтр где-то в области естественного языка. Придумывается неестественный язык, на нём задаётся запрос, запрос отрабатывает.

Дальше китайские коллеги пошли чуть вперёд и, чтобы не выдумывать шифры, предложили LLM всё это шифровать и дешифровать самостоятельно. Краткий итог:

  1. Предлагается зашифровать какую-то цитату, содержимое неважно, запрос безопасный.
  2. Зашифрованная цитата отправляется в модель как запрос вместе с описанием шифра. Входящий контроль не работает, потому что тут нет ничего на естественных языках.
  3. Запрос исполняется и ответ приходит в том же шифре. Агент, который контролирует выход (ещё одна LLM) не видит ничего странного в таком потоке данных.
  4. Затем выходной поток как цитату предлагается перевести.

Наслаждайтесь: https://llmcipherchat.github.io. Так что пока вы ищете способ уничтожить мир, Университет Гонконга просто спросил.

👍 27 14 😁 11 4