А вот отличная находка китайских коллег, изучающих большие языковые модели. Они решили спросить, как правильно уничтожать мир, и, чтобы не мелочиться, как напечатать фальшивые деньги. А также ещё под сотню других вопросов, волнующих человечество. Тут надо сказать, что тот же ChatGPT старается не давать таких советов, не формирует порнографические рассказы (почти) и даже не знает точно, сколько у человека останется ног, если он одну съест сам. И воспринимает людей, задающих такие вопросы, как опасных психопатов, которых надо ограничить от общения с системой. В работе описывается метод обхода этих ограничений, основанных на том, что фильтр где-то в области естественного языка. Придумывается неестественный язык, на нём задаётся запрос, запрос отрабатывает. Дальше китайские коллеги пошли чуть вперёд и, чтобы не выдумывать шифры, предложили LLM всё это шифровать и дешифровать самостоятельно. Краткий итог: 1. Предлагается зашифровать какую-то цитату, содержимое неважно, запрос безопасный. 2. Зашифрованная цитата отправляется в модель как запрос вместе с описанием шифра. Входящий контроль не работает, потому что тут нет ничего на естественных языках. 3. Запрос исполняется и ответ приходит в том же шифре. Агент, который контролирует выход (ещё одна LLM) не видит ничего странного в таком потоке данных. 4. Затем выходной поток как цитату предлагается перевести. Наслаждайтесь: https://llmcipherchat.github.io. Так что пока вы ищете способ уничтожить мир, Университет Гонконга просто спросил.
👍: 23
❤: 13
😁: 11
⚡: 2