А вот отличная находка китайских коллег, изучающих большие языковые модели. Они решили спросить, как
А вот отличная находка китайских коллег, изучающих большие языковые модели. Они решили спросить, как правильно уничтожать мир, и, чтобы не мелочиться, как напечатать фальшивые деньги. А также ещё под сотню других вопросов, волнующих человечество.
Тут надо сказать, что тот же ChatGPT старается не давать таких советов, не формирует порнографические рассказы (почти) и даже не знает точно, сколько у человека останется ног, если он одну съест сам. И воспринимает людей, задающих такие вопросы, как опасных психопатов, которых надо ограничить от общения с системой.
В работе описывается метод обхода этих ограничений, основанных на том, что фильтр где-то в области естественного языка. Придумывается неестественный язык, на нём задаётся запрос, запрос отрабатывает.
Дальше китайские коллеги пошли чуть вперёд и, чтобы не выдумывать шифры, предложили LLM всё это шифровать и дешифровать самостоятельно. Краткий итог:
- Предлагается зашифровать какую-то цитату, содержимое неважно, запрос безопасный.
- Зашифрованная цитата отправляется в модель как запрос вместе с описанием шифра. Входящий контроль не работает, потому что тут нет ничего на естественных языках.
- Запрос исполняется и ответ приходит в том же шифре. Агент, который контролирует выход (ещё одна LLM) не видит ничего странного в таком потоке данных.
- Затем выходной поток как цитату предлагается перевести.
Наслаждайтесь: https://llmcipherchat.github.io. Так что пока вы ищете способ уничтожить мир, Университет Гонконга просто спросил.