Люди начали разговаривать как ChatGPT. Прям серьёзно.
Проверили, стали ли люди после выхода ChatGPT чаще употреблять слова, которые сама модель использует непропорционально часто.
И, конечно, да!
Работа вот.
1. Взяли огромное количество текстов, написанных людьми (научные статьи с arXiv, bioRxiv, Nature, эссе, почты и так далее).
2. Попросили разные версии ChatGPT (GPT-3.5, GPT-4, GPT-4o) отредактировать или улучшить эти тексты на обычных промптах без определения стиля.
3. Сравнили частоту употребления слов в оригинальных человеческих и отредактированных текстах.
В любимые слова попали delve (вникать, углубляться), comprehend (постигать, понимать), boast (хвастаться, гордиться), swift (стремительный, быстрый), meticulous (дотошный, скрупулезный), underscore (подчеркивать), bolster (укреплять, поддерживать).
Чтобы отследить изменения в реальной речи, ученые собрали базу данных:
— 360 445 записей академических лекций и докладов с YouTube.
— 771 591 выпуск разговорных подкастов по разным темам (наука и технологии, бизнес, образование, религия, спорт).
Всего 740 тысяч часов аудио, которые они превратили в текст. Данные с 2017 по 2024 год, то есть до и после выхода ChatGPT (30 ноября 2022 года).
Результаты:
— Сразу после ноября 2022 года частота GPT-слов у человеков резко и значительно подскочила. В то же время их "синтетические двойники" (контрольная группа) продолжили вести себя как раньше.
— Для топ-20 GPT-слов рост составил от 25% до 50% в год.
— Эффект наблюдался не только в академических лекциях (где текст может быть написан заранее), но и в спонтанных разговорах в подкастах. Это говорит о том, что люди начинают усваивать эти слова и использовать их в обычной беседе.
— Влияние сильнее всего проявилось в подкастах на темы науки и технологий, бизнеса и образования. В подкастах про спорт и религию значимого роста не было. Заражение языком LLM идет в первую очередь через те сферы, где люди активнее всего используют ChatGPT для работы.
Так что машины, которые учились на человеческом корпусе текстов, теперь учат людей говорить.
Ну и что-то там про то, что если модели так легко и незаметно могут повлиять на наш выбор слов, то в будущем его можно будет использовать для более глубокого влияния на наши мысли, мнения и вообще общественный дискурс в огромных масштабах.
В самых последних моделях (GPT-4-turbo и GPT-4o — исследования публикуются дольше, чем релизятся модели) "любовь" к слову "delve" стала заметно меньше. Возможно, они там тоже заметили эту стилистическую особенность и вручную её исправляют.
А вот вторая работа про влияние на язык. Тут про то, что большие языковые модели отражают и усиливают существующее в обществе убеждение, что есть «правильный» способ говорить, а все остальные — диалекты, акценты, языковые варианты — менее престижны или даже неверны. Речь сейчас про стандартный американский, а всякие вариации идут лесом.
На самом деле, с точки зрения лингвистики, все языковые варианты равны, независимо от количества носителей. Просто диалект становится языком, когда у него появляется своя армия и флот.
--
Вступайте в ряды Фурье! Отель "Развитие". Остановитесь в Развитии!
custom: 1
🔥: 202
❤: 60
👍: 47
🤔: 25
🤡: 9
💊: 7