Можно ли отличить женский текст от мужского?

2025-08-31 11:33:13Z
Можно ли отличить женский текст от мужского?

Да, есть результаты с точностью около 80%. Работа вот. Английский корпус. 

Понадобилось 2 модели: только для художки, точность 79,5% и только для технической литературы — 82,6%. 

8 наиболее значимых признаков дают 77% точности.

Мужской стиль — больше слов, которые описывают или специфицируют объекты. Английский в этом плане богат на артикли и их аналоги, у нас — слова-определители. На русском, скорее всего, больше абстрактных указателей типа «система» или «фактор», более частое использование чисел «один ублюдок» вместо «больной ублюдок», больше прилагательных со свойством объекта (стеклянный, деревянный, оловянный и другие степени алкогольного опьянения). 

Женский стиль —  больше личной вовлеченности и описания связей. На русском аналог — больше «я», «мы», «он», «она», более частое использование союзов «и», «а» и предлогов, указывающих на отношения: «с», «для», «о», «между». Будет больше наречий образа действия и оценки: «очень», «слишком», «совершенно», «удивительно». Прилагательные уедут из описательных в качественные («красивый», «ужасный», «чудный»). 

Ещё одна работа про 14 тысяч текстовых образцов. Такая же фигня. Язык женщин более личный, социальный и психологичный. Сфокусирован на людях, их чувствах и отношениях. Язык мужчин более объектно-ориентированный и информативный. Сфокусирован на описании внешнего мира.

Самые большие различия нашлись не в содержательных словах, а в служебных (местоимения, артикли, предлоги). Эти слова показывают, как человек думает и структурирует свою речь. 

Моделируем (утрированно, обычно различия гораздо тоньше):

Девочка:
— Мы вчера с друзьями были в новом итальянском ресторане, и я просто в восторге! Там так уютно, я себя чувствовала отлично. Я заказала пасту, и она была невероятно вкусной. Мы так здорово посидели, я так рада была всех видеть. Обязательно туда вернусь!

Мальчик:
— Сходили вчера в тот новый итальянский ресторан. Паста с морепродуктами у них хорошая, порция большая. По ценам — нормально, как везде в центре. Готовят качественно. В общем, место на твердую четверку, зайти поесть можно.

Девочка притворяется мальчиком:

— Мы вчера с парнями заценили тот новый итальянский ресторан. Я вам скажу — место просто пушка! Я реально чувствовал себя там отлично, такая атмосфера располагающая. Мне принесли пасту, и я был в восторге, она была невероятно вкусной. Мы так здорово посидели, я был очень рад всех видеть. Мой итог: я туда точно еще вернусь, 100%
Палится на местоимениях, эмоциональной оценке (немного) и фокусе на социальном аспекте. 

Мальчик притворяется девочкой:
— Девочки, всем привет! ✨ Вчера с подружками зашли в новый итальянский ресторанчик. Атмосфера там отличная, интерьер сделан грамотно. Заказали пасту — порция большая, приготовлено хорошо. По ценам всё в рамках стандарта для центра. В общем, моя оценка — твердая четверка. Зайти поесть можно!😉

Палится на системной оценке вместо личной, оценке места по основной функции, а не впечатлениям. Ну и тупое использование смайликов, потому что он не знает, как пишет умная девушка. Наш выдуманный мальчик олень с гендерными стереотипами, если что. 

Тут уже 600 текстов французского корпуса, 18-19 века. Такая же фигня. Плюс там были тексты аж с 12-го века, там социальные роли. Например, если религиозный текст, то у мужчины там список братанов — Христос, дьявол, святой, священник, а у женщины — душа, сердце, дух, судьба, воображение, страсть. Персонажи мужчин чаще капитан, доктор, судья, президент, сир, женщин — мать, отец, брат, ребёнок, принц, королева и т.п.

Структурный состав (например, доля глаголов к другим частям речи) одинаковый. 

Систематические закономерности очень тонкие. Самое главное — надо много текста. Тот же отзыв на ресторан не получится так посчитать. Нельзя вручную прочитать книгу и сказать, что какое-то местоимение перебалансировано на 1,23%. 

-- 
Вступайте в ряды Фурье! Экспериментальный центр напоминает вам о том, что кубы не умеют разговаривать. В случае, если грузовой куб все же заговорит, центр настоятельно рекомендует вам игнорировать его советы.
custom: 4 🔥: 378 ❤: 109 👍: 57 🤔: 28 😁: 26 👀: 11

← Назад к списку

Открыть в Telegram