Можно ли отличить женский текст от мужского?
Да, есть результаты с точностью около 80%. Работа вот. Английский корпус.
Понадобилось 2 модели: только для художки, точность 79,5% и только для технической литературы — 82,6%.
8 наиболее значимых признаков дают 77% точности.
Мужской стиль — больше слов, которые описывают или специфицируют объекты. Английский в этом плане богат на артикли и их аналоги, у нас — слова-определители. На русском, скорее всего, больше абстрактных указателей типа «система» или «фактор», более частое использование чисел «один ублюдок» вместо «больной ублюдок», больше прилагательных со свойством объекта (стеклянный, деревянный, оловянный и другие степени алкогольного опьянения).
Женский стиль — больше личной вовлеченности и описания связей. На русском аналог — больше «я», «мы», «он», «она», более частое использование союзов «и», «а» и предлогов, указывающих на отношения: «с», «для», «о», «между». Будет больше наречий образа действия и оценки: «очень», «слишком», «совершенно», «удивительно». Прилагательные уедут из описательных в качественные («красивый», «ужасный», «чудный»).
Ещё одна работа про 14 тысяч текстовых образцов. Такая же фигня. Язык женщин более личный, социальный и психологичный. Сфокусирован на людях, их чувствах и отношениях. Язык мужчин более объектно-ориентированный и информативный. Сфокусирован на описании внешнего мира.
Самые большие различия нашлись не в содержательных словах, а в служебных (местоимения, артикли, предлоги). Эти слова показывают, как человек думает и структурирует свою речь.
Моделируем (утрированно, обычно различия гораздо тоньше):
Девочка:
— Мы вчера с друзьями были в новом итальянском ресторане, и я просто в восторге! Там так уютно, я себя чувствовала отлично. Я заказала пасту, и она была невероятно вкусной. Мы так здорово посидели, я так рада была всех видеть. Обязательно туда вернусь!
Мальчик:
— Сходили вчера в тот новый итальянский ресторан. Паста с морепродуктами у них хорошая, порция большая. По ценам — нормально, как везде в центре. Готовят качественно. В общем, место на твердую четверку, зайти поесть можно.
Девочка притворяется мальчиком:
— Мы вчера с парнями заценили тот новый итальянский ресторан. Я вам скажу — место просто пушка! Я реально чувствовал себя там отлично, такая атмосфера располагающая. Мне принесли пасту, и я был в восторге, она была невероятно вкусной. Мы так здорово посидели, я был очень рад всех видеть. Мой итог: я туда точно еще вернусь, 100%
Палится на местоимениях, эмоциональной оценке (немного) и фокусе на социальном аспекте.
Мальчик притворяется девочкой:
— Девочки, всем привет! ✨ Вчера с подружками зашли в новый итальянский ресторанчик. Атмосфера там отличная, интерьер сделан грамотно. Заказали пасту — порция большая, приготовлено хорошо. По ценам всё в рамках стандарта для центра. В общем, моя оценка — твердая четверка. Зайти поесть можно!😉
Палится на системной оценке вместо личной, оценке места по основной функции, а не впечатлениям. Ну и тупое использование смайликов, потому что он не знает, как пишет умная девушка. Наш выдуманный мальчик олень с гендерными стереотипами, если что.
Тут уже 600 текстов французского корпуса, 18-19 века. Такая же фигня. Плюс там были тексты аж с 12-го века, там социальные роли. Например, если религиозный текст, то у мужчины там список братанов — Христос, дьявол, святой, священник, а у женщины — душа, сердце, дух, судьба, воображение, страсть. Персонажи мужчин чаще капитан, доктор, судья, президент, сир, женщин — мать, отец, брат, ребёнок, принц, королева и т.п.
Структурный состав (например, доля глаголов к другим частям речи) одинаковый.
Систематические закономерности очень тонкие. Самое главное — надо много текста. Тот же отзыв на ресторан не получится так посчитать. Нельзя вручную прочитать книгу и сказать, что какое-то местоимение перебалансировано на 1,23%.
--
Вступайте в ряды Фурье! Экспериментальный центр напоминает вам о том, что кубы не умеют разговаривать. В случае, если грузовой куб все же заговорит, центр настоятельно рекомендует вам игнорировать его советы.
custom: 4
🔥: 378
❤: 109
👍: 57
🤔: 28
😁: 26
👀: 11