Китайские исследователи опять издеваются над большими языковыми моделями. На этот раз они заставляют их считать, для чего подсовывают обучающие выборки с примерами и ответами. Они на картинках. Там, например, есть сет из нескольких миллионов записей, каждая состоит 2-10 операций. Ответы пошаговые, как если бы решал человек, то есть действие за действием через равенства. Смысл — научить модель считать, не выполняя привычных арифметических действий. То есть делить нельзя, но надо проследить закономерность в получающихся числах и попробовать дать ответ на основании чего-то другого. Это как решение через интуицию. Короче, вам надо перемножить восьмизначные числа, но калькулятора нет, надо примерно угадать. Точность GPT-4 — 18,84%. Особенно херово ему даётся умножение, но при этом с делением проблем почти никаких. У MathGLM на 2 милларда параметров — 93,03%. Вопрос тут зачем они это делают. И, главное, нафига. Не модели, их, понятно, заставили. А учёные. Ответ — ради фундаментальной науки. Во-первых, мы почему-то считаем, что текущие методы хорошо и эффективно работают и кажутся нам оптимальными. Это мы ещё посмотрим. Во-вторых, в процессе можно наткнуться на что-то интересное и уничтожить мир (а за это дают сразу миллион опыта и ачивку!). В-третьих, может, вдруг да это поможет научить модели думать другими путями. Например, если нам будут нужны быстрые примерные ответы или оценка Байесовых вероятностей. Короче, пока не попробуем, не узнаем. Если бы мы не пробовали, то так и остались бы без пенициллина, динамита, суперклея, микроволновки и виагры. И без знания, что моча лося, поевшего мухоморы... Ладно, вы поняли. Вот тут лежит описание исследования: https://arxiv.org/pdf/2309.03241.pdf #как_размножаются_ёжики
🔥: 26
👍: 10