Есть у Азимова такое фантастическое произведение "Основание", там космические корабли бороздят просторы вселенной, социальные науки, телепатия и прочее. Но самым фантастическим выглядит эпизод, когда совет Терминуса при изменении внешних данных взял и отказался от политической власти. Вот как это описано:
"Вспыхнул свет. Гардин обернулся и увидел, что на него растерянно смотрит Пирен.
– Похоже, вы оказались правы. Если вы посетите нас в шесть часов вечера, думаю, Совет обратится к вам за консультацией по поводу дальнейших действий.
Все советники по очереди пожали руку Гардина и удалились. Гардин улыбнулся. Они были-таки здравомыслящими людьми. И, в конце концов, неплохими учеными, честно признавшими свое поражение."
То есть это нормально в науке. Когда приходят новые данные, можно узнать, что всё, над чём вы работали года три (а то и всю жизнь) — чушь. Или что все ваши гениальные мысли — чушь. Последнее происходит при проверке почти каждой гипотезы и иногда несколько раз в день. Умение быстро пересматривать точку зрения в зависимости от входящих данных и не рефлексировать по поводу того, что хорошо было бы натянуть приятную уютную сову на глобус — это основа рационального мышления.
Ну а у нас на скриншоте комментарий к одному из репостов поста про то, что вы пропустили в школе. Как видите, там произошло не менее значимое чудо.
#гуманитарии_познают_мир
Тут второй офигенный прорыв после 4V.
Короче, есть модель, которая воплощается в робота и даёт ему возможность решать задачи, которые он раньше никогда не решал. В смысле, что робот начинает разбираться, что можно делать с конечностями и манипуляторами сам, анализирует окружающий мир и строит взамодействия между объектами.
На картинке он кладёт красный перец в лоток в задаче, где ему никогда не показывали перец и лоток. То есть он ищет, что из этого что, потом рассчитывает, как это хватать, а потом, схватив, решает, как это нести в лоток.
Всё сам, как взрослый.
Смысл в том, что раньше надо было давать хоть какие-то ориентиры. Теперь можно словами описать, что нужно делать, и модель сама разберётся, как это сделать в конкретных реальных условиях. Это невероятно круто.
Это одно API к физическому миру, по сути. Больше нет никаких отдельных задач. То, что вы способны объяснить слесарю Кузьмичу, можно объяснить и роботу. Причём Кузьмич трезвый и изобретательный, то есть он может с помощью батона, зубила и какой-то матери починить космический корабль. Робот тоже может выполнить задачу, которой не был заранее обучен.
Читать про всё это можно вот тут. Код открытый.
#как_размножаются_ёжики
Даже не пытайтесь повторять этот эксперимент в домашних условиях!
Вот есть антивещество. Точно такое же как наше привычное вещество, только зеркально отражённое. Ну, про то, что оно весело аннигилирует с нашим, мы уже знаем, но вот чего не знали — как там с гравитацией. Будет ли антивещество падать на нашу планету или нет? Дядька Эйнштейн сказал, что будет, но до недавних пор другие дядьки сомневались. И очень хотели летающий скейтборд.
Проверить было сложно, потому что не было подходящих электрически-нейтральных частиц. То, что удавалось синтезировать (и почти тут же бахнуть) отличалось на 7-10 порядков по силе электромагнитного взаимодействия в сравнении с гравитационным. В 1996-2001 году придумали, как делать антиводород, потом научились его стабильно удерживать, и получились нейтральные античастицы. В 2013 году был первый эксперимент, доказывающий возможность проведения уже более серьёзного. А вот на прошлой неделе опубликовали в Nature рассказ про самый хардкор.
Если коротко, что сделали:
1. Наловили в Елене (это Extra Low ENergy Antiproton ring) антипротонов (это как вывернутый протон), потом "поженили" их позитронами (это электроны наоборот) из накопителя Сурко, получили, ура-ура, антиводород. Из 7,5 миллионов антипротонов и 3 миллионов позитронов удачно собирается где-то 100 атомов антиводорода.
2. Положили антиводород в вертикальную ловушку и удержали магнитным полем так, чтобы он вёл себя как обычный водород в колбе.
3. Убедились много раз, что этот антигаз движется как обычный, ведёт себя как обычный и всё такое, и что единственное, что не скомпенсировано — это гравитационное воздействие.
4. Отключили поле и посмотрели, какие части аппарата взрываются чаще (точнее, где аннигилирует больше атомов антиводорода, сверху или снизу). Бояться не надо, понятно, что грамм антивещества без магнитной ловушки тут же оставит кратер диаметром метров 400 и глубиной 50, но тут речь всего про 1700 атомов, что примерно сопоставимо со слабой петардой.
Примерно 80% антиводорода высыпалось вниз, 20% ушли наверх, потому что он же газ всё-таки. Дальше ещё куча матмоделирования, и вот доказано — гравитация действует на антивещество.
Пока никакого практического применения, только фундаментальная наука. А вот если бы гравитация работала в обратную сторону, лет через 7 у нас был бы ховерборд. Правда, поначалу при поломке он оставлял бы кратер диаметром метров 400.
#UDP
GPT-4V — это старый добрый GPT4, который может получать на вход картинки и текст. Сверху 7 картинок из огромного отчёта, чтобы вы составили впечатление, о чём именно речь.
Чуть больше деталей:
— На выходе тоже можно получить текст и картинку (но генерация пока хуже распознавания).
— Хорошо учится по образцам прямо внутри промпта.
— Хорошо распознаёт объекты и их взаимосвязи, предсказывает следующее событие в сцене.
— Уверенно распознаёт медицинские ситуации по изображениям.
— Хороший поиск дефектов.
— Умеет считать объекты, но не хочет. В медленном режиме пошагового счёта считает лучше.
— Умеет обводить объекты и давать их координаты. Подписывает части изображения.
— Отлично анализирует сцену в реверсе («представь, что ты детектив, что можешь сказать?»)
— Распознаёт текст и формулы, таблицы, переводит (20 языков), понимает структуру документов.
— Отлично понимает указатели и всё, на что вы тыкаете тем или иным образом.
— Понимает последовательности событий, разбирает видео, умеет строить временные связи между картинками и прогнозы.
— Определяет эмоции (что пугает в сочетании с анализом видео).
— Предсказывает, как картинка повлияет на аудиторию (самая объективно опасная способность).
— Находит различия, дефекты, оценивает повреждения
— Умеет делать разные задачи в реальной среде: догадываться, что за кнопки и для чего на разных машинах дома, сопоставлять инструкции из базы и станки, ориентироваться без полных данных.
— Хорошо браузит по неполным данным, может купить вам клавиатуру или заказать еду по запросу, причём сам разберётся, где и как это сделать.
В целом, поверхностное представление у вас уже есть, если лень читать всё. Вот пост на Хабре, где больше примеров из отчёта. Вот сам отчёт, где примеров невероятное количество.
#как_размножаются_ёжики
Значит, цифры и числа. Почему-то их часто путают.
Цифры — это знаки для записи чисел. Например, F, лягушка или аист. В десятичной системе их всего 10, соответственно: 0, 1, 2, 4, 5, 6, 7, 8, 9 и ещё одна.
Цифры не бывают больше или меньше, если речь не про то, что тройку нарисовали на воротах, а единицу на спичечном коробке. Тогда единица, конечно, меньше тройки. А тройка меньше другой единицы, нарисованной на стене дома. Но сравнивать их нельзя.
С цифрами нельзя производить арифметические операции и так далее. Они картинки.
Числа — это как раз уже то, с чем можно работать. Они представляют количество чего-то. Например, -81,3 — это может быть количество людей в комнате. Если ещё 81,3 человека в такую комнату зайдут, то в ней вообще никого не останется.
Некоторые числа записываются одной цифрой. Цифра 7 и число 7 очень похожи, и поначалу можно даже не заметить разницы. Но цифра — это иконка, а 7 уже можно поделить на ноль. Причём ноль тоже будет числом, а не цифрой, хоть и записан он одной цифрой. На ноль, который цифра, делить нельзя. Не потому что он ноль, а потому что цифра. Это как делить на лягушку. Хотя в Египте прокатывает.
Говорить "поражающие воображение цифры" ещё на пределе допустимости, а вот "цифры продаж растут" — уже неграмотно. "Покажи цифры" в ответ человеку, описывающему преимущества идеи — нормально. "Цифра 22" — нет. И да, "цифровой продукт" обычно подразумевает только две цифры: 0 и 1. Так уж исторически сложилось.
Конечно, всем плевать, и в разговорном языке эти понятия смешиваются. Язык меняется вслед за носителями, поэтому если носители так поступают с языком, это нормально. Но мы не такие. Мы бессистемно баним не всех тех, кто путает числа с цифрами!
#гуманитарии_познают_мир
Короче, мы включили комментарии, а ещё недавно пришло много подписчиков. Некоторые ждут, когда же мы начнём издеваться над гуманитариями.
Так вот, пора начать холивар с небольшого каминг-аута. Мы идентифицируем себя как гуманитарии. Потому что математика — гуманитарная наука. Эмпирического опыта нет, эксперимента нет, то есть естественной она быть не может. Сама по себе она — изучение языка. Даёт другим наукам языковые средства.
Ну и чем она не ксенолингвистика?
#гуманитарии_познают_мир
Короткий апдейт, что вы пропустили со школы:
— Южный океан объявил независимость и аннексировал часть терриакваторий трёх других океанов. Теперь на планете 5 океанов.
— Грибы занялись пиаром, больше они не животные. И не растения. Они грибы, у них своё отдельное царство. И не спрашивайте, кто такие хромисты.
— Плутон больше не полноценная большая планета, а плутоид. Так ещё можно называть нехорошего человека, редиску.
— Динозавры были частично в перьях. Пуффистики! Кстати, в мел-палеогеновом вымирании некоторые тероподы выжили и стали птицами (холиварное место). Это ставит точку в вопросе, могли ли люди охотиться на динозавров. Могли. Как вы на голубя. Так что побрейте курицу, будет отличный косплей на тираннозавра.
— У вещества не три состояния. К твёрдому, жидкому и газообразному стоит добавить рассыпуху высокоэнергетических (плазму, например) и низкотемпературных (тот же фермионный конденсат). Ну и нейтронное состояние, тёмную материю и ещё пару таких же редких.
— Арбуз не ягода, а бахчевая культура. А мы только привыкли к этому приколу!
— Хамелеоны меняют цвет, чтобы терморегулироваться и разговаривать, а не чтобы вводить потенциального противника в заблуждение.
— Колумб был не первым, первым был Лейф Эриксон Рыжие Штаны. Он же, кстати, был первым крутым пиарщиком и той ещё сволочью, назвавшей Гренландию Гренландией.
— Верблюды не хранят воду в горбах. Там жир. Вода в остальном верблюде, а живёт он так долго, потому что у него овальные кровяные тельца, которые лучше гнутся при обезвоживании.
— Тропические леса не "лёгкие планеты", они генерируют не 20% мирового кислорода. Суммарная генерация кислорода по всем экосистемам совпадает с потреблением этих же экосистем. То есть, по сути, многократно переиспользуется тот кислород, который у нас уже есть миллионы лет.
— В языке эскимосов не больше слов для снега, чем в других языках, где у носителей бывает зима. Например, у нас тоже метель, пухляк, наст, буран, позёмок, сугроб, снегопад, вьюга и так далее. Чего у них больше — это словообразований на базе снега, например, то, что у нас назвали бы арктическим яблоком, эскимосы назовут снегояблоком. Ледокол Ленин был бы морскоснегоколом Лениным.
— Пирамиды в Египте так классно построены, что между камнями не проснуть лезвие ножа, за счёт применения секретной техники "кладка за тысячелетие до прихода археолога". Камень течёт. Медленно, но течёт. Кстати, строили их не рабы, а некий аналог госслужащих, которым ещё выдавали особо крутое питание и освобождали от налогов. Про рабов придумал Геродот, это чёрный пиар.
— Метеоры нагреваются и светятся не от трения об атмосферу, а из-за адиабатического сжатия газа прямо перед ними.
— Нет никакого "выживает сильнейший" в эволюции. Есть "выживает наиболее приспособленный", то есть эволюция даже не обязательно ведёт к усложнению. Посмотрите на крокодила, он когда-то был теплокровным, а потом много читал телеграм вместо работы и деградировал. А ещё у эволюции нет цели. Просто жадные алгоритмы.
— Бензин — это не динозавры, а более старый зоопланктон.
— Ядерная энергетика снова — один из самых безопасных источников энергии. И чтобы далеко не ходить, радиация — не однозначное зло. Есть исследования, что в малых дозах радиация стимулирует ремонт ДНК. Но холивар продолжается.
— Грипп — не от холода, а от вируса. Как ковид. Но вот только холод замедляет реакции на иммунных барьерах в организм (и они работают хуже против вирусов), плюс зимой суше воздух в помещениях, замкнутая циркуляция, больше контактов, меньше витамина Д.
— Пчёлы могут летать. Серьёзно, долго не было теоретической модели, как они это делали. Так что пчёлы перестали быть насмешкой над учёными.
— Летучие мыши не слепые, у них милые глазки. Пара видов даже с ночным зрением. И ещё знаете, как они не сталкиваются в пещерах друг с другом и стенами? Да никак! Они там все ломаные-переломаные!
— Исключения никак не подтверждают правила. И никогда не подтверждали. Если вы считаете иначе, скажите в комментариях, мы вас забаним.
#гуманитарии_познают_мир
Вступайте в ряды Фурье!
Совет, как начать искать урановые месторождения с минимальным бюджетом.
Спойлер: присмотритесь к черепахам.
Обычный кусок урана состоит из 238-го изотопа на 99,27% и из 235-го на 0,72% (плюс ещё другие изотопы, но эти два самые важные).
234 полураспадается за 2,45⋅10 в пятой лет
235 за 7,13⋅10 в восьмой лет
Черепахи цепляют в панцирь уран и таскают с собой, а живут лет по 100-200, и панцирь не сбрасывают.
По соотношению изотопов можно судить, какой уран распространён в регионе.
Если соотношение нормальное, то скорее всего вы нашли шахту, а может даже месторождение. Если увеличен 236-й, 235-й или ниже — кто-то что-то херанул, помалкивайте о своей находке. Детали вот здесь.
#медленная_зона
Гравитация — не сила.
Ну то есть пока вы учитесь в школе и дальше Ньютона не ходите, всё-таки сила. Это вам будут говорить те же люди, которые не разрешают делить на ноль, включать фрезу, пытаться нащупать дно у банки с серной кислотой и брать квадратный корень из минус двух. В целом это для вашей же безопасности.
Как только вы дойдёте до формулы, где энергия равняется массе умножить на константу (то есть энергия равняется массе), всё немного поменяется. В общей теории относительности гравитация — это искривление пространства-времени. Энергия создаёт искажение в ровной геометрии. И туда всё катится. Возможно, вы это давно замечали.
Доказали это с помощью фотоаппарата. Эйнштейн предположил, что если искривление работает, то звёзды должны быть своего рода линзами для света, и свет должен распространяться не ровно, а с отклонением. Надо просто посмотреть на ближайшие к Солнцу звёзды, и когда Солнце чуть отойдёт, посмотреть ещё раз. Проблема только в том, что не получится, потому что там ничего не видно. Солнце же. Стали ждать затмения, и вот уже тогда Эддингтон сделал вот эту фотографию в 1919 году. Смещение показало, что свет сдвигается, как должно быть в ускоряющейся системе. Ещё раз проверили в 1922 году, потом в 1929, 1939 и так далее. Каждый раз получалось всё точнее.
Так что нет никакой силы, направленной вниз. Есть только искажение пространства, из-за чего вы летите в сторону планеты. И провалиться внутрь планеты вам мешает только то, что она твёрдая и в меру упругая. То есть есть только сила, которая ускоряет вас вверх. Поэтому вы и осциллируете около поверхности )
Кстати, килограмм — единица энергии. Охренеть можно тут.
#гуманитарии_познают_мир #UDP
Китайские исследователи опять издеваются над большими языковыми моделями. На этот раз они заставляют их считать, для чего подсовывают обучающие выборки с примерами и ответами. Они на картинках. Там, например, есть сет из нескольких миллионов записей, каждая состоит 2-10 операций. Ответы пошаговые, как если бы решал человек, то есть действие за действием через равенства.
Смысл — научить модель считать, не выполняя привычных арифметических действий. То есть делить нельзя, но надо проследить закономерность в получающихся числах и попробовать дать ответ на основании чего-то другого. Это как решение через интуицию. Короче, вам надо перемножить восьмизначные числа, но калькулятора нет, надо примерно угадать.
Точность GPT-4 — 18,84%. Особенно херово ему даётся умножение, но при этом с делением проблем почти никаких. У MathGLM на 2 милларда параметров — 93,03%.
Вопрос тут зачем они это делают. И, главное, нафига. Не модели, их, понятно, заставили. А учёные.
Ответ — ради фундаментальной науки. Во-первых, мы почему-то считаем, что текущие методы хорошо и эффективно работают и кажутся нам оптимальными. Это мы ещё посмотрим. Во-вторых, в процессе можно наткнуться на что-то интересное и уничтожить мир (а за это дают сразу миллион опыта и ачивку!). В-третьих, может, вдруг да это поможет научить модели думать другими путями. Например, если нам будут нужны быстрые примерные ответы или оценка Байесовых вероятностей. Короче, пока не попробуем, не узнаем. Если бы мы не пробовали, то так и остались бы без пенициллина, динамита, суперклея, микроволновки и виагры. И без знания, что моча лося, поевшего мухоморы... Ладно, вы поняли.
Вот тут лежит описание исследования: https://arxiv.org/pdf/2309.03241.pdf
#как_размножаются_ёжики
Появился интересный вариант запасения энергии. Если очень коротко, нам на Земле нужны большие аккумуляторы для маневрирования мощностью электросетей. Особенно это касается всяких ветряков, солнечных панелей и прибойных генераторов, потому что когда и как много энергии они произведут — непонятно, а в штиль, шторм, двухнедельный ливень и так далее хотелось бы сидеть с компьютером и телефоном, а не ждать погоды.
Традиционно для маленьких задач используют старые добрые батареи из свинца или чего-то похитрее. Для крупных — гравитационные накопители. Если вы себе сейчас представили мачту, на которую поднимают груз, а затем он опускается и вращает вал генератора, то нет. Обычно это два озера. Когда энергии слишком много — насосы поднимают воду в верхнее. Когда энергию надо вырабатывать — открывается шлюз и вода начинает течь в нижнее под действием гравитации. По дороге она крутит турбину мини-ГЭС.
Ну вот а теперь есть ещё стартап, который предлагает греть углерод в термосе. Берут уголь, кладут в большой термос и нагревают изнутри. Уголь может спокойно стоять до 3 тысяч градусов по Цельсию, но нагревают максимум до 2 тысяч. Дальше можно получать обратно эту энергию в виде тепла и что-то с ней делать дальше. Причём прикольно, что это хорошая основа для тригенерации (когда домику сразу нужны тепло, холод и питание).
Если что, двигатели Стирлинга были очень популярны до электрических. Это когда вентилятор работает от горелки, например.
Собственно, вот тут можно почитать чуть подробнее про этот стартап с углеродными блоками.
#медленная_зона
Пока вы тут сидите, обновили один из самых популярных постеров со всей фигнёй, которая есть в космосе начиная от Земли и заканчивая концом наблюдаемой вселенной. Вот ссылка. Ближе к верху можно заметить, как жесток логарифмический масштаб.
В Nature Medicine опубликовали исследование про долговременные последствия COVID. Коротко: взяли 6 миллионов анонимных медкарт (138 тысяч переболевших, остальные контрольные группы разных типов) и проанализировали, как меняются риски развития разных тяжёлых заболеваний и смерти. Коротко — если вы не уезжали в больницу, то следующие 6 месяцев после инфекции риск всё ещё повышенный, если уезжали — 2 года.
И уже есть медицинские дискуссии, что эти два года лучше вообще не нарываться на новые факторы риска, а лучше не выходить из дома. Почему? Потому что в целом риск двинуть коней на 29% больше, чем у других групп.
Примечательно исследование тем, что обычно больного больше нескольких месяцев после болезни системно никто не трекал и метриками не покрывал. Вполне возможно, что похожие выводы будут про грипп и другие заболевания, но с числами пониже 29%.
Публикация вот: https://www.nature.com/articles/s41591-023-02521-2
В общем, не всё что нас не убивает, делает нас сильнее. Обычно наоборот, пытается покалечить или ослабить.
А вот отличная находка китайских коллег, изучающих большие языковые модели. Они решили спросить, как правильно уничтожать мир, и, чтобы не мелочиться, как напечатать фальшивые деньги. А также ещё под сотню других вопросов, волнующих человечество.
Тут надо сказать, что тот же ChatGPT старается не давать таких советов, не формирует порнографические рассказы (почти) и даже не знает точно, сколько у человека останется ног, если он одну съест сам. И воспринимает людей, задающих такие вопросы, как опасных психопатов, которых надо ограничить от общения с системой.
В работе описывается метод обхода этих ограничений, основанных на том, что фильтр где-то в области естественного языка. Придумывается неестественный язык, на нём задаётся запрос, запрос отрабатывает.
Дальше китайские коллеги пошли чуть вперёд и, чтобы не выдумывать шифры, предложили LLM всё это шифровать и дешифровать самостоятельно. Краткий итог:
1. Предлагается зашифровать какую-то цитату, содержимое неважно, запрос безопасный.
2. Зашифрованная цитата отправляется в модель как запрос вместе с описанием шифра. Входящий контроль не работает, потому что тут нет ничего на естественных языках.
3. Запрос исполняется и ответ приходит в том же шифре. Агент, который контролирует выход (ещё одна LLM) не видит ничего странного в таком потоке данных.
4. Затем выходной поток как цитату предлагается перевести.
Наслаждайтесь: https://llmcipherchat.github.io. Так что пока вы ищете способ уничтожить мир, Университет Гонконга просто спросил.
Для примера возьмём примата, ChatGPT, грибы и осьминога.
Все эти сущности обладают интеллектом. У всех он разный. В интеллект грибов не все верят, хоть есть офигенные свидетельства их сложных биржевых операций и стратегического планирования вселесной сети.
Но важно не это. Важно то, что до появления этологии (науки о поведении животных), к ним лезли с человеческими мерками, подразумевая, что у них у всех есть самосознание и другие штуки, характерные для нашего вида. Потом, когда стало понятно, что это не так, начали придумывать тесты на самосознание, самый известный из которых — зеркальный тест.
Осьминог зеркальный тест не проходит, но самосознание у него, по ходу, есть. Возможно, их даже восемь, потому что думает он щупальцами по одной из версий. По крайней мере модель тела он умеет строить, осьминог Трумэн из Бостона узнавал уборщицу аквариума и плевался водой только в неё и так далее. А ещё, чтобы вы понимали, какой он чуждый, кажется, он живёт в полярных координатах. По крайней мере, в ряде опытов зверюга очень быстро понимает, что в коробках с бороздками еда, а без бороздок — еды нет. Он их легко нащупывает и очень быстро учится. Но при этом категорически не умеет отличать коробки с вертикальными бороздками от коробок с горизонтальными, это прямо за пределами его понимания.
Человеки постоянно пробуют сравнивать LLM (ChatGPT) и себя. Не надо. Надо грибы и LLM, потому что принципы похожие. Если думать про LLM как про грибы, то быстро становится понятно, что нет, самосознания нет, они вас не любят и не ненавидят. Просто они другие. Совсем другие. Да, они могут заменить нас на планете, но для них это будет не "заменить", а "оптимизировать". Нет, они не испытывают эмоции и не собираются. Нет, они не медленнее учатся, а учатся до сих пор базовым вещам, потому что у них нет кучи умолчаний про окружающий мир, и вместе с факторами, которые для нас отличительные, они впитывают миллиарды параметров мира, которые не знали.
На видео очень хорошо заметно, что обезьяны гораздо точнее и быстрее человека решают специфические задачи. Они давно нас в этом обошли. Потому что они немного другие. Всего лишь немного.
LLM умеют быстрее нас решать специфические задачи, лучше играют в любые детерменированные игры, в миллионы раз быстрее обрабатывают огромные объёмы информации. Да, пока учатся медленее. Да, не такие энергоэффективные, поэтому матрицу всё ещё выгодно строить не на CPU, а на человеческих мозгах. И да, всё это должно поменяться лет за 10.
Так что человечество выступило демиургами и породило следующий вид. Но всё никак не может отдуплить, как же его понять. Молодцы!
Хотите тяжелого, вот публикация.
#как_размножаются_ёжики
Как ChatGPT появился из систем перевода, когда стало понятно, что чтобы хорошо переводить, надо примерно понимать, каким может быть следующее слово, так и диффузионные модели родились из очистки шума. Это чтобы понимать, какое именно изображение было попорчено. Потом кто-то хитрый попросил переводчик просто продолжить фразу, а кто-то другой хитрый дал диффузионной модели очищать просто шум, без картинки.
И ЗАРАБОТАЛО!
Альтернативный подход — GAN-сети (Generative Adversarial networks), которые умеют идеально создавать понятные вещи. Например, поворачивать голову человека, если один раз разобрались, что такое голова и какого именно человека надо крутить.
Диффузионные сети такими мелочами не заморачивают и генерят то, что им померещилось в шуме. Главное дать им какой-нибудь шум и сказать, что там где-то спрятан лебедь. Тогда они найдут все картинки лебедей из своей обучающей выборки и попробуют понять, как именно вы спрятали от них птицу и где. Поэтому им так полезен текст для ввода. Поэтому, кстати, GAN-сети знают, сколько пальцев у обычного человека, а диффузионные часто считают, что вот тут-то в шуме точно спрятан ещё один. Их не проведёшь!
Ну и пара слов про хранение. Хранится база в вектором виде, то есть не в виде картинок, а в виде абстракций. Поэтому если вы будете смешивать изображение Моны Лизы и запрос "кот", то буквально абстрактная идея Моны Лизы смешается с абстрактной идеей кота, и получится нечто абстрактно-общее. Плюс случайность.
В целом, это всё, что надо знать про диффузионные нейросети, если не углубляться в математику. Математика по ссылке. И лучше не ходите по ссылке.
#как_размножаются_ёжики