GPT-4V — это старый добрый GPT4, который может получать на вход картинки и текст. Сверху 7 картинок из огромного отчёта, чтобы вы составили впечатление, о чём именно речь. Чуть больше деталей: — На выходе тоже можно получить текст и картинку (но генерация пока хуже распознавания). — Хорошо учится по образцам прямо внутри промпта. — Хорошо распознаёт объекты и их взаимосвязи, предсказывает следующее событие в сцене. — Уверенно распознаёт медицинские ситуации по изображениям. — Хороший поиск дефектов. — Умеет считать объекты, но не хочет. В медленном режиме пошагового счёта считает лучше. — Умеет обводить объекты и давать их координаты. Подписывает части изображения. — Отлично анализирует сцену в реверсе («представь, что ты детектив, что можешь сказать?») — Распознаёт текст и формулы, таблицы, переводит (20 языков), понимает структуру документов. — Отлично понимает указатели и всё, на что вы тыкаете тем или иным образом. — Понимает последовательности событий, разбирает видео, умеет строить временные связи между картинками и прогнозы. — Определяет эмоции (что пугает в сочетании с анализом видео). — Предсказывает, как картинка повлияет на аудиторию (самая объективно опасная способность). — Находит различия, дефекты, оценивает повреждения — Умеет делать разные задачи в реальной среде: догадываться, что за кнопки и для чего на разных машинах дома, сопоставлять инструкции из базы и станки, ориентироваться без полных данных. — Хорошо браузит по неполным данным, может купить вам клавиатуру или заказать еду по запросу, причём сам разберётся, где и как это сделать. В целом, поверхностное представление у вас уже есть, если лень читать всё. Вот пост на Хабре, где больше примеров из отчёта. Вот сам отчёт, где примеров невероятное количество. #как_размножаются_ёжики
❤: 24
👍: 15
😱: 5
🔥: 2
🙈: 1