GPT-4V — это старый добрый GPT4, который может получать на вход картин

GPT-4V — это старый добрый GPT4, который может получать на вход картинки и текст. Сверху 7 картинок из огромного отчёта, чтобы вы составили впечатление, о чём именно речь.

Чуть больше деталей:
— На выходе тоже можно получить текст и картинку (но генерация пока хуже распознавания).
— Хорошо учится по образцам прямо внутри промпта.
— Хорошо распознаёт объекты и их взаимосвязи, предсказывает следующее событие в сцене.
— Уверенно распознаёт медицинские ситуации по изображениям.
— Хороший поиск дефектов.
— Умеет считать объекты, но не хочет. В медленном режиме пошагового счёта считает лучше.
— Умеет обводить объекты и давать их координаты. Подписывает части изображения.
— Отлично анализирует сцену в реверсе («представь, что ты детектив, что можешь сказать?»)
— Распознаёт текст и формулы, таблицы, переводит (20 языков), понимает структуру документов.
— Отлично понимает указатели и всё, на что вы тыкаете тем или иным образом.
— Понимает последовательности событий, разбирает видео, умеет строить временные связи между картинками и прогнозы.
— Определяет эмоции (что пугает в сочетании с анализом видео).
— Предсказывает, как картинка повлияет на аудиторию (самая объективно опасная способность).
— Находит различия, дефекты, оценивает повреждения
— Умеет делать разные задачи в реальной среде: догадываться, что за кнопки и для чего на разных машинах дома, сопоставлять инструкции из базы и станки, ориентироваться без полных данных.
— Хорошо браузит по неполным данным, может купить вам клавиатуру или заказать еду по запросу, причём сам разберётся, где и как это сделать.

В целом, поверхностное представление у вас уже есть, если лень читать всё. Вот пост на Хабре, где больше примеров из отчёта. Вот сам отчёт, где примеров невероятное количество.

#как_размножаются_ёжики

❤: 24 👍: 15 😱: 5 🔥: 2 🙈: 1