Новая модель GPT обрабатывает изображения и текст

OpenAI представила GPT-4. Это большая мультимодальная модель ИИ, которая может обрабатывать как текстовые, так и графические данные и выдавать текстовые ответы

Хотя во многих реальных сценариях GPT-4 всё ещё уступает людям, на различных профессиональных и академических тестах модель демонстрирует производительность на уровне человека. Например, GPT-4 сдаёт симуляционный адвокатский экзамен со средним баллом, находящимся примерно в верхней десятке тестировщиков, в то время как результат GPT-3.5 находился в нижней десятке.

Компания потратила полгода на совершенствование GPT-4, используя опыт, полученный из своей программы адверсариального тестирования и ChatGPT. Новая модель показала лучшие результаты в плане управляемости и точности исполнения запросов.

Адверсариальное тестирование (adversarial testing) — это методика тестирования искусственного интеллекта, направленная на выявление уязвимостей модели, связанных с возможностью обмануть её. В рамках такого тестирования создают искусственно сконструированные входные данные (например, изображения или тексты) специально для того, чтобы обмануть модель ИИ и получить неверный результат. Например, для изображения, которое похоже на кошку, создаются шумы или искажения, которые могут заставить модель распознать его как собаку.

OpenAI также сообщает, что за последние два года компания полностью перестроила свой стек глубокого обучения и совместно с Azure разработала суперкомпьютер специально для работы с нейронными сетями. Год назад состоялся «пробный запуск» GPT-3.5, который позволил устранить ошибки и улучшить теоретические основы. В результате тренировки GPT-4, компания получила устойчивую модель, результаты которой можно было предсказать. Сейчас компания сотрудничает с неким партнёром, который поможет расширить возможности обработки графических данных. Новый продукт будет доступен через API и ChatGPT.

Кроме того, OpenAI открыла OpenAI Evals, собственный фреймворк для автоматической оценки производительности моделей искусственного интеллекта, чтобы любой желающий мог сообщить об ошибках в их моделях и помочь компании улучшить их.

Возможности GPT-4

Разработчик заявляет, что возможности GPT-4 значительно превосходят возможности GPT-3.5, но, несмотря на это, разница может быть незаметной в обычных разговорах с ИИ (например, в чате). Она проявляется, когда задача достигает достаточного порога сложности. GPT-4 более надёжен, креативен и способен обрабатывать более тонкие инструкции, чем GPT-3.5. Модель GPT-4 также может обрабатывать графические данные, что открывает новые возможности для использования искусственного интеллекта в различных областях.

«Мы использовали GPT-4 внутри компании, и это оказало большое влияние на такие области, как поддержка, продажи, модерация контента и программирование».

GPT-4 принимает запросы в виде текстов и изображений. Например, новая модель может работать с документами, на которых есть не только текст, но и фото, диаграммы или скриншоты. В ответ он способен выдавать ответы на естественном языке, в виде программного кода и т. д.). В настоящее время запросы с изображениями находятся на стадии исследования и тестирования и не доступны широкой публике.

Пример входящего запроса к GPT-4 (Фото: hmmm (Reddit))

Запрос: «Что забавного в этом изображении? Опиши кадр за кадром».

GPT-4: «На изображении показан набор из трёх картинок об адаптере Lightning.

Картинка 1: Смартфон с кабелем VGA (большой, голубой, 15-контактный штекер, обычно используемый для мониторов компьютеров), вставленным в его разъём зарядки.

Картинка 2: Упаковка от адаптера Lightning с изображением кабеля VGA на ней.

Картинка 3: Увеличенное изображение кабеля VGA с небольшим штекером Lightning (используется для зарядки iPhone и других устройств Apple) на конце.

Забава в этой картинке заключается в абсурдности вставки большого устаревшего кабеля VGA в небольшой современный разъём зарядки смартфона».

GPT-4 в подписке ChatGPT Plus

Подписчики ChatGPT Plus получили доступ к GPT-4 на chat.openai.com с ограниченным использованием — не более 100 запросов в 4 часа. Компания будет регулировать использование в зависимости от спроса и производительности системы на практике, но ожидает значительных ограничений в доступности (хотя компания и будет увеличивать масштаб и оптимизировать производительность в ближайшие месяцы). В зависимости от трафика, компания может ввести новый уровень подписки для более интенсивной работы GPT-4.

Диалоговое окно, которое встречает пользователей ChatGPT Plus (Фото: РБК)

Ограничение на использование GPT-4 в ChatGPT Plus в день релиза (Фото: РБК)

В будущем компания планирует предоставить и некоторое количество бесплатных запросов GPT-4, чтобы те, кто не подписан на услугу, могли попробовать её.

По материалам РБК Тренды. Автор Иван Звягин

Share on Facebook

Пн	Вт	Ср	Чт	Пт	Сб	Вс
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Deep Fake Challenge

Любая идентификация имеет нулевую ценность, если её можно обмануть

Новая модель GPT обрабатывает изображения и текст

Возможности GPT-4

GPT-4 в подписке ChatGPT Plus

Добавить комментарий Отменить ответ