В Китае создали нейросеть, превосходящую GPT-3 в 10 раз

Китайские учёные из Пекинской академии искусственного интеллекта (BAAI) вместе с десятками коллег из других организаций создали самую сложную в мире модель обработки естественного языка (NLP), которая превосходит аналоги от Google и OpenAI. Генеративная нейронная сеть глубокого обучения WuDao 2.0 создана в рамках стремления Китая повысить свою технологическую конкурентоспособность на мировой арене.

Мощность нейросетей условно измеряется в количестве параметров обучения. То есть, это число факторов, которые нейросеть может использовать в процессе своей работы. Для примера: в линейном уравнении y = ax + b параметрами выступают переменные a и b — от них зависит решение уравнения. Чем больше параметров использует нейросеть, тем она «умнее» и тем точнее результат её работы.

Wu Dao 2.0 обучили на 1,75 трлн параметров. Это в десять раз больше, чем GPT-3 (175 млрд). Она превзошла также Google Switch Transformer с 1,6 трлн параметров. Модель обучали на китайском и английском языках на 4,9 терабайт изображений и текстов, включая 1,2 ТБ текстов на китайском и английском языках. Про другие важные данные, такие как число нейронов, их конфигурация не сообщается. Также неизвестна скорость работы.

Вторая версия Wu Dao 2.0 вышла всего через три месяца после выпуска первой версии. Исследователи BAAI сначала разработали систему обучения с открытым исходным кодом FastMoE, похожую на Google Mixture of Experts. Она работает на PyTorch и позволяет обучать модель как на кластерах суперкомпьютеров, так и на обычных графических процессорах. Это дало FastMoE большую гибкость, чем системе Google, поскольку FastMoE не требует проприетарного оборудования, такого как TPU от Google.

В отличие от большинства моделей глубокого обучения, которые выполняют единственную задачу: либо генерируют текст, либо создают дипфейки, либо распознают лица, Wu Dao является мультимодальной системой. 

Wu Dao 2.0 может выполнять разные функции, она:

  • пишет эссе,
  • стихи и двустишия на традиционном китайском языке,
  • распознает изображения и генерирует их по словесному описанию,
  • имитирует речь,
  • создает кулинарные рецепты,
  • предсказывает трехмерную структуру белков, подобно AlphaFold.

Разработчики отмечают, что модель требует лишь небольшого количества новых данных при использовании в новой задаче. Тан Цзе, заместитель директора BAAI по академическим вопросам, утверждает, что она позволит создавать «думающие» машины.

«Эти сложные модели, обученные на гигантских наборах данных, требуют лишь небольшого количества новой информации для освоения конкретной функции, потому что они могут использовать уже полученные знания для выполнения новых задач»

Блейк Ян (Blake Yan) – один из учёных BAAI

Проблема нейронных сетей в том, что они работают гораздо хуже, чем специально написанная программа без их использования. Например, в случае нейронных сетей нет возможности исправить ошибки, а есть только возможность обучить её заново.

Если нейросеть ошибается, то сделать с этим ничего уже нельзя и надо разрабатывать новую. Например, в большинстве компьютерных игр так называемый искусственный интеллект не использует нейронные сети (речь о шутерах, стратегиях, шахматных программах и многих других жанрах, где неживые игроки способны на максимальном уровне обыграть очень многих, а иногда даже и всех соперников).

Сейчас нейронные сети стали кажущимся простым решением сложных задач. Но, как показывает практика, обычно результат получается далёким от совершенства. Хотя есть и исключения. Ещё одним важным ограничение является то, что нейронные сети, по сравнению с обычными алгоритмами, работают очень долго.

Разработкой уже заинтересовались 22 компании, включая Xiaomi.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *