Провідні розробники штучного інтелекту посилюють роботу над так званими світовими моделями (world models) - системами, які краще розуміють фізичне середовище людини, у пошуку нових шляхів до машинного "суперінтелекту".

Google DeepMind, Meta і Nvidia прагнуть випередити конкурентів, створюючи моделі, що вчаться на відео і даних роботів, а не тільки на текстах.

Цей рух активізувався на тлі сумнівів у подальшому прогресі великих мовних моделей (LLM), що лежать в основі чат-ботів на кшталт ChatGPT. Темпи стрибків у їхньому розвитку помітно сповільнюються, незважаючи на величезні інвестиції компаній OpenAI, Google і xAI Ілона Маска.

На думку Рева Лебаредіана, віцепрезидента Nvidia за технологіями Omniverse і симуляцій, потенційний ринок для світових моделей може сягати 100 трильйонів доларів - адже йдеться про вихід ШІ у фізичний світ, зокрема у виробництво та медицину.

Світові моделі тренуються на потоках реальних або змодельованих середовищ і є ключем до розвитку автопілотів, робототехніки та автономних AI-агентів, але їхнє навчання потребує гігантських обсягів даних і потужних обчислень, а технічне завдання поки що залишається невирішеним.

Нещодавно кілька AI-груп представили нові напрацювання в цій сфері. Зокрема, минулого місяця Google DeepMind випустила Genie 3 - модель, яка генерує відео покадрово, враховуючи попередні взаємодії. Це відрізняє її від попередніх генераторів відео, які створювали ролик цілком одразу.

