"Сяйво" не вышло по графику. Как Украина создает национальный ИИ

Игорь Пилипив - 15 июня, 08:41

Полтора года назад Украина решила присоединиться к клубу стран, которые развивают искусственный интеллект (ИИ) не только на уровне бизнеса или отдельных стартапов, но и как часть государственной политики. На фоне глобальной гонки крупных языковых моделей (LLM), которые все сильнее влияют на экономику, безопасность, военное дело и общество, Минцифры объявило о создании собственной национальной LLM.

По замыслу, украинская LLM должна была стать ядром нового этапа цифровизации государства. Собственный ИИ должен был помогать правительству быстрее принимать решения, улучшать взаимодействие граждан с государственными сервисами и лучше понимать украинский контекст, язык, историю, право и реалии войны.

Глобальная гонка моделей развивается настолько быстро, что откладывать создание собственной ИИ-инфраструктуры до окончания войны означало бы догонять мир с большим опозданием. В этом поезде, как любят говорить в технологической индустрии, последнего вагона может просто не быть.

Впрочем, спустя более года после первых заявлений график реализации проекта начал сдвигаться. Сначала ожидалось, что первые результаты украинцы увидят уже в конце 2025 года, затем — в конце весны 2026 года. Однако в эти сроки бета-тестирование так и не состоялось, а сам проект оказался сложнее, чем могло показаться на старте.

ЕП разбиралась, на каком этапе сейчас находится создание национальной языковой модели, что уже удалось сделать, почему заявленные сроки переносили, как модель будет выглядеть "под капотом" и когда украинцы наконец смогут воспользоваться собственным суверенным ИИ.

Сроки разработки

В июне 2025 года Минцифры и "Киевстар" подписали меморандум о сотрудничестве, результатом которого должно было стать появление первой украинской LLM. В этом государственно-частном партнерстве "Киевстар" взял на себя фактическую разработку модели, формирование команды и финансирование проекта. Государство в лице Минцифры отвечало за координацию работы экспертов, подготовку данных для обучения и формирование этических рамок проекта.

Поскольку с самого начала стратегия не предусматривала обучение модели полностью "с нуля", первую версию планировали запустить к декабрю 2025 года. Но реализовать проект в такие сроки не удалось, и запуск начали переносить на конец весны 2026 года.

В конце марта украинцы в "Дії" выбрали название будущей национальной LLM – "Сяйво". Тогда же представители правительства заявили, что уже через два месяца ее можно будет публично протестировать. "Финал опроса в "Дії". Новое название украинской LLM – "Сяйво". Планируем открытое бета-тестирование уже к концу весны", – писала в Threads заместитель министра цифровой трансформации Валерия Коваль.

Впрочем, реальность оказалась сложнее. Открытое тестирование в заявленные сроки было фактически невозможно. Как объясняют участники проекта, сам подход к созданию украинской LLM предусматривает два этапа. Первый — подготовку данных, построение процессов и обучение малой языковой модели. Второй — обучение большой модели, которую планируют сделать доступной для более широкого использования.

"Сейчас команда находится на финальном этапе первой части проекта. Речь идет о модели на 4 миллиарда параметров (4B), которую используют прежде всего как технический этап перед запуском более крупной модели. Ее задача — помочь команде отработать все процессы: обучение, тестирование, настройку качества ответов и оценку результата", — рассказывает руководитель по внедрению аналитических решений в "Киевстаре" Андрей Железняк.

Такой подход был выбран потому, что обучение более крупной модели является значительно более дорогостоящим и длительным процессом. Соответственно, чем больше ошибок удастся выявить и исправить на меньшей модели, тем меньше дорогостоящих экспериментов придется проводить на следующем этапе.

По словам Железняка, работу над малой моделью планируют завершить во второй половине июня. Она уже технически функционирует, однако не будет доступна публично. В рамках проекта ее будут тестировать члены комитетов, рабочие группы, эксперты и часть внешних специалистов из профессионального сообщества.

"Обучение языковой модели состоит из нескольких этапов: pre-training, supervised fine-tuning и alignment. Сейчас команда находится на финальном этапе. Он является самым коротким по времени, но очень важным для качества модели", — добавляет представитель "Киевстара".

Именно на этом этапе модель настраивают так, чтобы она корректно реагировала на различные типы запросов, в частности сложные, деликатные или провокационные. Другими словами, alignment определяет, как модель ведет себя в реальных сценариях использования и насколько безопасными и уместными будут ее ответы.

По завершении первого этапа команда приступит к созданию большой LLM, возможности которой уже смогут оценить украинцы. Именно эта LLM, в отличие от малой, должна стать доступной для использования в Украине по модели open source. Ее можно будет развертывать локально или использовать в качестве основы для создания различных продуктов и сервисов.

Почему проект отстает от графика

Основные трудности, по словам участников проекта, возникли по двум причинам. Первая проблема, по словам и.о. министра цифровой трансформации Александра Борнякова, была связана с данными. Их сбор происходил медленнее, чем ожидалось.

"Мы столкнулись с большой проблемой сбора данных, которая состоит из двух частей. Первая — юридическая. Мы – министерство, и не можем просто автоматически собирать или извлекать данные, которые защищены чьими-то интеллектуальными правами", – сказал Борняков в интервью DOU.

В министерстве также отмечают, что значительная часть важных исторических и документальных материалов до сих пор хранится исключительно в бумажном виде. Их подготовка, систематизация и оцифровка требуют значительного времени и усилий.

Кроме того, параллельно с разработкой технической и безопасности инфраструктуры, команда выстраивает прозрачную юридическую основу с соблюдением авторских прав и создает систему национальных бенчмарков для оценки этичности и качества будущей модели.

Вторая причина была технической и касалась формирования команды и найма специалистов. За это уже отвечал "Киевстар". Речь идет прежде всего о специалистах по data science и обучению языковых моделей, которых на украинском рынке немного.

В компании признают, что поиск нужных специалистов длился дольше, чем ожидалось. Поэтому приходилось привлекать инженеров с похожим опытом, которые могли быстро освоить новую специализацию. В то же время в "Киевстаре" уверяют, что это не повлияло на темпы разработки модели: пока формировалась отдельная команда, к работе привлекали профильных специалистов из имеющегося штата.

"Поиск специалистов начали примерно в октябре 2025 года, а полностью команда сформировалась в феврале-марте 2026 года. Специально для проекта наняли 10 человек. Кроме них, привлечены еще 4-5 внутренних специалистов в различных направлениях от data science до проектного менеджмента", — говорит Железняк.

Со стороны Минцифры и комитетов к работе с данными, тестами и бенчмарками привлечено более 70 человек. Они распределены по четырем профильным направлениям — научно-техническому, этико-правовому, культурно-историческому и лингвистическому — и отвечают за подготовку уникальных данных, соответствие всем нормам и создание системы национальных тестов-бенчмарков.

За время реализации проекта произошли изменения руководителей отдельных направлений как со стороны государства, так и со стороны "Киевстара". В частности, CEO и CTO AI Center of Excellence при Минцифры Даниил Цьвок и Дмитрий Овчаренко перешли в смежные оборонные проекты после того, как Михаил Федоров возглавил Министерство обороны. Сейчас часть этой команды работает над проектом A1.

В то же время в "Киевстаре" Михаил Нестор, который в качестве CPO компании был одним из ответственных за реализацию проекта со стороны частного партнера, покинул свой пост.

Впрочем, и государство, и мобильный оператор не признают, что кадровые изменения повлияли на сроки реализации и развитие украинского LLM. Наоборот, участники проекта утверждают, что изменения в управлении скорее добавили организационных задач, чем остановили или существенно затормозили проект. "Обновление руководства команды привносит в проект новую экспертизу, глубокий технический опыт и свежие управленческие навыки", — ответили в Минцифры.

Еще одна сложность — выбор технологического стека. Команда работает не на классической для рынка инфраструктуре Nvidia GPU, а на Google TPU и фреймворках Google. Это менее распространенный подход к обучению языковых моделей, поэтому команде понадобилось дополнительное время, чтобы освоить этот стек.

Как создают национальную LLM

Малую модель "Сяйва" обучали на базе Google Gemma 3. Она имеет расширенное контекстное окно до 128 тыс. токенов, то есть способна работать с большими текстами, анализировать документы, видеть связи между различными фрагментами текста и дольше удерживать логику разговора.

Однако сама базовая модель не была оптимально адаптирована к украинскому языку. Как объясняет Железняк, глобальные модели часто лучше оптимизированы под английский язык. Условно говоря, украинский текст они могут обрабатывать через английский: сначала переводить контекст, затем работать с ним, а уже после этого формировать ответ на украинском. Из-за такого промежуточного этапа часть смысловых нюансов может теряться.

Саму модель обучали в облачной инфраструктуре Google, поскольку необходимые TPU-процессоры доступны именно там. Это означает, что первая небольшая модель национального ИИ физически находится за пределами Украины.

Именно поэтому техническая команда значительную часть времени посвятила разработке собственного токенизатора. Это один из базовых элементов модели, который определяет, как она "разбирает" текст и с какими частями речи работает дальше. Новый токенайзер должен помочь модели лучше воспринимать украинский язык напрямую, без лишнего перевода на английский. В теории это должно улучшить понимание контекста, уменьшить потерю смысла и повысить качество ответов на украинском языке.

Значительное внимание команда уделяет работе с данными. В Минцифры говорят о десятках терабайтов информации, собранной для формирования первых версий украинских языковых корпусов. "Модель будет обрабатывать колоссальные объемы данных, многие из которых ранее никогда не были оцифрованы", — отмечают в министерстве.

Там добавляют, что, в отличие от уже существующих украинских моделей, для создания национальной LLM привлекаются данные от более чем 50 государственных учреждений, СМИ, университетов, издательств, научных учреждений и других партнеров.

Речь идет о новостях, аналитике, интервью, литературных произведениях, учебных материалах и исторических архивах. Также авторы могут самостоятельно предоставить свои тексты для обучения модели.

В Минцифры отмечают, что из обучающего набора данных удаляют персональную и другую конфиденциальную информацию, а также применяют механизмы анонимизации. В то же время подходы к тестированию качества и безопасности модели еще формируются.

Как и когда появится национальный LLM

Первоначальный план проекта предусматривал создание трех моделей: малой на 4 млрд параметров, средней на 12 млрд и большой – примерно на 27 млрд параметров. Однако после работы с первой моделью команда решила пропустить промежуточный этап и сразу перейти к большой LLM.

В результате график работ удалось пересмотреть и ускорить. Если изначально крупную модель планировали передать на тестирование только в январе 2027 года, то теперь ориентир сдвинулся на ноябрь 2026 года.

По словам Железняка, 70–80% времени до ноября займет именно машинное обучение модели. Остальное время уйдет на подготовку новых данных, адаптацию технических процессов и работу с особенностями новой архитектуры.

Еще одно изменение связано с базовой моделью. Пока в "Киевстаре" работали над обучением малой модели на основе Gemma 3, вышла более новая версия — Gemma 4. Именно ее планируют использовать для создания большой украинской LLM. Это модель среднего размера на 31 млрд параметров (31B).

Gemma 4 имеет несколько важных преимуществ. Во-первых, это reasoning-модель, то есть она лучше справляется с задачами, где нужно не просто сгенерировать ответ, а последовательно "размышлять" над запросом.

Во-вторых, она построена на архитектуре mixture of experts. Проще говоря, это не одна универсальная модель, а система из нескольких специализированных частей, которые могут эффективнее работать с различными типами задач.

Новая модель демонстрирует существенно лучшие показатели в задачах по логике и математике. Например, в математическом бенчмарке AIME 2026 Gemma 4 31B показывает результат 89,2%, тогда как предыдущая Gemma 3 27B имела лишь 20,8%. В тестах на использование агентных инструментов τ2-bench результат вырос с 6,6% до 86,4%.

Gemma 4 также является мультимодальной моделью, то есть может работать не только с текстом, но и с аудио и изображениями. Впрочем, в рамках украинской LLM основной акцент пока делается именно на качестве текстовых ответов.

В то же время переход на Gemma 4 усложняет техническую часть проекта. Для малой модели команда уже создала собственный токенизатор, который лучше работает с украинским контекстом. Теперь его нужно интегрировать в новую базовую модель.

Если для Gemma 3 уже существовали примеры такой интеграции, то для Gemma 4 их пока нет. Поэтому часть работы команде придется выполнять с нуля. Даже несмотря на уже отработанные процессы, потребуется изменить технический пайплайн и заново настраивать отдельные этапы обучения.

По завершении обучения и тестового периода "Киевстар" должен передать модель государству. В Минцифры поясняют, что базовая версия модели и уникальные украинские наборы данных должны быть бесплатными и открытыми для использования.

В то же время саму модель планируют перенести с облачной инфраструктуры Google на оборудование, расположенное в Украине. Для этого Минцифры развивает собственную государственную ИИ-инфраструктуру – AI Factory.

ГП "Дия" еще в августе прошлого года объявило тендер на поставку оборудования для работы государственных ИИ-сервисов. Речь идет о GPU-узлах, системах жидкостного охлаждения, коммутаторах, системах хранения данных и лицензиях Nvidia AI Enterprise.

В тендере победило ООО "Лан Тек" с ценой 225,8 млн грн (5,4 млн долл.). Согласно данным аукциона, оборудование должно было быть поставлено до 1 июня 2026 года.

В Минцифры добавляют, что в перспективе AI Factory может расшириться до 31 узла, которые смогут обеспечивать обучение и работу сложных языковых и визуальных моделей. В этом периметре планируется обрабатывать критические и конфиденциальные государственные данные, в частности информацию для "Дії", образовательной платформы "Мрія", национальной LLM и других ИИ-сервисов.

Общую стоимость проекта — с учетом обучения модели, зарплат команды и инфраструктуры — стороны не раскрывают. В Минцифры отмечают, что финансовые и операционные расходы на разработку национальной LLM полностью покрывает "Киевстар". Тогда как в операторе сумму этих расходов пока не называют.

Первые интеграции модели Минцифры реализует в формате технического пайплайна для разработчиков. Для более широкого круга пользователей она должна стать основой ИИ-помощников, в частности Дія.AI и ИИ-тьютора в "Мрии".