Киевстар и Минцифра переходят к ключевому этапу разработки национальной LLM
В 2025 году WINWIN AI Center of Excellence при Министерстве цифровой трансформации Украины совместно с национальным оператором электронных коммуникаций Киевстар определили стратегическую цель — разработать национальную украинскую LLM. Киевстар выступил стратегическим партнером государства и операционным исполнителем разработки. За это время проект прошел путь от концепции до внедрения конкретных технических решений. Сейчас команды переходят к ключевому этапу — масштабной подготовки данных и формирования стандартов качества будущей модели.
Базовой технологической основой для украинской LLM выбрано семейство моделей Gemma от Google — современную открытую AI-модель нового поколения, которая уже доказала свою эффективность в международных и локальных проектах. Именно ее адаптируют к украинскому языку, контексту и культурно-историческим особенностям.
Сейчас продолжается важная часть проекта — подготовка и верификация данных для обучения модели. Качественная украинская LLM требует не только открытых интернет- источников, но и обработки исторических архивов, документальных материалов и тому подобное. Обучение модели будет происходить на специально отобранных, деперсонализированных корпусах текстов. Данные для обучения собирают в сотрудничестве с государственными учреждениями, медиа, университетами и научными институтами. В то же время значительная часть важных материалов до сих пор хранится исключительно в бумажном виде, что подчеркивает актуальность дальнейшей цифровизации культурного и научного наследия Украины.
Для независимого контроля качества разработки создан экспертный комитет, который работает по четырем направлениям: научно-техническим, правовым, культурно-историческим и языковым. Одна из ключевых задач комитета — разработка профессиональных бенчмарков, которые позволят объективно оценивать качество, корректность и безопасность модели.
В январе 2026 года команда планирует получить:
- первую верифицированную базу текстовых данных для тренировки украинского LLM;
- улучшенный токенизатор, адаптированный к особенностям украинского языка, что повысит скорость и производительность обработки текстов;
- собственную систему бенчмарков для оценки качества, эффективности и безопасности языковой модели.
Параллельно формируется юридическая рамка, которая обеспечит прозрачную и безопасную работу с данными, а также соблюдение требований законодательства в сфере интеллектуальной собственности.
Запуск первой версии украинского LLM в формате бета-тестирования запланирован на весну 2026 года. Отдельно в январе 2026 года в приложении "Дія" стартует публичное голосование за название украинского LLM.