Київстар та Мінцифра переходять до ключового етапу розробки національної LLM
У 2025 році WINWIN AI Center of Excellence при Міністерстві цифрової трансформації України спільно з національним оператором електронних комунікацій Київстар визначили стратегічну мету — розробити національну українську LLM. Київстар виступив стратегічним партнером держави та операційним виконавцем розробки. Упродовж цього часу проєкт пройшов шлях від концепції до впровадження конкретних технічних рішень. Зараз команди переходять до ключового етапу — масштабної підготовки даних і формування стандартів якості майбутньої моделі.
Базовою технологічною основою для української LLM вибрано сімейство моделей Gemma від Google — сучасну відкриту AI-модель нового покоління, яка вже довела свою ефективність у міжнародних і локальних проєктах. Саме її адаптують до української мови, контексту та культурно-історичних особливостей.
Наразі триває важлива частина проєкту — підготовка та верифікація даних для навчання моделі. Якісна українська LLM потребує не лише відкритих інтернет-джерел, а й опрацювання історичних архівів, документальних матеріалів тощо. Навчання моделі відбуватиметься на спеціально відібраних, деперсоналізованих корпусах текстів. Дані для навчання збирають у співпраці з державними установами, медіа, університетами та науковими інституціями. Водночас значна частина важливих матеріалів досі зберігається виключно в паперовому вигляді, що підкреслює актуальність подальшої цифровізації культурної та наукової спадщини України.
Для незалежного контролю якості розробки створено експертний комітет, який працює за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Одне з ключових завдань комітету — розробка професійних бенчмарків, які дозволять об'єктивно оцінювати якість, коректність і безпеку моделі.
У січні 2026 року команда планує отримати:
- першу верифіковану базу текстових даних для тренування української LLM;
- покращений токенізатор, адаптований до особливостей української мови, що підвищить швидкість і продуктивність обробки текстів;
- власну систему бенчмарків для оцінки якості, ефективності та безпеки мовної моделі.
Паралельно формується юридична рамка, яка забезпечить прозору та безпечну роботу з даними, а також дотримання вимог законодавства у сфері інтелектуальної власності.
Запуск першої версії української LLM у форматі бета-тестування заплановано на весну 2026 року. Окремо в січні 2026 року в застосунку "Дія" стартує публічне голосування за назву української LLM.