"Сяйво" не зійшло за графіком. Як Україна створює національний ШІ
Півтора року тому Україна вирішила приєднатися до клубу країн, які розвивають штучний інтелект (ШІ) не лише на рівні бізнесу чи окремих стартапів, а і як частину державної політики. На тлі глобальної гонки великих мовних моделей (LLM), що дедалі сильніше впливають на економіку, безпеку, військову справу та суспільство, Мінцифри оголосило про створення власної національної LLM.
За задумом, українська LLM мала стати ядром нового етапу цифровізації держави. Власний ШІ мав допомагати уряду швидше ухвалювати рішення, покращувати взаємодію громадян з державними сервісами, краще розуміти український контекст, мову, історію, право й реалії війни.
Глобальна гонка моделей розвивається настільки швидко, що відкладати створення власної ШІ-інфраструктури до завершення війни означало б наздоганяти світ з великим запізненням. У цьому поїзді, як люблять казати в технологічній індустрії, останнього вагона може не бути.
Утім, за понад рік після перших заяв графік реалізації проєкту почав зміщуватися. Спочатку очікувалося, що перші результати українці побачать наприкінці 2025 року, потім – наприкінці весни 2026 року. Однак у ці строки бета-тестування не відбулося. Проєкт виявився складнішим, ніж здавалося на старті.
ЕП розбиралася, на якому етапі перебуває створення національної мовної моделі, що вдалося зробити, чому заявлені строки переносили, як модель виглядатиме "під капотом" і коли українці зможуть скористатися суверенним ШІ.
Терміни розробки
У червні 2025 року Мінцифри та "Київстар" підписали меморандум про співпрацю, результатом якої мала стати поява першої української LLM. У цьому державно-приватному партнерстві "Київстар" узяв на себе розробку моделі, формування команди та фінансування проєкту. Держава через Мінцифри відповідала за координацію роботи експертів, підготовку даних для навчання та формування етичної рамки проєкту.
Оскільки стратегія не передбачала навчання моделі "з нуля", першу версію планували запустити до грудня 2025 року. Реалізувати проєкт у такі строки не вдалося, тож запуск змістили на кінець весни 2026 року.
Наприкінці березня українці в "Дії" обрали назву майбутньої національної LLM – "Сяйво". Тоді ж представники уряду заявили, що через два місяці її можна буде публічно протестувати. "Фінал опитування в "Дії". Нова назва української LLM – "Сяйво". Плануємо відкрите бета-тестування вже на кінець весни", – писала в Threads заступниця міністра цифрової трансформації Валерія Коваль.
Утім, реальність виявилася складнішою. Відкрите тестування в заявлені строки було неможливим. Як пояснюють учасники проєкту, підхід до створення української LLM передбачає два етапи. Перший – підготовка даних, побудова процесів і тренування малої мовної моделі. Другий – тренування великої моделі, яку планують зробити доступною для ширшого використання.
"Команда перебуває на фінальному етапі першої частини проєкту. Йдеться про модель на 4 мільярди параметрів (4B), яку використовують передусім як технічний етап перед запуском більшої моделі. Її завдання – допомогти команді відпрацювати всі процеси: тренування, тестування, налаштування якості відповідей та оцінку результату", – розповідає керівник впровадження аналітичних рішень у "Київстарі" Андрій Желєзняк.
Такий підхід обрали через те, що тренування більшої моделі значно дорожче і триваліше. Відповідно, чим більше помилок вдасться виявити та виправити на меншій моделі, тим менше дорогих експериментів доведеться проводити на наступному етапі.
За словами Желєзняка, роботу над малою моделлю планують завершити в другій половині червня. Вона вже технічно функціонує, однак не буде доступною публічно. Усередині проєкту її тестуватимуть члени комітетів, робочі команди, експерти та частина зовнішніх фахівців із професійної спільноти.
"Тренування мовної моделі складається з кількох етапів: pre-training, supervised fine-tuning та alignment. Зараз команда перебуває на фінальному етапі. Він найкоротший, але дуже важливий для якості моделі", – додає представник "Київстару".
Саме на цьому етапі модель налаштовують так, щоб вона коректно реагувала на різні типи запитів, зокрема складні, чутливі або провокативні. Іншими словами, alignment визначає, як модель поводиться в реальних сценаріях використання та наскільки безпечними й доречними будуть її відповіді.
Після завершення першого етапу команда перейде до створення великої LLM, можливості якої зможуть оцінити українці. Ця LLM має стати доступною для використання в Україні за моделлю open source. Її можна буде розгортати локально або використовувати як основу для створення різних продуктів та сервісів.
Чому проєкт відстає від графіку
Основні труднощі, за словами учасників проєкту, виникли з двох причин. Перша проблема, каже т. в. о. міністра цифрової трансформації Олександр Борняков, була пов'язана з даними. Їх збирання відбувалося повільніше, ніж очікувалося.
"Ми зіткнулися з великою проблемою збору даних, яка складається з двох частин. Перша – юридична. Ми міністерство і не можемо автоматично збирати чи вилучати дані, які захищені чиїмось інтелектуальним правом", – сказав Борняков в інтерв'ю DOU.
У міністерстві також зазначають, що значна частина важливих історичних і документальних матеріалів досі зберігається лише в паперовому вигляді. Їх підготовка, систематизація та оцифрування потребують значного часу й зусиль.
Крім того, паралельно з розробкою технічної та безпекової інфраструктури команда вибудовує прозору юридичну рамку з дотриманням авторських прав і створює систему національних бенчмарків для оцінювання етичності та якості майбутньої моделі.
Друга причина затримки була технічною і стосувалася формування команди. За це відповідав "Київстар". Ідеться насамперед про спеціалістів з data science і тренування мовних моделей, яких на українському ринку небагато.
У компанії визнають, що пошук спеціалістів тривав довше, ніж очікувалося. Доводилося залучати інженерів із схожим досвідом, які могли швидко опанувати нову спеціалізацію. Водночас у "Київстарі" запевняють, що це не вплинуло на темпи розробки моделі: поки формувалася окрема команда, до роботи залучали профільних спеціалістів із наявного штату.
"Шукати фахівців почали в жовтні 2025 року, а повністю команда сформувалася в лютому-березні 2026 року. Спеціально під проєкт найняли десять людей. Крім них, залучені ще чотири-пʼять внутрішніх фахівців у різних напрямах: від data science до проєктного менеджменту", – каже Желєзняк.
З боку Мінцифри та комітетів до роботи з даними, тестами й бенчмарками долучені понад 70 людей. Вони розподілені за чотирма профільними напрямами (науково-технічним, етико-правовим, культурно-історичним, мовознавчим) і відповідають за підготовку унікальних даних, відповідність усім нормам та створення системи національних тестів-бенчмарків.
За час реалізації проєкту відбулися зміни керівників окремих напрямків з боку і держави, і "Київстару". Зокрема, CEO та CTO AI Center of Excellence при Мінцифри Данило Цьвок і Дмитро Овчаренко перейшли в суміжні оборонні проєкти після того, як Михайло Федоров очолив Міністерство оборони. Зараз частина цієї команди працює над проєктом A1.
Водночас у "Київстарі" Михайло Нестор, який як CPO компанії був одним із відповідальних за реалізацію проєкту з боку приватного партнера, залишив посаду.
Утім, і держава, і мобільний оператор не визнають, що кадрові зміни вплинули на строки реалізації та розвиток української LLM. Навпаки, учасники проєкту стверджують, що зміни в управлінні радше додали організаційних завдань, ніж зупинили чи суттєво загальмували проєкт. "Оновлення керівництва команди приносить у проєкт нову експертизу, глибокий технічний досвід та свіжі управлінські навички", – відповіли в Мінцифри.
Ще одна складність – вибір технологічного стеку. Команда працює не на класичній для ринку інфраструктурі Nvidia GPU, а на Google TPU та фреймворках Google. Це менш поширений підхід до тренування мовних моделей, тому команді знадобився додатковий час, щоб опанувати цей стек.
Як створюють національну LLM
Малу модель "Сяйва" тренували на базі Google Gemma 3. Вона має розширене контекстне вікно до 128 тис. токенів, тобто здатна працювати з великими текстами, аналізувати документи, бачити зв'язки між різними фрагментами тексту та довше утримувати логіку розмови.
Однак базова модель не була оптимально пристосована до української мови. Як пояснює Желєзняк, глобальні моделі часто краще оптимізовані під англійську мову. Умовно кажучи, український текст вони можуть обробляти через англійську: спершу перекладати контекст, потім працювати з ним, а вже після цього формувати відповідь українською. Через такий проміжний етап частина змістових нюансів може втрачатися.
Модель тренували в хмарній інфраструктурі Google, оскільки необхідні TPU-процесори доступні саме там. Це означає, що перша мала модель національного ШІ перебуває за межами України.
Саме тому технічна команда значну частину часу присвятила розробці власного токенайзера. Це один з базових елементів моделі, який визначає, як вона "розбирає" текст і з якими частинами мови працює. Новий токенайзер має допомогти моделі сприймати українську мову без перекладу англійською. Це має покращити розуміння контексту, зменшити втрату змісту й підвищити якість відповідей українською.
Значну увагу команда приділяє роботі з даними. У Мінцифри говорять про десятки терабайтів інформації, зібраної для формування перших версій українських мовних корпусів. "Модель мислитиме колосальними обсягами даних, багато з яких раніше ніколи не були оцифровані", – наголошують у міністерстві.
Там додають, що, на відміну від наявних українських моделей, для створення національної LLM залучають дані від понад 50 державних інституцій, медіа, університетів, видавництв, наукових установ та інших партнерів.
Ідеться про новини, аналітику, інтерв'ю, літературні твори, навчальні матеріали та історичні архіви. Також автори можуть самостійно передати свої тексти для тренування моделі.
У Мінцифри наголошують, що з навчального набору даних вилучають персональну та іншу чутливу інформацію, а також застосовують механізми анонімізації. Водночас підходи до тестування якості й безпеки моделі ще формуються.
Як і коли з'явиться національна LLM
Початковий план проєкту передбачав створення трьох моделей: малої на 4 млрд параметрів, середньої на 12 млрд і великої – на 27 млрд параметрів. Однак після роботи з першою моделлю команда вирішила пропустити проміжний етап і одразу перейти до великої LLM.
У результаті графік робіт вдалося переглянути й прискорити. Якщо спочатку велику модель планували передати на тестування в січні 2027 року, то тепер орієнтир змістився на листопад 2026 року.
За словами Желєзняка, 70-80% часу до листопада займатиме машинне тренування моделі. Решта піде на підготовку нових даних, адаптацію технічних процесів і роботу з особливостями нової архітектури.
Ще одна зміна пов'язана з базовою моделлю. Поки в "Київстарі" працювали над навчанням малої моделі на основі Gemma 3, вийшла новіша версія – Gemma 4. Саме її планують використати для створення великої української LLM. Це модель середнього розміру на 31 млрд параметрів (31B).
Gemma 4 має кілька важливих переваг.
По-перше, це reasoning-модель, тобто вона краще справляється із завданнями, де потрібно не просто згенерувати відповідь, а послідовно "міркувати" над запитом.
По-друге, вона побудована на архітектурі mixture of experts. Тобто це не одна універсальна модель, а система з кількох спеціалізованих частин, які можуть ефективніше працювати з різними типами завдань.
Нова модель демонструє суттєво кращі показники в завданнях з логіки та математики. Наприклад, у математичному бенчмарку AIME 2026 Gemma 4 31B показує результат 89,2%, тоді як попередня Gemma 3 27B мала лише 20,8%. У тестах на використання агентних інструментів τ2-bench результат зріс із 6,6% до 86,4%.
Gemma 4 – мультимодальна модель, тобто вона може працювати не лише з текстами, а й з аудіо та зображеннями. У межах української LLM основний акцент поки що роблять на якості текстових відповідей.
Водночас перехід на Gemma 4 ускладнює технічну частину проєкту. Для малої моделі команда створила власний токенайзер, який краще працює з українським контекстом. Тепер його потрібно вмонтувати в нову базову модель.
Якщо для Gemma 3 існували приклади такої інтеграції, то для Gemma 4 їх поки немає. Частину роботи команді доведеться виконувати з нуля. Навіть попри відпрацьовані процеси, потрібно буде змінювати технічний пайплайн і заново налаштовувати окремі етапи навчання.
Після завершення навчання і тестового періоду "Київстар" має передати модель державі. У Мінцифри пояснюють, що базова версія моделі та унікальні українські датасети мають бути безоплатними й відкритими для використання.
Водночас саму модель планують перенести з хмарної інфраструктури Google на обладнання, розташоване в Україні. Для цього Мінцифри розбудовує власну державну ШІ-інфраструктуру – AI Factory.
ДП "Дія" в серпні 2025 року оголосило тендер на постачання обладнання для роботи державних ШІ-сервісів. Ідеться про GPU-вузли, системи рідинного охолодження, комутатори, системи зберігання даних і ліцензії Nvidia AI Enterprise.
У тендері перемогло ТОВ "Лан тек" із ціною 225,8 млн грн (5,4 млн дол.). Згідно з даними аукціону, обладнання мали поставити до 1 червня 2026 року.
У Мінцифри додають, що в перспективі AI Factory може розширитися до 31 вузла. Вони зможуть забезпечувати навчання та роботу складних мовних та візуальних моделей. У цьому периметрі планують обробляти критичні та чутливі державні дані, зокрема інформацію для "Дії", освітньої платформи "Мрія", національної LLM та інших ШІ-сервісів.
Загальну вартість проєкту – з урахуванням навчання моделі, зарплат команди та інфраструктури – сторони не розкривають. У Мінцифри наголошують, що фінансові й операційні витрати на розробку національної LLM повністю покриває "Київстар". Тоді як в операторі суму цих витрат поки не називають.
Перші інтеграції моделі Мінцифри реалізує у форматі технічного пайплайну для розробників. Для ширшого кола користувачів вона має стати основою ШІ-помічників, зокрема Дія.AI та ШІ-тьютора в "Мрії".