Українська правда

"Сяйво" не зійшло за графіком. Як Україна створює національний ШІ

Сяйво не зійшло за графіком. Як Україна створює національний ШІ
Колаж: Андрій Калістратенко

Півтора року тому Україна вирішила приєднатися до клубу країн, які розвивають штучний інтелект (ШІ) не лише на рівні бізнесу чи окремих стартапів, а і як частину державної політики. На тлі глобальної гонки великих мовних моделей (LLM), що дедалі сильніше впливають на економіку, безпеку, військову справу та суспільство, Мінцифри оголосило про створення власної національної LLM.

За задумом, українська LLM мала стати ядром нового етапу цифровізації держави. Власний ШІ мав допомагати уряду швидше ухвалювати рішення, покращувати взаємодію громадян із державними сервісами та краще розуміти український контекст, мову, історію, право й реалії війни.

Глобальна гонка моделей розвивається настільки швидко, що відкладати створення власної ШІ-інфраструктури до завершення війни означало б наздоганяти світ із великим запізненням. У цьому поїзді, як люблять казати в технологічній індустрії, останнього вагона може просто не бути.

Втім, за понад рік після перших заяв графік реалізації проєкту почав зміщуватися. Спочатку очікувалося, що перші результати українці побачать уже наприкінці 2025 року, потім – наприкінці весни 2026 року. Однак у ці строки бета-тестування так і не відбулося, а сам проєкт виявився складнішим, ніж могло здаватися на старті.

ЕП розбиралася, на якому етапі зараз перебуває створення національної мовної моделі, що вже вдалося зробити, чому заявлені строки переносили, як модель виглядатиме "під капотом" і коли українці зрештою зможуть скористатися власним суверенним ШІ.

Терміни розробки

У червні 2025 року Мінцифри та "Київстар" підписали меморандум про співпрацю, результатом якої мала стати поява першої української LLM. У цьому державно-приватному партнерстві "Київстар" взяв на себе фактичну розробку моделі, формування команди та фінансування проєкту. Держава в особі Мінцифри відповідала за координацію роботи експертів, підготовку даних для навчання та формування етичної рамки проєкту.

Оскільки від самого початку стратегія не передбачала навчання моделі повністю "з нуля", першу версію планували запустити до грудня 2025 року. Але реалізувати проєкт у такі строки не вдалося, і запуск почали зміщувати на кінець весни 2026 року.

Наприкінці березня українці в "Дії" обрали назву майбутньої національної LLM – "Сяйво". Тоді ж представники уряду заявили, що вже за два місяці її можна буде публічно протестувати. "Фінал опитування в "Дії". Нова назва української LLM – "Сяйво". Плануємо відкрите бета-тестування вже на кінець весни", – писала в Threads заступниця міністра цифрової трансформації Валерія Коваль.

Втім, реальність виявилася складнішою. Відкрите тестування у заявлені строки було фактично неможливим. Як пояснюють учасники проєкту, сам підхід до створення української LLM передбачає два етапи. Перший – підготовку даних, побудову процесів і тренування малої мовної моделі. Другий – тренування великої моделі, яку планують зробити доступною для ширшого використання.

"Зараз команда перебуває на фінальному етапі першої частини проєкту. Йдеться про модель на 4 мільярди параметрів (4B), яку використовують передусім як технічний етап перед запуском більшої моделі. Її завдання – допомогти команді відпрацювати всі процеси: тренування, тестування, налаштування якості відповідей та оцінку результату", – розповідає керівник впровадження аналітичних рішень в "Київстарі" Андрій Желєзняк.

Такий підхід обрали тому, що тренування більшої моделі є значно дорожчим і тривалішим процесом. Відповідно, чим більше помилок вдасться виявити та виправити на меншій моделі, тим менше дорогих експериментів доведеться проводити на наступному етапі.

За словами Желєзняка, роботу над малою моделлю планують завершити у другій половині червня. Вона вже технічно функціонує, однак не буде доступною публічно. Усередині проєкту її тестуватимуть члени комітетів, робочі команди, експерти та частина зовнішніх фахівців із професійної спільноти.

"Тренування мовної моделі складається з кількох етапів: pre-training, supervised fine-tuning та alignment. Зараз команда перебуває на фінальному етапі. Він є найкоротшим за часом, але дуже важливим для якості моделі", – додає представник "Київстару".

Саме на цьому етапі модель налаштовують так, щоб вона коректно реагувала на різні типи запитів, зокрема складні, чутливі або провокативні. Іншими словами, alignment визначає, як модель поводиться в реальних сценаріях використання та наскільки безпечними й доречними будуть її відповіді.

Після завершення першого етапу команда перейде до створення великої LLM, можливості якої вже зможуть оцінити українці. Саме ця LLM, на відміну від малої, має стати доступною для використання в Україні за моделлю open source. Її можна буде розгортати локально або використовувати як основу для створення різноманітних продуктів і сервісів.

Чому проєкт відстає від графіка

Основні труднощі, за словами учасників проєкту, виникли з двох причин. Перша проблема, за словами т.в.о міністра цифрової трансформації Олександра Борнякова, була пов'язана з даними. Їхній збір відбувався повільніше, ніж очікувалося.

"Ми стикнулися з великою проблемою збору даних, яка складається з двох частин. Перша – юридична. Ми – міністерство, і не можемо просто автоматично збирати чи вилучати дані, які захищені чиїмось інтелектуальним правом", – казав Борняков в інтерв'ю DOU.

У міністерстві також зазначають, що значна частина важливих історичних і документальних матеріалів досі зберігається виключно в паперовому вигляді. Їхня підготовка, систематизація та оцифрування потребують значного часу й зусиль.

Крім того, паралельно з розробкою технічної та безпекової інфраструктури, команда вибудовує прозору юридичну рамку з дотриманням авторських прав і створює систему національних бенчмарків для оцінювання етичності та якості майбутньої моделі.

Друга причина була технічною і стосувалася формування команди та найму фахівців. За це вже відповідав "Київстар". Йдеться насамперед про спеціалістів з data science та тренування мовних моделей, яких на українському ринку небагато.

У компанії визнають, що пошук потрібних спеціалістів тривав довше, ніж очікувалося. Тому доводилося залучати інженерів зі схожим досвідом, які могли швидко опанувати нову спеціалізацію. Водночас у "Київстарі" запевняють, що це не вплинуло на темпи розробки моделі: поки окрема команда формувалася, до роботи залучали профільних спеціалістів із наявного штату.

"Пошук фахівців почали приблизно в жовтні 2025 року, а повністю команда сформувалася в лютому-березні 2026 року. Спеціально під проєкт найняли 10 людей. Крім них, залучені ще 4-5 внутрішніх фахівців у різних напрямах від data science до проєктного менеджменту", – каже Желєзняк.

З боку Мінцифри та комітетів до роботи з даними, тестами й бенчмарками долучені понад 70 людей. Вони розподілені за чотирма профільними напрямами – науково-технічним, етико-правовим, культурно-історичним і мовознавчим – та відповідають за підготовку унікальних даних, відповідність усім нормам і створення системи національних тестів-бенчмарків.

За час реалізації проєкту відбулися зміни керівників окремих напрямків з боку як держави, так і "Київстару". Зокрема CEO та CTO AI Center of Excellence при Мінцифри Данило Цьвок і Дмитро Овчаренко перейшли в суміжні оборонні проєкти після того, як Михайло Федоров очолив Міністерство оборони. Зараз частина цієї команди працює над проєктом A1.

Водночас в "Київстарі" Михайло Нестор, який як CPO компанії був одним із відповідальних за реалізацію проєкту з боку приватного партнера, залишив свою посаду.

Втім, і держава, і мобільний оператор не визнають, що кадрові зміни вплинули на строки реалізації та розвиток української LLM. Навпаки, учасники проєкту стверджують, що зміни в управлінні радше додали організаційних завдань, ніж зупинили чи суттєво загальмували проєкт. "Оновлення керівництва команди привносить у проєкт нову експертизу, глибокий технічний досвід та свіжі управлінські навички", – відповіли у Мінцифри.

Ще одна складність – вибір технологічного стеку. Команда працює не на класичній для ринку інфраструктурі Nvidia GPU, а на Google TPU та фреймворках Google. Це менш поширений підхід до тренування мовних моделей, тому команді знадобився додатковий час, щоб опанувати цей стек.

Як створюють національну LLM

Малу модель "Сяйва" тренували на базі Google Gemma 3. Вона має розширене контекстне вікно до 128 тис. токенів, тобто здатна працювати з великими текстами, аналізувати документи, бачити зв'язки між різними фрагментами тексту та довше утримувати логіку розмови.

Однак сама базова модель не була оптимально пристосована до української мови. Як пояснює Желєзняк, глобальні моделі часто краще оптимізовані під англійську мову. Умовно кажучи, український текст вони можуть обробляти через англійську: спершу перекладати контекст, потім працювати з ним, а вже після цього формувати відповідь українською. Через такий проміжний етап частина змістових нюансів може втрачатися.

Саму модель тренували в хмарній інфраструктурі Google, оскільки необхідні TPU-процесори доступні саме там. Це означає, що перша мала модель національного ШІ фізично знаходиться за межами України.

Саме тому технічна команда значну частину часу присвятила розробці власного токенайзера. Це один із базових елементів моделі, який визначає, як вона "розбирає" текст і з якими частинами мови працює далі. Новий токенайзер має допомогти моделі краще сприймати українську мову напряму, без зайвого перекладу англійською. У теорії це має покращити розуміння контексту, зменшити втрату змісту й підвищити якість відповідей українською.

Значну увагу команда приділяє роботі з даними. У Мінцифри говорять про десятки терабайтів інформації, зібраної для формування перших версій українських мовних корпусів. "Модель мислитиме колосальними обсягами даних, багато з яких раніше ніколи не були оцифровані", – наголошують у міністерстві.

Там додають, що, на відміну від уже наявних українських моделей, для створення національної LLM залучають дані від понад 50 державних інституцій, медіа, університетів, видавництв, наукових установ та інших партнерів.

Ідеться про новини, аналітику, інтерв'ю, літературні твори, навчальні матеріали та історичні архіви. Також автори можуть самостійно передати свої тексти для тренування моделі.

У Мінцифри наголошують, що з навчального набору даних вилучають персональну та іншу чутливу інформацію, а також застосовують механізми анонімізації. Водночас підходи до тестування якості й безпеки моделі ще формуються.

Як і коли з'явиться національна LLM

Початковий план проєкту передбачав створення трьох моделей: малої на 4 млрд параметрів, середньої на 12 млрд і великої – приблизно на 27 млрд параметрів. Однак після роботи з першою моделлю команда вирішила пропустити проміжний етап і одразу перейти до великої LLM.

У результаті графік робіт вдалося переглянути й прискорити. Якщо спочатку велику модель планували передати на тестування лише у січні 2027 року, то тепер орієнтир змістився на листопад 2026 року.

За словами Желєзняка, 70–80% часу до листопада займатиме саме машинне тренування моделі. Решта піде на підготовку нових даних, адаптацію технічних процесів і роботу з особливостями нової архітектури.

Ще одна зміна пов'язана з базовою моделлю. Поки в "Київстарі" працювали над навчанням малої моделі на основі Gemma 3, вийшла новіша версія – Gemma 4. Саме її планують використати для створення великої української LLM. Це модель середнього розміру на 31 млрд параметрів (31B).

Gemma 4 має кілька важливих переваг. По-перше, це reasoning-модель, тобто вона краще справляється із завданнями, де потрібно не просто згенерувати відповідь, а послідовно "міркувати" над запитом.

По-друге, вона побудована на архітектурі mixture of experts. Простими словами, це не одна універсальна модель, а система з кількох спеціалізованих частин, які можуть ефективніше працювати з різними типами завдань.

Нова модель демонструє суттєво кращі показники в задачах на логіку та математику. Наприклад, у математичному бенчмарку AIME 2026 Gemma 4 31B показує результат 89,2%, тоді як попередня Gemma 3 27B мала лише 20,8%. У тестах на використання агентних інструментів τ2-bench результат зріс із 6,6% до 86,4%.

Gemma 4 також є мультимодальною моделлю, тобто може працювати не лише з текстом, а й з аудіо та зображеннями. А втім, у межах української LLM основний акцент поки що роблять саме на якості текстових відповідей.

Водночас перехід на Gemma 4 ускладнює технічну частину проєкту. Для малої моделі команда вже створила власний токенайзер, який краще працює з українським контекстом. Тепер його потрібно інтегрувати в нову базову модель.

Якщо для Gemma 3 уже існували приклади такої інтеграції, то для Gemma 4 їх поки немає. Тому частину роботи команді доведеться виконувати з нуля. Навіть попри вже відпрацьовані процеси, потрібно буде змінювати технічний пайплайн і заново налаштовувати окремі етапи навчання.

Після завершення навчання та тестового періоду "Київстар" має передати модель державі. У Мінцифри пояснюють, що базова версія моделі та унікальні українські датасети мають бути безоплатними й відкритими для використання.

Водночас саму модель планують перенести з хмарної інфраструктури Google на обладнання, розташоване в Україні. Для цього Мінцифри розбудовує власну державну ШІ-інфраструктуру – AI Factory.

ДП "Дія" ще у серпні минулого року оголосило тендер на постачання обладнання для роботи державних ШІ-сервісів. Йдеться про GPU-вузли, системи рідинного охолодження, комутатори, системи зберігання даних і ліцензії Nvidia AI Enterprise.

У тендері перемогло ТОВ "Лан Тек" із ціною 225,8 млн грн (5,4 млн дол.). Згідно з даними аукціону, обладнання мали поставити до 1 червня 2026 року.

У Мінцифри додають, що в перспективі AI Factory може розширитися до 31 вузла, які зможуть забезпечувати навчання та роботу складних мовних і візуальних моделей. У цьому периметрі планують обробляти критичні та чутливі державні дані, зокрема інформацію для "Дії", освітньої платформи "Мрія", національної LLM та інших ШІ-сервісів.

Загальну вартість проєкту – з урахуванням навчання моделі, зарплат команди та інфраструктури – сторони не розкривають. У Мінцифри наголошують, що фінансові й операційні витрати на розробку національної LLM повністю покриває "Київстар". Тоді як в операторі суму цих витрат поки не називають.

Перші інтеграції моделі Мінцифри реалізує у форматі технічного пайплайну для розробників. Для ширшого кола користувачів вона має стати основою ШІ-помічників, зокрема Дія.AI та ШІ-тьютора в "Мрії".

технології Київстар штучний інтелект Мінцифри