Украинская правда

ИИ с украинским акцентом: что создают Минцифра и "Киевстар" и кому это нужно

ИИ с украинским акцентом: что создают Минцифра и Киевстар и кому это нужно
Колаж: Андрій Калістратенко

Правительство и крупнейший мобильный оператор разрабатывают для украинцев национальный искусственный интеллект. Что получит государство, бизнес и граждане?

В Украине готовятся запустить первую национальную большую языковую модель (LLM). Речь идет не об еще одном стартапе или академическом эксперименте, а о национальном проекте, к которому правительство хочет привлечь миллионы украинских текстов - от книг до правовых документов.

В Минцифре сразу дали понять: самостоятельно государство не потянет, поэтому нужен мощный партнер. Кто-то с "техническими мышцами", деньгами и пониманием, как работает инфраструктура искусственного интеллекта (ИИ).

В июне стало известно, что главным партнером государства в создании LLM станет "Киевстар". Один из крупнейших телеком-операторов страны взялся за задачу, которую ранее в Украине не выполнял никто. Компания пообещала не только собрать команду и подготовить техническую базу, но и полностью профинансировать первый этап разработки.

Это вызвало недоумение даже у части ИИ-сообщества. Почему именно "Киевстар"? Хватит ли ему экспертизы и что он будет делать? Для чего это бизнесу?

Без ответов остались и главные вопросы, которые задает себе любой, кто живет в стране, где продолжается большая война и экономическая турбулентность: актуальна ли такая разработка? Что получит от нее обычный человек - не айтишник, не госслужащий, а пользователь, налогоплательщик, гражданин?

Что будут создавать Минцифра и "Киевстар"

Перед министерством и мобильным оператором стоит сложная задача: с одной стороны - реализовать то, чего еще никто в Украине не делал: создать национальную LLM, а с другой - приобщить государство к клубу стран, которые уже имеют собственные ИИ-решения.

Элитарность этого клуба определяется прежде всего ресурсами, которые нужны для создания собственной LLM. Речь идет не только о финансовой части, но и о специалистах и технической базе. Нужны команды лингвистов, дата-саентистов (аналитика данных), DevOps-инженеров (инфраструктурные разработчики), экспертов по этике ИИ и стратегов обработки данных. Без такой экосистемы модель рискует остаться сырой или непрактичной.

Часть человеческих ресурсов могут обеспечить научное сообщество и ІТ-сектор, а финансовую - "Киевстар". Самым большим вызовом будет оставаться создание и поддержка инфраструктуры для развертывания отечественной LLM.

В апреле технический директор новосозданного ИИ-центра при Минцифре Дмитрий Овчаренко объяснял: для обучения модели "с нуля" в Украине не хватает вычислительных мощностей. Поэтому в ведомстве сразу сделали ставку на другой путь: использование имеющихся open-source-моделей (доступных для свободного использования) и их обучение на украинских данных (fine-tuning). Это менее ресурсоемкий и более быстрый процесс.

Для понимания: обучение "с нуля" можно сравнить с процессом, когда ребенка учат читать, писать и мыслить, а fine-tune - когда он получает профессиональное образование, например, бухгалтерское или юридическое.

Вице-премьер-министр, министр цифровой трансформации Михаил Федоров и президент Киевстара Александр Комаров подписали меморандум о разработке украинской LLM
Вице-премьер-министр, министр цифровой трансформации Михаил Федоров и президент "Киевстара" Александр Комаров подписали меморандум о разработке украинской LLM

Такой подход широко используется в государственных инициативах и частном секторе. Например, украинская IT-компания MacPaw недавно запустила ИИ-ассистента Eney, которого создала на базе LLaMA 3.2 Instruct, проведя дополнительное обучение для собственных нужд.

Какую открытую модель выберут для национальной LLM? В мире есть несколько десятков компаний, которые разрабатывают LLM. Лишь ограниченное количество моделей масштабное, высокопроизводительное и конкурентоспособное на глобальном уровне. При этом большинство известных моделей, например от OpenAI или Google, не являются открытыми. Они доступны только через API - собственный интерфейс без раскрытия архитектуры или весов.

Поэтому выбор для обучения моделей, которые есть в открытом доступе, невелик. В мире не наберется и двух десятков компаний, создающих и публикующих собственные LLM с открытым кодом. Кроме того, не все они позволяют использовать эти модели в коммерческих продуктах. Например, Meta запрещает коммерческое применение без отдельной лицензии.

"Теоретически процесс понятен: есть набор данных, инфраструктура и можно начинать процесс тонкой настройки. На практике же это составит задачу, которую в Украине еще никто не реализовывал. Прогнозировать успех очень трудно, потому что нет аналогов и не на кого ориентироваться", - объясняет CEO DevRain Александр Краковецкий.

"Сейчас идет первичная фаза исследований и разработки, по результатам которой будет определено, какую именно open-source архитектуру выберут для fine-tune. Решение будет приниматься на основе технических и прикладных критериев", - объясняет директор по разработке диджитал-продуктов "Киевстара" и CPO в Kyivstar.Tech Михаил Нестор, который курирует проект со стороны оператора.

Одно можно сказать точно: решения китайских ИИ-компаний, таких как DeepSeek AI, не будут рассматриваться. По крайней мере так заявляли в Минцифры.

Зачем Украине собственный ИИ

Тренд на создание суверенных ИИ-технологий становится все более заметным в разных странах. Речь не только о лидерах мировой экономики, которые и так инвестируют миллиарды в искусственный интеллект, но и о государствах с похожим на Украину подходом, которые стремятся иметь собственную языковую модель, адаптированную к локальным потребностям.

В результатах исследования Украинского католического университета (УКУ) отмечается, что правительства видят в национальном ИИ мощный толчок для развития образования, электронного управления, медицины, экономики и даже усиления национальной безопасности.

Например, Болгария и Греция работают над собственными LLM: BgGPT и Meltemi. Их используют в образовательном процессе, чтобы генерировать задания, отвечать на вопросы и объяснять сложные понятия. Модель BgGPT уже показала результативность на уровне школьных экзаменов, иногда даже выше ChatGPT и LLaMA.

В Швеции, где наблюдается дефицит рабочей силы из-за старения населения, создают GPT-SW3. Модель должна автоматизировать работу с текстами в госсекторе и компенсировать нехватку работников.

Одним из самых популярных направлений является интеграция ИИ с государственными сервисами. В Албании работает виртуальный ассистент, который автоматизирует подачу заявок на государственные услуги. В планах - создание национальной языковой модели для перевода юридических документов в рамках подготовки к вступлению в ЕС.

По словам собеседника ЭП в Минцифре, государство хочет улучшить предоставление услуг для граждан и ускорить работу правительства. Это один из приоритетов министра Михаила Федорова.

Нестор объясняет, что одной из ключевых особенностей отечественной LLM должно быть глубокое понимание украинского языка. Модель будет учитывать диалекты, семантические нюансы и терминологическую точность. Это позволит применять ее в областях, где нужна языковая чувствительность, в частности в юриспруденции, медицине или государственном управлении.

Еще один важный момент - цифровой разрыв. ИИ становится двигателем экономических изменений. Если Украина не будет иметь собственной модели, она будет зависеть от внешних решений, которые часто плохо работают с украинским языком и местным контекстом. Национальный ИИ откроет доступ к инструменту, который действительно понимает Украину и поможет бизнесу, образованию и государству не отставать в технологической гонке.

Как сделать ИИ украинцем

Чтобы создать по-настоящему украинскую языковую модель, технической инфраструктуры недостаточно. Главное "топливо" для ИИ - это данные, а именно украинские данные, которые до сих пор никто в таких масштабах не собирал и не упорядочивал для тренировки языковой модели.

Эту задачу взяло на себя Минцифры. Ведомство координирует процесс создания модели в техническом и этическом смыслах. Для этого формируются три ключевые структуры: координационный комитет, технический совет и этический совет.

Первый будет отвечать за общую стратегию проекта. В него войдут представители Минцифры, в частности ИИ-центра, другие госучреждения, команда "Киевстара" и специалисты из обоих советов.

Этический совет будет следить за соблюдением законодательства, норм конфиденциальности и этических стандартов. Технический - за архитектурой модели, ее обучением, подготовкой данных и качеством конечного продукта.

В Минцифре сообщили ЭП, что для тренировки будут использовать корпус украиноязычных текстов из открытых источников. Рассматриваются несколько датасетов, в частности "Малыш" (113 Гб текста), NER-UK, UA-GEC и другие. Окончательное решение еще не принято.

Параллельно команда министерства ищет менее очевидные, но ценные источники. Это уникальные украинские тексты, которые формально открыты, но рассеяны по архивам библиотек, госучреждений, научных фондов. Их планируют собрать вместе с участием университетов, национальных библиотек и интеллектуальных центров.

"Наша задача - собрать эти данные. Благодаря им модель будет действительно украинской, с живым и точным контекстом, которого нет в иностранных аналогах", - объясняет Chief AI Officer Минцифры Даниил Цьвок.

Там добавили, что это позволит модели лучше понимать украинский язык во всей его полноте: с диалектами, терминами, историческими реалиями. Она сможет давать содержательные, точные и языково выверенные ответы на вопросы о войне, истории или культуре.

Отдельно готовится инициатива, которая позволит авторам "задонатить" свои тексты на обучение модели. Ведь LLM - это новый способ найти информацию. Когда украинцы будут задавать ей вопросы, она в своих ответах будет ссылаться на работы авторов.

Похожую идею предложил и Краковецкий из DevRain. В подкасте "Шилософия" он высказал мнение, что к сбору данных могли бы присоединиться и украинские медиа. При этом он подчеркнул: прецедентов передачи данных не было, потому что не понятно, как решать проблему авторских прав.

В то же время в Минцифре отмечают: никаких персональных или чувствительных данных в модель загружать не будут. Данные будут проходить очистку и анонимизацию, чтобы гарантировать безопасность и приватность пользователей.

Почему "Киевстар"

В мае Федоров сообщил, что Украина ведет переговоры с крупной международной компанией о создании национальной ИИ-инфраструктуры. Он отметил, что ее должны развернуть полностью внутри страны с учетом военных рисков и рисков безопасности.

В Минцифре отмечали: проект украинского LLM невозможно реализовать без партнеров. Хотя в Украине есть соответствующие специалисты, однако компаний, системно работающих с ИИ, пока немного. Именно поэтому в экспертной среде долгое время предполагали, что к сотрудничеству привлекут кого-то из крупных западных игроков.

Однако на открытый запрос государства неожиданно откликнулся "Киевстар". Это удивило многих. "Я думал, что это будет консорциум вроде Microsoft, государства, какого-то научного центра, возможно, инфраструктурного партнера. А пока выглядит так, что просто сказали: "Киевстар, сделай". С одной стороны, это проще: одна компания - одна ответственность. С другой - вопросы остаются", - говорит владелец одной из ИТ-компаний, которая работает в сфере ИИ.

Впрочем, партнер определен и теперь важно понять его роль. По словам представителей компании, "Киевстар" выступает операционным исполнителем: создает проектный офис, подбирает команду, отвечает за инфраструктуру и обеспечивает вычислительные мощности для предварительного этапа обучения модели.

Финансирование берет на себя оператор. Учитывая военное время и постоянный бюджетный дефицит это выглядит вполне логично. Рассчитывать на государственные средства в таком проекте было бы нереалистично. В "Киевстаре" оценивают общую стоимость разработки в 2 млн долл. В масштабах ИИ-индустрии это умеренная сумма.

Михаил Федоров и Александр Комаров
Михаил Федоров и Александр Комаров

Средства планируют направить прежде всего на аренду инфраструктуры и оплату труда. Собственную инфраструктуру пока не будут разворачивать, поскольку это сложный и долгий путь, который не соответствует темпам проекта.

"Сейчас в Украине не хватает специализированных GPU-чипов, необходимых для тренировки подобной модели. Поэтому мы планируем использовать мощности дата-центров облачных провайдеров. Параллельно, конечно, в Украине будет происходить постепенное наращивание GPU-инфраструктуры", - объясняет Нестор.

Почему это выгодно "Киевстару"? Официально это способ получить экспертизу в сфере ИИ и использовать модель для собственных решений. Однако есть и другие весомые факторы.

В последние несколько месяцев компания активно интересуется украинским технологическим рынком, в частности M&A-сделками. Она формирует международные партнерства, как, например, недавняя сделка со SpaceX, и готовится к листингу: вскоре часть акций "Киевстара" появится на фондовой бирже. В таком контексте участие в создании национального LLM выглядит не просто как гражданская позиция, а как стратегическая инвестиция в репутацию и влияние.

Что на выходе

Первую версию украинского LLM планируют создать в течение девяти месяцев. На начальном этапе она будет работать в формате бета-теста. "Во время этого периода государственные, научные, общественные и образовательные институты смогут загрузить модель и испытать ее возможности. После завершения тестирования модель будет передана государству и выложена в открытый доступ", - объясняет Нестор.

После запуска модель планируют интегрировать с государственными сервисами, в частности с "Дією". Один из первых прикладных продуктов - инструмент для перевода и анализа евросоюзовского законодательства. Сейчас над ним работает WINWIN AI Center of Excellence. Такой сервис может существенно ускорить процесс евроинтеграции. Решений, которые будут помогать государству, в министерстве обещают больше.

С появлением LLM функциональность "Дії" существенно расширится. Она должна превратиться в универсальное окно взаимодействия гражданина с государством, сервис, где большинство услуг можно будет получить по принципу one-stop-shop.

В Минцифре также ожидают, что украинский бизнес начнет создавать собственные ИИ-продукты. "У компаний будет реальная возможность запускать собственные чат-боты и ИИ-агенты для миллионов пользователей. Мы хотим, чтобы в Украине появился свой условный ChatGPT. Но это уже больше история для рынка, а не для государства", - говорит Цьвок из Минцифры.

В "Киевстаре" добавляют: бизнес получит возможность присоединиться к бета-тестированию. Для этого нужно будет подать запрос. В дальнейшем планируется запуск коммерческих решений на базе LLM, которые будут доступны через API и с возможностью локального развертывания на серверах клиентов.

Отдельный вопрос - какой будет украинская LLM по объему. Поскольку open-source-архитектура еще не определена, говорить о точных параметрах рано. Впрочем, вряд ли стоит ожидать решений, способных конкурировать с самыми мощными моделями OpenAI.

При этом, по словам Овчаренко из ИИ-центра при Минцифре, приоритет - это модели в диапазоне 1-16 млрд параметров. Такой масштаб позволяет сохранять баланс между производительностью и ресурсными затратами: модели до 7 млрд можно запускать на одной GPU, а 13-16 млрд - на небольших кластерах (группа объединенных компьютеров или серверов).

Опыт LLaMA, Gemma и Mistral показывает, что правильно натренированные средние модели могут показывать конкурентное качество в задачах классификации, генерации и понимания языка, в частности в локализованном контексте.

"Малые и средние модели легче запускать и тонко настраивать к конкретным задачам, для этого они и созданы. Они требуют меньше ресурсов, но могут показывать лучшую эффективность на специализированном наборе данных или в контексте конкретной задачи", - отмечает Краковецкий.

Как бы там ни было, а полноценно определить, как будет выглядеть и как будет работать украинский суверенный ИИ, можно будет только после его запуска.

штучний інтелект Минцифра Киевстар