Оцифровка статистики, или Первая пища для Bigdata

Оцифровка статистики, или Первая пища для Bigdata

Четверг, 20 августа 2015, 01:09 -
Кабмин доработал проект постановления о правилах публикации открытых данных. Новация может стать мощным стимулом для развития экономики. Если, конечно, все сделать правильно.

Из всех миллионов цифр украинской статистики лишь жалкие проценты полезны для роста экономики и развития рынков.

Хотя сбор статистики - это отнюдь не бесполезное занятие в современном мире, но только в том случае, если она корректно обработана и подана.

Тогда сухие цифры конвертируются в живые деньги.

Впервые с момента объявления независимости Украины чиновники, наконец, глобально озаботились, какие данные о жизнедеятельности государства они подают его гражданам, бизнесменам и журналистам.

Реклама:

Кабмин доработал проект постановления о правилах публикации открытых данных. Об этом в Facebook сообщил директор департамента информационных технологий при Минэкономразвития Егор Стефанович.

Сейчас ведомство согласовывает документ с другим министерствами, а в сентябре рассчитывает на его утверждение правительством.

Постановление - это следующий шаг после принятия в апреле 2015 года закона о доступе к публичной информации в форме открытых данных. В феврале его внес в парламент президент Петр Порошенко.

Нажмите для просмотра документа 

Что такое открытые данные

Внедрение открытых данных в Украине - это инициатива ООН. Такими данными можно назвать статистику, реестры, отчеты, цифры, решения, документы, касающиеся всех сфер жизнедеятельности государства.

Основным контролером процесса обнародования сведений стало, согласно принятому закону, Госагентство по вопросам электронного правительства. Согласно проекту постановления Кабмина, ежегодно до 15 февраля госорганы должны будут отчитаться перед этим агентством о публикации данных.

У этого нововведения есть три глобальные цели: обеспечение прозрачности деятельности госорганов, борьба с коррупцией и создание подспорья для запуска инновационных сервисов в Украине.

Согласно проекту постановления, ведомства будут обязаны регулярно выкладывать открытые данные на своих сайтах и дублировать их на единый госпортал открытых данных в четких форматах.

Всего в проекте указано 290 массивов данных, которые должны будут сделать общедоступными министерства. Руководитель рабочей группы по открытым данным при Кабмине Денис Гурский сообщил ЭП, что это только начало.

"Мой KPI (Key Performance Indicators или по-простому - фронт работ. - Авт.) - 30 тыс наборов данных через год", - подчеркивает он. Сейчас, по его словам, на сайтах министерств и госорганов практически ничего нет, поэтому многим придется выкладывать данные заново в необходимых форматах.

Основной будущий кладезь информации об Украине - единый портал открытых данных - уже создан и работает в тестовом режиме. Им стал созданный в 2011 году при поддержке общественной инициативы Social Boost, "Майкрософт Украина" и фонда "Відродження" сайт data.gov.ua.

Нажмите для увеличения 

Бесполезная информация

Согласно принятому закону, открытые данные можно будет свободно копировать, публиковать, распространять и дополнять, в том числе - в коммерческих целях.

Как подметил основатель одесского коворкинг-центра "Терминал 42", экс-директор компании "Яндекс Украина" Сергей Петренко, важно, что министерства теперь обяжут публиковать данные в машиночитаемом формате.

Он припоминает, что при работе "Яндекса" с государством по ряду проектов формат выдачи информации был основной головной болью. Особенно много сложностей возникало с сервисом "Яндекс. Расписания".

Если данные о расписании поездов можно было взять в электронном виде в доступном источнике, то с расписанием пригородных электричек была беда.

В Украине шесть железных дорог, и данные в расписании электричек регулярно меняются. В результате, изменения в расписания приходилось вносить вручную: на факс поступали телеграммы, данные из которых оцифровывались. С коллегой соглашается представитель компании "A+S в Украине" Дмитрий Беспалов.

"У транспортных инженеров есть поговорка: "Данных много не бывает". Однако тут еще немаловажный пункт - правильный формат данных. У нас был опыт: данные вроде есть, и они для нас открыты, но формат их таков, что получить из них нужную информацию никак не выйдет", - подчеркивает он.

По его словам, стоит говорить не столько об открытости данных, сколько об их стандартизации. "Тогда и инфраструктуру можно планировать", - говорит эксперт.

В проекте постановления написано, что данные должны не только уметь отображаться на сайте, но и быть готовыми к тому, чтобы стать частью новых сторонних приложений и услуг. "На таких данных можно строить журналистские расследования и за пару дней организовывать стартапы", - говорит Гурский.

Новые сервисы и Bigdata

Заместитель директора исследовательской компании GfK Ukraine Глеб Вышлинский прогнозирует, что первыми потребителями хорошо структурированных госданных станут профессиональные аналитики.

"Наша компания сможет скачать базу ЄДРПОУ и проводить опрос предприятий, звоня на случайно выбранные номера, а не выколупывать их по строке. На сайте Госстата данные будут в таблицах с рядами данных, а не в вордовских файлах. Это только первые приходящие в голову примеры", - рассказывает он.

Замдиректора дата-центра "Парковый" Денис Бурдук предполагает, что после открытия данных начнут появляться платные аналитически сервисы.

По его мнению, такие данные также являются массивом для BigData-алгоритмов - программ, которые быстро анализируют миллионы, казалось бы, несвязанных данных и выдают неожиданные взаимосвязи и прогнозы по развитию отраслей.

Согласно прогнозам исследователей европейского проекта по большим отрытым данным Bigopendata.eu, к 2020 году открытые данные принесут Европе 206 млрд евро. В первую очередь - благодаря принятию решений, подкрепленных точными сведениями, а также за счет увеличения эффективности бизнес-процессов.

 Нажмите для увеличения 

Не все так просто

Публикация открытых данных - это процесс, который таит в себе множество подводных камней. Например, смогут ли госорганы готовить данные, будут ли их регулярно обновлять, и сколько на это уйдет государственных средств.

Вышлинский считает, что ничего сложного в этом нет: собрать данные в xls сможет даже чиновник с зарплатой 3 тыс грн.

Петренко обращает внимание на еще один важный нюанс: справится ли ресурс data.gov.ua с большой нагрузкой. Он желает исполнителям проекта удачи.

Бурдук добавляет, что портал должен будет на достойном уровне обеспечить безопасность хранения и обработки данных, ведь от них будет зависеть беспрерывность работы многих приложений.

Беспалов беспокоится о том, что некоторые данные, которые будут предоставлять ведомства, окажутся бесполезными, так как будут неполными.

"Например, нам дали данные о перспективных застройках в Киеве. Пишут: ххх кв м жилья. Расположение: улица Дегтяревская. Отлично! Эта улица около 3 км в длину, и в нее попадает, наверное, 12-15 транспортных районов. Куда же отнести эти метры? Но данные вроде есть. Все в таблицах, все красиво", - отмечает он.

То же, по его словам, может получиться с массивами данных по ДТП, которые также попали в разряд открытых. В них может быть указана дата происшествия на пересечении тех или иных улиц. Чтобы анализировать эти сведения, нужны координаты точек, время, участники, предварительные причины.

"Я буду рад ошибиться и увидеть данные в полном виде", - резюмирует Беспалов.

Реклама: