Образование, книги, периодика и
библиотеки в электронном веке
Закрытые открытые данные
Открытые данные — материал для создания на их основе статьи, визуализации или общественного онлайн-сервиса
Пойдут ли открытые данные на пользу отечественному образованию? Как продвигаются дела в области открытых данных в России? На Пятом ежегодном хакатоне Open&Big Data в Санкт-Петербурге мы обратились с этими вопросами к специалистам в сфере Open Data: ИВАНУ ПЕЧИЩЕВУ, медиа-тренеру, доценту кафедры журналистики и массовых коммуникаций Пермского университета, и ИРИНЕ РАДЧЕНКО, доценту Университета ИТМО, эксперту в области открытых данных и журналистики данных.
Что есть открытые данные в образовании?
Открытые данные в образовании — понятие, как оказалось, троякое. Сфера образования может сама генерировать открытые данные, а может и использовать их — для оптимизации своей работы или в учебных целях.
«Открытые данные — максимально прикладная и человекоориентированная технология, — поясняет Ирина Радченко. — Они интересны для анализа и разработки полезных сервисов на их основе». Все, что не относится к гостайне и не содержит персональные данные, может быть открыто.
Данные, описывающие образование — статистика по вступительным экзаменам, по выпускникам (их выпускные отметки и трудоустройство) и др., — будут полезны родителям, абитуриентам и работодателям. Самой сфере образования стоит анализировать рынок труда, потребности людей в получении разного рода знаний: это поможет открыть новый успешный курс или провести мастер-класс. В учебных целях могут использоваться открытые данные из самых разных сфер — от промышленности до демографии — на их основе можно делать прогнозы и исследования…
Что могут дать открытые данные образованию?
Пока российская сфера образования мало использует открытые данные для самосовершенствования, но попытки есть. Например, на основании данных о рождаемости, выпускниках школ и статистике поступлений за прошлые годы, Пермский университет пробует предсказывать успешность очередной вступительной кампании — свою востребованность и популярность. «Часто говорят о демографическом провале, но многие просто о нем где-то слышали, — говорит Иван Печищев. — Давайте возьмем цифры и увидим, действительно ли он есть? В разных регионах — по-разному… Если провал есть, нужно прикладывать особые усилия: приглашать студентов из других регионов, вуз начинает иначе работать».
Проблемы open data
Сложно найти. Как правило, даже те данные, которые вузы выкладывают в сеть, довольно сложно отыскать. «Мы со студентами провели шуточный эксперимент, — рассказывает Иван Печищев, — в период вступительной кампании нужно было зайти на сайты вузов и быстро найти проходной балл по определенному направлению. Оказалось, что это очень сложно, информация глубоко «запрятана».
Неформат. Другая проблема: данные выкладываются не в машиночитаемых форматах, а в форматах, требующих предварительной обработки человеком, что в условиях, когда счет объектов идет на сотни, а то и тысячи (например, школы и вузы страны или города), делает использование таких данных практически невозможным. «Кто-то выкладывает сканированную копию документа, кто-то таблицу Excel, кто-то информацию в формате Word или pdf — все это не стандарт открытых данных, — напоминает Иван Печищев. — Публикация на сайте это еще не Open Data».
Данные долго выдаются, например, информацию о численности учеников в школах Перми Департамент образования выдал не через один месяц, как положено, а через полгода. «У нашей власти и сферы образования, весьма консервативной, пока нет понимания, какова может быть польза открытых данных, — утверждает Иван Печищев. — Одновременно присутствует и боязнь обнародовать свои ошибки».
Неинформативные датасеты. Данных мало, а те наборы данных, которые выкладываются, не очень интересны с точки зрения анализа и создания на их основе полезных сервисов. «На главном госпортале открытых данных образование на третьем месте по количеству датасетов — казалось бы, неплохо, — говорит Иван Печищев. — Но это в основном списки учреждений, данные плановых проверок — просто для отчетности… Наборы данных на сайтах других гостсруктур такие же: список школ региона, список дошкольных учреждений, список вузов региона — что нам даст эта информация? Наши специалисты возьмут список школ и разместят их на карте… — и что? Об этом и так все знают…»
Технологический барьер. Не хватает как понимания сущности открытых данных, так и владения инструментами работы с ними, ведь с данными нужно уметь обращаться. «В дата-экспедициях, которые мы проводим на базе вуза, принимают участие в основном студенты, — отмечает Ирина Радченко. — Но провести экспедицию для преподавателей в качестве курса повышения квалификации — хорошая мысль».
Чего бы хотелось
— Было бы здорово, — делится Иван Печищев, — если бы информация по всем канонам открытых данных выкладывалась дата-сетами: например, сколько человек подали заявки, какой балл проходной… А если бы удалось собрать данные со всей страны, получилась бы вдвойне интересная выкладка.
— Информативны и понятны детальные данные, — добавляет Ирина Радченко. — Обобщенные данные в стиле «средней температуры по больнице» не позволяют провести качественную аналитику. Речь ведь не о том, чтобы отыскать некие абстрактные данные, а о том, чтобы сделать продукт на основе данных. Например, статью в стиле дата-журналистики, сервис или визуализацию.
Проблемы сервисов на основе open data: корректность и обновляемость данных
Cервисы для абитуриентов, работающие по модели открытых данных, уже существуют. Например, основываясь на результатах ЕГЭ и минимальном вступительном балле, они берутся подсказать, в какой вуз можно подать документы. Недостаток в том, что не всегда там корректная и обновленная информация: на сайте могут быть ошибки, а условия приема — поменяться. К тому же, многие такие сервисы недостаточно информативны, чтобы предсказать успех или неуспех поступления. Ведь тут мало знать минимальный балл — нужно спрогнозировать балл проходной, для чего потребуются статистические данные за прошлые годы. «Толку от таких сервисов, к сожалению, пока немного, — говорит Иван Печищев, — информацию, которую они выдают, можно принять к сведению, но нам уже нужны сервисы, с помощью которых мы могли бы принимать решения!» Чтобы создать такой высокоинформативный сервис, необходимо большое количество качественных детализированных данных, которые сфера образования пока не генерирует.
Ручной труд
Каждый год в вузы поступают тысячи человек, поэтому все, что касается абитуриентов, — высоколиквидные сервисы, — делится идеей Иван Печищев. — И всех интересует: каков шанс поступить? Это должен быть суперинтегральный параметр, который учтет не только выпускные и вступительные баллы, но и статистику поступлений прежних лет, и демографическую ситуацию… Такой сервис неизбежно привлечет огромный трафик, который можно будет монетизировать. Но если вы соберетесь подобный проект осуществить сейчас, то все сайты вузов вам нужно будет перебрать вручную.
Интересные data-проекты
Несмотря на сложности, есть примеры полезных и успешных проектов.
1. «Карта загруженности пермских школ»
Учеба в две смены и переполненные классы — знакомая многим школам проблема. Пермские активисты решили получить информацию о загруженности школ в городе. Выяснилось, что половина школ перегружена, а некоторые переполнены критически, вплоть до коэффициента 2,37 от номинальной загрузки. Данные нанесли на карту и сделали карту загруженности пермских школ. «Эта информация была полезна родителям и всем, кто имеет отношение к образованию, — поясняет Иван Печищев. — Она интересна и с точки зрения планирования городского пространства: если район серьезно перегружен, строить там новый 16-этажный дом непозволительно… Данные можно анализировать с разных сторон: например, наложить карту дорог и оценить безопасность движения, определить опасные для школьников районы».
2. «Московские школы»: рейтинг
Известный проект Сергея Устинова «Московские школы», победивший на одном из недавних хакатонов в Москве, представляет собой карту школ г. Москвы. Школы оценили по результатам ЕГЭ, отзывам и вузам, в которые поступают их выпускники. Авторы проекта считают, что этот сервис должен помочь родителям выбрать школу для своих детей.
3. Дата-экспедиции: обучение работе с открытыми данными
В поисках открытых данных Университет ИТМО (Санкт-Петербург) и Высшая школа экономики (Москва) снаряжают дата-экспедиции. «Мы не теряем надежды внедрять новые образовательные технологии по обучению работе с открытыми данными», — говорит Ирина Радченко, один из идеологов и организаторов проекта. В игровой форме студенты отправляются в «экспедицию» за открытыми данными: находят их, обрабатывают и визуализируют… «Хороших данных пока очень мало, — сожалеет И. Радченко, — при подготовке дата-экспедиций даже приходится заранее подыскивать данные под определенные цели». Ближайшим летом планируются новые дата-экспедиции, результаты которых будут обработаны как данные по преподаванию работы с Open data.
В России и мире
Мировая ситуация с открытыми данными осложнилась. С 2009 г. движение Open data подстегивалось соревнованием между порталами госданных США и Великобритании. Однако со сменой президента изменился и курс США в области Open data. Понятно, что если один из флагманов выбывает из соревнования, это негативно скажется на ситуации в целом. Российский саммит открытых данных, который должен был состояться еще в прошлом году, также откладывается. Однако, несмотря на сложности, «российские специалисты — во фронтире открытых данных, — считает Ирина Радченко. — Не могу сказать, что Россия отстает, возможно, мы даже впереди в некоторых аспектах».
В ожидании яркой идеи
Сфера образования пока с опасением смотрит на идею Open data. Возможно, качественный рывок в этой области поможет совершить яркий пилотный проект, который сделает нужность этой идеи очевидной для всех. «Такой толчок, — соглашается Иван Печищев, — может дать прогрессивный человек или интересный для всех сервис, который проиллюстрирует богатые возможности открытых данных».
Историк науки, археолог, один из основателей Европейского университета в Санкт-Петербурге Лев Клейн опубликовал за свою научную карьеру более 600 работ. И сейчас, после выхода на пенсию, продолжает научную и писательскую деятельность, ведет авторскую колонку на сайте научного сообщества «Троицкий вариант», но с изданиями открытого доступа сотрудничать не спешит. В беседе с нами профессор Клейн поделился опасениями, связанными с этой моделью доступа к научной информации.
Перевод инновационных идей из академической среды в промышленность — сегодня одна из самых обсуждаемых тем в высшем образовании. Как устроена производственная цепочка, которая приводит к коммерциализации знаний? — этим вопросом задались на Неделе наукоемких технологий-2016 в Санкт-Петербурге.
Тема больших данных в последнее время широко обсуждается как в прессе, так и на профессиональных мероприятиях. Многие отмечают: благодаря цифровым технологиям издательства впервые получают возможность взаимодействовать со своими читателями напрямую, изучать свою аудиторию и гибко менять свои издательские и маркетинговые стратегии.