Закрытые открытые данные
Пойдут ли открытые данные на пользу отечественному образованию? Как продвигаются дела в области открытых данных в России? На Пятом ежегодном хакатоне Open&Big Data в
Геологи и археологи многие годы отправлялись в дальние экспедиции в поисках новых для науки сведений. Именно в таком контексте большинству из нас привычно слово «экспедиция». Пространство больших данных — неизведанная территория, в которую отправляются сегодняшние киберпутешественники. Что, как и зачем ищут участники дата-экспедиций, нам рассказала ИРИНА РАДЧЕНКО, доцент Университета ИТМО, эксперт в области открытых данных и журналистики данных.
— Ирина, что же такое дата-экспедиции?
Дата-экспедиция — образовательный проект, целью которого является обучение работе с открытыми данными. Обычно она проходит в формате проектного обучения и взаимопомощи. Взаимопомощь — неловкая попытка перевести на русский язык англоязычный термин peer education, т. е. «пиринговое образование», когда студенты учат друг друга.
— В дата-экспедиции желающие отправляются вот уже несколько лет...
Да, мы проводим дата-экспедиции начиная с 2013 года. На эту тему я общалась в Берлине с одной из основательниц и генераторов идей по дата-экспедициям Люси Чемберс. Она с большим энтузиазмом отнеслась к тому, чтобы мы с Анной Сакоян запустили дата-экспедиции в России. Поскольку это открытый проект, все обучающие материалы, методологии распространяются под открытыми лицензиями. Сам термин «дата-экспедиция», или «экспедиция данных», мы позаимствовали у Школы данных (School of data), проекта Фонда открытых знаний (Open Knowledge Int., ранее Open Knowledge Foundation). Есть у него и российское отделение, — небольшая группа энтузиастов. Сначала мы проводили дата-экспедиции, по уже имеющимся наработкам, в формате онлайновых мероприятий, но вскоре поняли, что этот метод не очень эффективен. Мы собрали статистику по студентам, получили обратную связь методом анкетирования и поняли, что при обучении только в онлайновом режиме слишком велик людской «самотек», многие в какой-то момент просто бросают учиться.
— Это слабое место большинства открытых онлайн проектов...
Но мы постепенно улучшали свои методы и уже к концу 2014 года я поняла, что эффективно проводить дата-экспедицию в смешанном режиме. В педагогике он называется blended learning, «смешанное обучение», когда обучение проводится и онлайн, и оффлайн. Очень важен психологический фактор. Несколько установочных занятий помогают человеку понять, о чем пойдет речь, кто у него тьютор, избавиться от страха задавать вопросы. Тогда уходит data-фобия. Это удачное выражение придумала одна девушка из Румынии. Глядя на таблицы с данными, она воскликнула: «Какой ужас, у меня дата-фобия!» Этот страх легко снимается в оффлайн-общении.
— Дата-экспедиция — это личная или командная работа?
Это работа в малых группах, по 2–3 человека — отлично в качестве команды. Можно сделать индивидуальный проект, но одному тяжеловато перерабатывать все это с нуля, когда же много людей, им сложнее договориться и распределить работу.
— Установилась ли педагогическая методология дата-экспедиций?
На основе прошедших дата-экспедиций мы с Анной Сакоян написали две научных и три научно-популярных статьи, посвященных онлайн-обучению и открытым образовательным ресурсам. Сейчас мы с Ольгой Максименковой, специалистом в области компьютерных наук, потихонечку готовим схемы, которые позволят вписать дата-экспедиции в педагогическую методологию, чтобы их можно было масштабировать и другие люди могли по нашим инструкциям проводить подобные мероприятия. На текущий момент концепция обрастает все новыми интересными подробностями, облегчающими жизнь создателям дата-экспедиций.
— Открытость — обязательное качество дата-экспедиции?
Сейчас проводятся дата-экспедиции двух типов. Первый тип — в русле citizen science, «гражданской науки», создания открытых проектов при помощи непрофессионалов, дилетантов в хорошем смысле. Это онлайновый тип обучения и эффективность его менее высока, чем эффективность обучения второго типа, когда дата-экспедиция проводится на базе университета. Мы проводили дата-экспедиции на базе ВШЭ в Москве, ИТМО в Санкт-Петербурге, КарГТУ в Караганде (Казахстан). Второй тип, хотя и более педагогически эффективный, менее открытый, ведь часть лекций мы проводим внутри университетов и не всякий может на них попасть. А вот дата-экспедиции, которые проводятся онлайн — по-настоящему открыты для всех. В принципе, можно проводить и закрытые дата-экспедиции, например, по заказу коммерческой организации, но до сих пор мы проводили дата-экспедиции только в открытом формате.
— Какие тематики ложатся в основу дата-экспедиций?
Транспорт, образование, криминальные, экологические данные — любые крупные тематические направления. Я заранее предлагаю обобщенные тематики, чтобы облегчить жизнь обучающимся. Если у них есть личные предпочтения и наработки, они смогут использовать дата-экспедицию для своих исследований. Наша основная цель — обучить человека, поэтому мы исходим еще и из того, где мы найдем данные.
— В каких областях легко найти данные, а в каких сложно?
Это зависит от типов данных, но есть общие тенденции. Чем детальнее данные, тем их сложнее найти, но тем они интереснее и тем лучшую аналитику мы можем на них сделать. Под детальными данными я имею в виду высокую степень детализации, например, анонимизированные данные по районам. Чем более укрупненные данные, тем больше вероятность ошибки, в том числе при их визуализации. Конечно, детальные данные по району найти сложно. Но в моей практике были случаи, когда внезапно выяснялось, что какие-то очень крутые данные есть в наличии. Чаще такие удачи случались на зарубежных хакатонах. На хакатон под эгидой Всемирного банка чиновники высокого уровня, заинтересованные в открытости, сами старались предоставить хорошие данные. Были детальные данные по образованию в Киргистане, с точностью до школы. Бывали случаи и в России. Но это сложный вопрос. Если вы проводите исследование, велика вероятность, что нужные вам данные в открытой форме вряд ли найдутся.
— Что же делать, если данных нет? Как их получить?
Добиться их сложно, можно послать запрос в Росстат либо генерировать самостоятельно. Мы можем сами генерировать данные. Пример — взятие пробы или измерение некоторых физических параметров (конечно, это работает в случае, если у вас есть оборудование и люди, умеющие с ним работать). Я не говорю, что мы в дата-экспедициях так делаем, у нас на это нет времени, однако логично, что если вы занимаетесь расследованием, то пытаетесь получить данные любым физически доступным, законным способом.
— Но почему такие сложности? Разве не должны открытые данные лежать на порталах открытых данных?
Культура работы с данными, культура открытых данных — это следующая ступень развития цифрового общества. Пока она есть далеко не у всех, а лишь у визионеров, стратегов. Замечательный проект OpenCorporates (Открытые корпорации) как раз для них, визионеров корпораций, которые понимают, что совершая акт доброй воли и открывая какие-то финансовые данные, корпорация может сделать своих акционеров более лояльными, ведь отчеты, предоставленные не персонально, а в открытой форме, любой может проверить и проанализировать.
— Есть ли отечественные организации — пример того, как нужно открывать данные?
Cейчас АНО «Информационная культура», которое как раз популяризирует открытые данные, сотрудничает с Минфином; у Минфина разработана целая программа по открытости. В последние два года представители этого министерства встречались с разработчиками и запрашивали обратную связь: какие данные открыть, в какой форме? Это замечательная попытка взаимодействия. Наверно, в этой ситуации получить данные в Минфине было значительно проще, чем в любом другом «закрытом» министерстве. Минфин можно привести как хороший пример госорганизации, которая открывает данные. Минкульт тоже идет навстречу...
— Чем отличаются «плохие» и «хорошие» датасеты?
Это хороший вопрос! Пригодностью к обработке, полезностью. Вопрос качества открытых данных стоит очень остро. Принятие федерального закона об открытых данных означало приказ сверху, по которому чиновники стали открывали данные. Но, во-первых, у них не было понимания сути вопроса, во-вторых, это лишняя работа для них... Поэтому открыли то, что и так было открыто, либо открывали что-то бесполезное. Например, вакансии на сайте министерства, которые и так опубликованы, или список подведомственных учреждений... Кому это может быть полезно? Данные дублировались: они и так были размещены на порталах министерств и ведомств, а теперь их повторно разместили в разделе открытых данных. Была попытка создать унифицированные разделы для автоматической обработки, но это было сделано настолько некачественно, что не привело ни к каким значимым результатам. На федеральном Портале открытых данных, data. gov. ru, якобы тысячи данных, выглядят они как «настоящие», но попробуйте поработать с ними... Будут ли эти данные вам полезны? Лондонские коллеги из Института открытых данных (законодатели «моды» в открытых данных) поделились забавным термином unicorn dataset. Идеальный набор данных подобен единорогу: все о нем слышали и жаждут получить, но никто не видел.
— Исходя из определения, открытые данные должны предоставляться в машиночитаемых форматах и не требовать человеческой обработки. Наверно, такого почти нет... или есть?
По-разному. Очень много данных существуют в формате pdf — это очевидно немашиночитаемый формат. Есть данные в формате doc/docx, их нужно вручную переводить в таблицу, но можно найти и машиночитаемые форматы: csv, excel, xml и т. д.
— Наверно, все это вопрос времени и популяризации, понимания открытых данных?
Думаю, да. Наиболее эффективный способ все наладить — создание подробных инструкций, налаживание механизмов по автоматическому выпуску данных, чтобы свести к минимуму человеческий фактор. Ведь если оператор обладает низкой квалификацией, низкой культурой работы с данными, он может сам вносить ошибки. Здесь может помочь автоматическое снятие данных в автоматическом режиме. Конечно, этот вопрос пугает многих, нужно думать об этичности снятия данных, многим вспомнится история про всевидящего Большого брата. Опасность такая есть, но пока до этого далеко...
— Персональные данные априори не могут быть открытыми...
У нас есть 152-й федеральный закон и много чего, говорящего нам, что в сферу персональных данных лучше не лезть. Но детальные данные — самая большая «вкусняшка». В лаборатории мы оперируем исключительно анонимизированными данными, из которых убраны идентификаторы пользователя (ФИО и другие опознавательные коды). Да в них и нет нужды: если мы хотим проанализировать общую тенденцию, идентификатор конкретного человека не нужен. Важен именно свершившийся факт, метка, по этим меткам мы получаем аналитическую картину.
— Кто заинтересован в дата-экспедициях, какова их аудитория?
Приходят те, у кого есть профессиональный интерес: студенты, журналисты, исследователи, госслужащие. Кто-то хочет повысить свою квалификацию, кто-то проводит исследования, но чувствует, что было бы полезно обрести новые навыки и умения...
— Результатом дата-экспедиции, насколько знаю, должен стать информационный продукт...
Дата-экспедиция — проектноориентированное мероприятие, предполагается, что по ее завершении вы получаете некий продукт на основе данных, data driven product. Это либо статья в стиле дата-журналистики, либо визуализации данных. Сейчас мы пробуем новый для нас вариант результата дата-экспедиции — написание научной статьи на основе данных. Это не моя идея, а коллег из Европейского университета. Эта мысль мне весьма понравилась и я теперь удивляюсь, почему сама не додумалась до этого раньше.
— А общественные проекты на основе открытых данных делаете?
Общественные проекты можно создавать в рамках хакатонов. Да и не так много хакатонных проектов живет: ведь их нужно поддерживать, обновлять данные. Надо понимать, что дата-экспедиция — образовательное мероприятие. При создании проекта целеполагание — сам проект, а целеполагание дата-экспедиции — обучение. Делать то, о чем вы говорите, интересно и правильно, но я пока не представляю, как это реализовать...
— Как анализировать и осмыслять данные?
Процесс анализа непростой, можно найти ложные зависимости между переменными. Есть критические статьи, где профессиональные дата-аналитики критикуют дилетантов, ведь если не знаком со статистикой и правилами обработки данных, можно сделать кучу ошибок. В прошлом году на конференции SECR-2016 мы разбирали вопрос критики в адрес непрофессионалов, анализирующих данные. Но с другой стороны, если мы ничего не делаем (и не совершаем ошибок), то мы и ничему не учимся. Дата-экспедиции — это образовательный проект. Можно сказать, что мы в рамках дата-экспедиций занимаемся даталикбезом.
— Станет ли дата-журналистика новой журналистикой, максимально приближенной к объективности?
Открытые данные и открытые источники повышают достоверность, доверие к историям и выводам. Это близко к понятию «научный метод». Когда мы ставим научный эксперимент, то должны подтвердить его правильность, поэтому даем полное описание того, что и как было сделано. Журналист тоже в своей статье дает ссылку на данные, рассказывает, как он их обработал, какие выводы сделал, и, таким образом, читатель статьи может повторить вслед за автором все итерации. Если аналитиком была сделана ошибка, ее можно выявить. Кстати, традиционная сноска во многих журналистских статьях «по данным Росстата» — пример псевдо-датажурналистики. Она просто намекает, откуда получены данные, но как мы это проверим? Читателю должны быть предоставлены возможности для перепроверки данных, лишь тогда это дата-журналистика. Когда журналист Саймон Роджерс публиковал статьи в стиле дата-журналистики в The Guardian, они публиковал и данные к ним. Хорошо бы и нам взять на вооружение эту практику.
Пойдут ли открытые данные на пользу отечественному образованию? Как продвигаются дела в области открытых данных в России? На Пятом ежегодном хакатоне Open&Big Data в
Историк науки, археолог, один из основателей Европейского университета в Санкт-Петербурге Лев Клейн опубликовал за свою научную карьеру более 600 работ. И сейчас, после выхода на пенсию, продолжает научную и писательскую деятельность, ведет авторскую колонку на сайте научного сообщества «Троицкий вариант», но с изданиями открытого доступа сотрудничать не спешит. В беседе с нами профессор Клейн поделился опасениями, связанными с этой моделью доступа к научной информации.
Тема больших данных в последнее время широко обсуждается как в прессе, так и на профессиональных мероприятиях. Многие отмечают: благодаря цифровым технологиям издательства впервые получают возможность взаимодействовать со своими читателями напрямую, изучать свою аудиторию и гибко менять свои издательские и маркетинговые стратегии.