Образование, книги, периодика и
библиотеки в электронном веке

Машинное обучение внедряют в американских библиотеках, но почти не используют в российских. «Либинформ» выяснял, с чем это может быть связано

Нейросети, искусственный интеллект и машинное обучение, по мнению американских исследователей, в ближайшем будущем будут массово использоваться в библиотечной отрасли. Крупнейшие американские и европейские библиотеки в настоящее время активно изучают возможности новых технологий, но о российском опыте известно мало. Корреспондент «Либинформа» Трухан Мордвинов изучил доклады об экспансии машинного обучения в западных библиотеках и узнал, что агентами AI-революции в России стали электронно-библиотечные системы.

 

Машинное обучение в американских библиотеках: движение по пути смелых экспериментов

Внедрение продуктов на основе искусственного интеллекта (Artificial intelligence, AI) и машинного обучения (Machine Learning, ML) в североамериканских библиотечных центрах обсуждается на отраслевых конференциях и в публичных докладах. «Несмотря на то, что эти технологии активно используют пока только крупнейшие библиотеки и ведущие вузы, в деле включения библиотек в процесс разработки ML-алгоритмов заметен прогресс», — пишет составитель прошлогоднего доклада о состоянии отрасли Райан Корделл, профессор Северо-восточного университета (США). Эксперты, опрошенные Корделлом, разделяют мнение, что технологии автоматизации на базе ML в конечном итоге облегчают доступ пользователей к информации. 

Пилотной площадкой для внедрения таких технологий стала Библиотека Конгресса, где сценарии компьютерной автоматизации разрабатываются в «Лаборатории» (LC Labs). «Важность таких разработок, с одной стороны, заложена в стратегии развития этой библиотеки  — публичного хаба для доступа к профессиональной информации, с другой стороны  —  обусловлена постоянно растущим объемом оцифрованных и электронных изданий», — подчеркнул в своем отчете Корделл.

Прикладные алгоритмы автоматизируют многие рутинные процессы в библиотеке, и автор доклада предполагает, что этот опыт неизбежно станет всеобщим. Упрощается точная оцифровка изданий (OCR), заполнение каталогов, полуавтоматическое извлечение и обновление метаданных электронных документов, а также составление баз данных и баз знаний, текстовых и мультимедийных. 

ИИ успешно решаются некоторые нетривиальные задачи, такие как кластерный анализ больших данных, в контексте библиотек — текстовых массивов информации. При этом сам принцип работы в этом случае достаточно прозаичный: алгоритмы находят искомые объекты и последовательности в заданном корпусе текстов и оформляют их в стандартизированный набор данных; на ручную обработку некоторых массивов ушли бы годы, было отмечено в докладе. 

«Передовой опыт обработки значительных текстовых массивов с помощью машинного обучения, — пишет Корделл, — есть у электронной библиотеки Hathi Trust: алгоритмы постоянно анализируют не только метаданные, но и содержание представленных там текстов, а также определяют различные их свойства, например различают художественные и публицистические произведения, новостные заметки, анализируют стиль письма и словарный запас каждого автора». Библиотеки вузов также включились в исследование ML:  в 2019 году Университет Юты с помощью машинного обучения сгенерировал метаданные для своих цифровых коллекций.

Интересные результаты дает использование алгоритмов при анализе изображений. Например, в 2018 году Университет технологий Вирджинии запустил мемориальный проект Civil War Photo Sleuth. Его пользователи могут бесплатно загрузить на сайт фотографии своих предков, которые участвовали в гражданской войне в США, а алгоритмы помогут идентифицировать наградные знаки на загруженных снимках и, в целом, сверить сведения из семейных архивов с точными данными исторической базы данных. 

В 2019 году доктор философии и инноватор Бенджамин Ли запустил еще один интересный проект  — экспериментальное веб-приложение Newspaper Navigator. Оно открывает доступ к массиву фотографий из архива американской прессы (в него включены газеты, выходившие с 1900 по 1963 гг.). Данные для приложения собрала нейросеть, она проанализировала доступные ей архивы, нашла иллюстрации и отметила распознанные на них объекты тегами, а результаты своей работы выгрузила в датасет (скачиваемый набор данных). Проект, построенный по канонам открытого доступа, по замыслу автора призван помочь историкам, социологам и антропологам в их будущих исследованиях.

Также известны примеры библиотечного ML, пригодные для манипуляций с мультимедиа. Широкую известность получил алгоритм Брайана Фу, разработанный в стенах Библиотеки Конгресса. Он находит в архивах мультимедиа музыкальные фрагменты. Машинное обучение позволило авторам другого амбициозного проекта Dig That Lick создать базу данных джазовых паттернов и поисковую систему, которую наверняка оценят и российские исследователи музыки прошлого столетия.

Эпоха новой цифровой этики в контексте развития библиотек

«Диджитализация библиотечного дела ставит перед профессиональным сообществом и новые вопросы», — пишет Райан Корделл. В частности, это вопросы ответственного отношения к информации и этичного использования технологий, которые с одинаковой легкостью помогают реализовать выдающиеся междисциплинарные научные проекты, но также могут генерировать (например, в составе нейросетей) выдуманные новости (fakenews) и/или создавать поддельные личности в социальных сетях. 

Потенциальная опасность заложена в самой архитектуре алгоритмов искусственного интеллекта и машинного обучения, каждый из которых, по словам исследовательницы Кэтрин О’Нил, представляет собой мнение, описанное на языке математики, что не исключает возможность для манипуляций, пишет она, впрочем, не объясняя, о каких конкретно манипуляциях может идти речь. «ИИ может персонализировать, генерировать и фильтровать контент, — написала в своей недавней статье специалист по компьютерной безопасности, профессор университета Мохаммеда V Фатима Румате. — Речь идет о ненадежной информации, публикуемой в СМИ и поддерживаемой ИИ» — уточнила она.

Похожие опасения в отчете о библиотечных технологиях за 2019 год высказывал Джейсон Гриффи: «Без осторожности они могут проявить алгоритмическую предвзятость, подорвать конфиденциальность и интеллектуальную свободу и потенциально усилить фильтрацию информации» — резюмируют выводы ученого Елена Другова и Ирина Журавлева в статье для «Университетской книги».

Вопросы этики, в свою очередь, по-новому определяют роль библиотечного IT-специалиста как исследователя, медиатора, переводчика и редактора, парирует Райан Корделл. Такой специалист, во-первых, должен ответственно использовать технологии, а во-вторых, он призван контролировать результаты работы алгоритмов: исправлять допущенные ими ошибки. Библиотечный редактор также предотвратит случайное удаление общественно важной информации из цифровых архивов. 

Все описанные выше трансформации предъявляют принципиально новые требования к квалификации сотрудников библиотек, но не умаляют их роли. К тому же, даже самые совершенные алгоритмы, при всех их достоинствах, все еще не могут справиться с некоторыми простейшими интеллектуальными операциями: например, безошибочно ранжировать некоторое множество документов по их важности в контексте той или иной задачи.

Решить проблемы классификации и концептуализации коллекций электронных документов американская библиотечная отрасль планирует в партнерстве с вузами и с помощью краудсорсинга. Предполагается, что волонтеры из университетов, студенты и исследовательские группы из библиотек будут вносить правки в создаваемые датасеты, что сделает цифровые коллекции более удобными для исследований будущего.

Кроме того, архитектура автоматизированных технологий не лишена, по мнению Корделла и других ученых, своих достоинств, которые в ближайшем будущем сильно изменят не только структуру, но и сам состав архивных библиотечных коллекций. 

В первую очередь речь идет об отсутствии у алгоритмов субъективного отношения к тем или иным объектам из библиотечных коллекций. Анализируя фонды [Библиотеки Конгресса  — прим. ред.], исследователи библиотечного ML выяснили, что на протяжении долгих лет из газетных и книжных коллекций исключались издания этнических сообществ, некоторых уязвимых социальных групп. С приходом цифровой эпохи в середине 2000-х ситуация повторилась: оцифровывались издания доминировавшей группы белых американцев со  средним достатком. Усиленная непредвзятыми алгоритмами система менеджмента электронных документов, позволит в будущем сформировать в библиотеках наиболее полные архивы изданий, отмечается в американском публичном отчете.

Российский контекст: искусственный интеллект в электронных библиотеках

Несмотря на очевидную экспансию новых технологий на Западе, об отечественных библиотечных разработках из этой области известно мало. Российское государство только планирует создание условий для отечественных разработок, следует из текста президентского указа № 490 «О развитии искусственного интеллекта в Российской Федерации»: программное обеспечение, в котором используются технологии искусственного интеллекта, для решения задач в различных сферах деятельности, должно быть разработано к 2030 году.

На недавней отраслевой конференции «Фонды библиотек в цифровую эпоху», посвященной технологиям, внедрение искусственного интеллекта в библиотечных центрах почти не обсуждалось. Вместо этого, следует из программы конференции, профессиональное сообщество интересовали, например, новые государственные стандарты (ГОСТ) и изменения в законодательстве о госзакупках.

«Инновации в библиотечную отрасль приходят в основном из коммерческого сектора, а эксперименты с ИИ проводят платформы электронно-библиотечных систем и в меньшей степени — издатели»,  — рассказал «Либинформу» директор ЭБС Лань Александр Никифоров. Ранее, в марте 2021 года, на конференции  Forum.DigitalEducation 2021 он заявил о планах компании по использованию ИИ и машинного обучения: «Цифровизация, применение искусственного интеллекта и нейронных сетей, создание персонализированных рекомендательных сервисов и движение в сторону разработки и обеспечения индивидуальных траекторий обучения — вот перспективы электронных библиотек завтрашнего дня». 

Никифоров подтвердил журналисту «Либинформа», что электронно-библиотечная система Лань уже адаптировала некоторые технологии на базе ИИ на своей платформе. «Сейчас обкатываем прототип сервиса каталогизации, — заявил он, — для этого мы провели анализ документов из электронной библиотеки с помощью алгоритмов машинного обучения».