библиотеки в электронном веке
В материале «Why Big Data Matters: Perspectives from the Libraries», который опубликовала на своем сайте Международная Федерация библиотечных ассоциаций и учреждений, представлен опыт трех библиотек мира, где использование технологий работы с большими данными существенно упростило работу учреждений. Предлагаем ознакомиться с кейсами в русском переводе.
Работа с большими данными становится для научных библиотек важным направлением, которое способствует поддержке научных исследований, сохранению коллекций книг и формированию сервиса книжных рекомендаций для читателей.
Примеры таких кейсов описаны в материале «Why Big Data Matters: Perspectives from the Libraries», который опубликовала на своем сайте Международная Федерация библиотечных ассоциаций и учреждений. Предлагаем основные тезисы из этой статьи в русском переводе.
Группа по большим данным для библиотек
По информации международного поставщика рыночных и потребительских данных Statista, сегодня в цифровом мире создается, фиксируется, копируется и потребляется около 64,2 зеттабайт данных. Прогнозируется, что к 2025 году это число утроится.
Большие данные становятся основным компонентом предоставления услуг, поэтому важно понимать, что это такое и как с ними работать.
Для библиотек этот вопрос тоже актуален. Именно поэтому в секции информационных технологий Международной Федерации библиотечных ассоциаций и учреждений была создана специальная группа по большим данным — The Big Data Special Interest Group или SIG. Её задача — помочь библиотекам использовать потоки больших данных в качестве возможного источника информации. Также группа изучает, каким образом библиотеки могут выступать в качестве посредника между производителями и потребителями данных в сфере культурного наследия, исследовательской и научной работе.
В качестве примера в статье приведены три проекта, которые были представлены на Всемирном библиотечном и информационном конгрессе в Дублине летом 2022 г. Это проекты библиотек Техасского университета и библиотеки Конгресса США, а также Национального библиотечного совета Сингапура.
Экосистема данных для научных исследований
Проект Техасского университета по созданию экосистемы репозитория данных для исследований — это пример сетевой инфраструктуры, которая позволяет обмениваться исследовательскими данными для открытых научных исследований.
Созданная в библиотеке экосистема обеспечивает полный цикл академических исследований: от поиска данных и контента, сбора и анализа до написания и публикации в интернете.
Экосистема состоит из нескольких компонентов: онлайн-хранилищ данных исследований и цифровых коллекций, системы управления электронными диссертациями, системы управления идентификацией и программного обеспечения открытой системы академических журналов.
Большинство исследовательских наборов данных ограничено памятью в 1 Гб. Учитывая, что в будущем потребуется хранить еще большее количество информации, в университетской библиотеке начали изучать варианты хранилищ объемом до 300 Гб.
Оценка состояния коллекций
В Библиотеке Конгресса США подход, основанный на анализе данных, использовали для оценки состояния коллекций культурного наследия. Специалистам необходимо было проанализировать качество книг, чтобы принять обоснованное решение: какие экземпляры изымать из фондов, а какие оставить.
В ходе исследования были изучены физические, химические и визуальные характеристики более 500 книг, изданных в период с 1840 по 1940 год. Для этого использовали платформу для хранения данных о состоянии книг, которые оценивала специальная программа. В результате специалисты выяснили, что, зная свойства бумаги, на которой была напечатана книга, можно спрогнозировать, в каком состоянии она будет в будущем.
Этот проект может значительно расширить возможности библиотеки в принятии решений по хранению фондов.
Рекомендательные книжные сервисы
Еще одним примером того, как библиотеки могут развивать свои системы для работы с большими данными и использовать облачные технологии, является проект Национального библиотечного совета Сингапура. Им удалось внедрить систему рекомендаций для книжных коллекций, в том числе для электронных книг, с помощью облачной рекомендательной службы на основе машинного обучения. Ее используют на сайте и в мобильном приложении для составления персонализированных книжных рекомендаций.
В частности, команда проекта настроила передачу в службу рекомендаций данных о возрасте пользователя для того, чтобы читатель мог сразу получать подходящие ему по годам подборки книг. Персонализированные рекомендации помогли привлечь больше читателей к знакомству с новинками фонда.
Заключительные замечания
Автор статьи Патрик Шер, организатор SIG, отмечает важность того,
чтобы библиотеки играли активную роль в развитии экосистем данных для поддержки открытых научных исследований и развивали свои уже существующие библиотечные технологии для работы с большими данными, для сохранения книг и настроек их рекомендаций для читателей.