Образование, книги, периодика и
библиотеки в электронном веке

Почему большие данные важны: перспективы библиотек

В материале «Why Big Data Matters: Perspectives from the Libraries», который опубликовала на своем сайте Международная Федерация библиотечных ассоциаций и учреждений, представлен опыт трех библиотек мира, где использование технологий работы с большими данными существенно упростило работу учреждений. Предлагаем ознакомиться с кейсами в русском переводе.

Работа с большими данными становится для научных библиотек важным направлением, которое способствует поддержке научных исследований, сохранению коллекций книг и формированию сервиса книжных рекомендаций для читателей. 

Примеры таких кейсов описаны в материале «Why Big Data Matters: Perspectives from the Libraries», который опубликовала на своем сайте Международная Федерация библиотечных ассоциаций и учреждений. Предлагаем основные тезисы из этой статьи в русском переводе.

Группа по большим данным для библиотек

По информации международного поставщика рыночных и потребительских данных Statista, сегодня в цифровом мире создается, фиксируется, копируется и потребляется около 64,2 зеттабайт данных. Прогнозируется, что к 2025 году это число утроится.

Большие данные становятся основным компонентом предоставления услуг, поэтому важно понимать, что это такое и как с ними работать.

Для библиотек этот вопрос тоже актуален. Именно поэтому в секции информационных технологий Международной Федерации библиотечных ассоциаций и учреждений была создана специальная группа по большим данным — The Big Data Special Interest Group или SIG. Её задача — помочь библиотекам использовать потоки больших данных в качестве возможного источника информации. Также группа изучает, каким образом библиотеки могут выступать в качестве посредника между производителями и потребителями данных в сфере культурного наследия, исследовательской и научной работе.

В качестве примера в статье приведены три проекта, которые были представлены на Всемирном библиотечном и информационном конгрессе в Дублине летом 2022 г. Это проекты библиотек Техасского университета и библиотеки Конгресса США, а также Национального библиотечного совета Сингапура.

Экосистема данных для научных исследований

Проект Техасского университета по созданию экосистемы репозитория данных для исследований — это пример сетевой инфраструктуры, которая позволяет обмениваться исследовательскими данными для открытых научных исследований. 

Созданная в библиотеке экосистема обеспечивает полный цикл академических исследований: от поиска данных и контента, сбора и анализа до написания и публикации в интернете. 

Экосистема состоит из нескольких компонентов: онлайн-хранилищ данных исследований и цифровых коллекций, системы управления электронными диссертациями, системы управления идентификацией и программного обеспечения открытой системы академических журналов.

Большинство исследовательских наборов данных ограничено памятью в 1 Гб. Учитывая, что в будущем потребуется хранить еще большее количество информации, в университетской библиотеке начали изучать варианты хранилищ объемом до 300 Гб.

Оценка состояния коллекций

В Библиотеке Конгресса США подход, основанный на анализе данных, использовали для оценки состояния коллекций культурного наследия. Специалистам необходимо было проанализировать качество книг, чтобы принять обоснованное решение: какие экземпляры изымать из фондов, а какие оставить.

В ходе исследования были изучены физические, химические и визуальные характеристики более 500 книг, изданных в период с 1840 по 1940 год. Для этого использовали платформу для хранения данных о состоянии книг, которые оценивала специальная программа. В результате специалисты выяснили, что, зная свойства бумаги, на которой была напечатана книга, можно спрогнозировать, в каком состоянии она будет в будущем.

Этот проект может значительно расширить возможности библиотеки в принятии решений по хранению фондов.

Рекомендательные книжные сервисы

Еще одним примером того, как библиотеки могут развивать свои системы для работы с большими данными и использовать облачные технологии, является проект Национального библиотечного совета Сингапура. Им удалось внедрить систему рекомендаций для книжных коллекций, в том числе для электронных книг, с помощью облачной рекомендательной службы на основе машинного обучения. Ее используют на сайте и в мобильном приложении для составления персонализированных книжных рекомендаций.

В частности, команда проекта настроила передачу в службу рекомендаций данных о возрасте пользователя для того, чтобы читатель мог сразу получать подходящие ему по годам подборки книг. Персонализированные рекомендации помогли привлечь больше читателей к знакомству с новинками фонда. 

Заключительные замечания

Автор статьи Патрик Шер, организатор SIG, отмечает важность того, 

чтобы библиотеки играли активную роль в развитии экосистем данных для поддержки открытых научных исследований и развивали свои уже существующие библиотечные технологии для работы с большими данными, для сохранения книг и настроек их рекомендаций для читателей.

 

Источник: IFLA, Международная Федерация библиотечных ассоциаций и учреждений