БиблиоГоризонт

В статье «Сбор публикаций в репозитории организации из баз данных Scopus, Web of Science, Dimensions и Unpaywall с использованием кастомизированного сценария языка программирования R» (Harvesting publication data to the institutional repository from Scopus, Web of Science, Dimensions and Unpaywall using a custom R Script) Юрьо Лаппалайнен (Yrjo Lappalainen) и Никеш Нарайанан (Nikesh Narayanan) рассказывают об опыте репозитория ZU Scholars Университета Зайда (Дубаи, ОАЭ). Институциональные репозитории повсеместно архивируют результаты научных изысканий, что позволяет ученым обнаруживать их с большой эффективностью. Однако несмотря на весь их потенциал, достаточно изученный и часто обеспеченный возможностями маршрутов золотого и зеленого открытого доступа, институциональные репозитории часто ограничены в росте и устойчивости рабочих потоков сбора контента. Организации пытаются разрабатывать самостоятельно, и часто довольно успешно, такие рабочие процессы, как институциональный мандат открытого доступа, самоархивирование работ в институциональной библиотеке, полностью автоматический или частично автоматизированный сбор контента и интеграция репозиториев и систем учета проводимых исследований.

Мандат открытого доступа — политика, принятая исследовательским учреждением, спонсором научных программ или правительством, которая требует или рекомендует исследователям публиковать и реферировать их статьи или доклады в режиме самоархивирования предварительных версий этих работ, прошедших экспертную оценку, в институциональном или отраслевом репозитории («зеленый открытый доступ») или в журнале открытого доступа («золотой открытый доступ») или одновременно в обоих.

В конце 2021 г. Университет Зайда запустил институциональный репозиторий ZU Scholars. С самого начала для пополнения репозитория данными о публикациях из баз данных Scopus, Web of Science, Dimensions и Unpaywall был внедрен полуавтоматический процесс управления потоком документов с использованием кастомизированных решений на языке программирования R. Полнотекстовые публикации по лицензиям Creative Commons добавляются в репозиторий автоматически. В представленной статье описан процесс сбора и конвертации данных, его нынешние ограничения и планы разработчиков на будущее. Авторы приходят к выводам о том, что внедрение автоматизированных рабочих потоков способствует увеличению количества записей в институциональных репозиториях и росту объема контента открытого доступа, выявлению и импорту в институциональный репозиторий полнотекстовых записей под лицензиями Creative Commons, а язык программирования R хорошо подходит для сбора и обработки данных о публикациях из различных источников. Также авторы рассматривают аналогичные проекты в контексте проблемы сбора данных для институциональных репозиториев.

УДК: 001.103.2:004.434R:378.4(536.2)+004.22.072.4.057.8(536.2)+004.738(536.2)

ГРНТИ: 13.31.19, 13.31.33

DOI: 10.1016/j.acalib.2022.102653

Источник:

https://www.sciencedirect.com/science/article/pii/S0099133322001690