Journal of eScience Librarianship

 

В третьем выпуске журнала под рубрикой «Практические вопросы курирования данных» опубликована статья «Актуальные задачи развития практики и инфраструктуры курирования в Университете Иллинойса в Урбана-Шампейне» (Responding to Reality: Evolving Curation Practices and Infrastructure at the University of Illinois at Urbana-Champaign). Авторы – сотрудники университета Хо Луонг (Ho Q. Luong), Коллин Фаллоу (Colleen Fallaw), Женевьев Шмитт (Genevieve Schmitt), Сюзан Бракстон (Susan M. Braxton) и Хейди Имкер (Heidi Imker).

Банк данных Иллинойса представляет собой структуру, позволяющую размещать научные данные для публичного использования. Описана политика депонирования результатов научной деятельности в Банке данных. В течение пяти лет в Университете Иллинойса в Урбана-Шампейне проводился анализ работы службы научных данных. По итогам анализа данная служба признана самым полезным сервисом учреждения. Внутренние метрики применяются для мониторинга роста, документальных потоков в рамках курирования, и отслеживания актуальных задач, возникающих в процессе обслуживания научных работников. В статье представлены примеры таких задач и их решения.

Некоторые из метрик Банка данных Иллинойса собираются в рамках самой системы, однако их большинство отслеживается автономно с использованием табличного процессора Google Spreadsheet. По окончании формирования каждого массива данных информация анализируется. Несмотря на то, что данные иногда являются достаточно неоднозначными (например, зависят от того, насколько ученый следует предлагаемому сценарию), данные курирования дают общее представление о репозитории, помогают дать оценку рабочим процессам и сервисам. Метрики помогают также определить приоритетность задач развития Банка данных. Процессы курирования помогают оптимизировать и совершенствовать массивы, что положительно сказывается на возможности многократного использования научных данных. Дальнейшее развитие технической инфраструктуры – также в интересах как кураторов, так и пользователей. Эти процессы объединяют усилия авторов и кураторов в деле совершенствования баз данных и облегчают передачу больших файлов.

  

УДК: 004.65+004.658

ГРНТИ: 50.41.21

DOI: 10.7191/jeslib.2021.1202

 

Источник:

https://escholarship.umassmed.edu/jeslib/vol10/iss3/3

В своей статье «Практическое курирование данных: извлечение табличных данных из PDF-файлов с использованием инструмента аналитики данных» (Data curation in practice: Extract tabular data from PDF files using a data analytics tool) Эллис Дж. Чой (Allis J. Choi) и Сунг Син (Xuying Xin), Университет штата Пенсильвания, рассказывают о репозитории университета, который носит название ScholarSphere, и практике курирования данных, принятой для хранящихся в нем файлов и массивов данных. В частности, они представляют Microsoft Power BI Desktop — инструмент извлечения табличных данных из PDF-файлов, которые составляют до 80% депонированных материалов университетского комплекса. Данный инструмент позволяет использовать дополнительные данные из PDF-файлов со встроенными таблицами, извлечь которые, как правило, не очень просто. В рамках настоящего исследования подвергнут анализу следующий набор данных: https://doi.org/10.7554/elife.44898.

Курирование данных — процесс управления данными, обеспечивающий их повторное использование и сохранение, а также соблюдение принципов FAIR (легкость обнаружения, доступность, функциональная совместимость, возможность повторного использования). Данный процесс является важной частью исследовательского цикла, поскольку созданные учеными массивы данных должны быть обнаруживаемыми и пригодными для повторного использования — часто это становится условием получения гранта. Кроме того, многими организациями принята политика открытого доступа. В реализации данных принципов ключевые роли играют репозиторий и курирование данных, в нем содержащихся.

  

УДК: 004.65+004.658

ГРНТИ: 50.41.21

DOI: 10.7191/jeslib.2021.1209

 

Источник:

https://escholarship.umassmed.edu/jeslib/vol10/iss3/10/