В своей статье «Практическое курирование данных: извлечение табличных данных из PDF-файлов с использованием инструмента аналитики данных» (Data curation in practice: Extract tabular data from PDF files using a data analytics tool) Эллис Дж. Чой (Allis J. Choi) и Сунг Син (Xuying Xin), Университет штата Пенсильвания, рассказывают о репозитории университета, который носит название ScholarSphere, и практике курирования данных, принятой для хранящихся в нем файлов и массивов данных. В частности, они представляют Microsoft Power BI Desktop — инструмент извлечения табличных данных из PDF-файлов, которые составляют до 80% депонированных материалов университетского комплекса. Данный инструмент позволяет использовать дополнительные данные из PDF-файлов со встроенными таблицами, извлечь которые, как правило, не очень просто. В рамках настоящего исследования подвергнут анализу следующий набор данных: https://doi.org/10.7554/elife.44898.

Курирование данных — процесс управления данными, обеспечивающий их повторное использование и сохранение, а также соблюдение принципов FAIR (легкость обнаружения, доступность, функциональная совместимость, возможность повторного использования). Данный процесс является важной частью исследовательского цикла, поскольку созданные учеными массивы данных должны быть обнаруживаемыми и пригодными для повторного использования — часто это становится условием получения гранта. Кроме того, многими организациями принята политика открытого доступа. В реализации данных принципов ключевые роли играют репозиторий и курирование данных, в нем содержащихся.

  

УДК: 004.65+004.658

ГРНТИ: 50.41.21

DOI: 10.7191/jeslib.2021.1209

 

Источник:

https://escholarship.umassmed.edu/jeslib/vol10/iss3/10/