В третьем выпуске журнала под рубрикой «Практические вопросы курирования данных» опубликована статья «Актуальные задачи развития практики и инфраструктуры курирования в Университете Иллинойса в Урбана-Шампейне» (Responding to Reality: Evolving Curation Practices and Infrastructure at the University of Illinois at Urbana-Champaign). Авторы – сотрудники университета Хо Луонг (Ho Q. Luong), Коллин Фаллоу (Colleen Fallaw), Женевьев Шмитт (Genevieve Schmitt), Сюзан Бракстон (Susan M. Braxton) и Хейди Имкер (Heidi Imker).

Банк данных Иллинойса представляет собой структуру, позволяющую размещать научные данные для публичного использования. Описана политика депонирования результатов научной деятельности в Банке данных. В течение пяти лет в Университете Иллинойса в Урбана-Шампейне проводился анализ работы службы научных данных. По итогам анализа данная служба признана самым полезным сервисом учреждения. Внутренние метрики применяются для мониторинга роста, документальных потоков в рамках курирования, и отслеживания актуальных задач, возникающих в процессе обслуживания научных работников. В статье представлены примеры таких задач и их решения.

Некоторые из метрик Банка данных Иллинойса собираются в рамках самой системы, однако их большинство отслеживается автономно с использованием табличного процессора Google Spreadsheet. По окончании формирования каждого массива данных информация анализируется. Несмотря на то, что данные иногда являются достаточно неоднозначными (например, зависят от того, насколько ученый следует предлагаемому сценарию), данные курирования дают общее представление о репозитории, помогают дать оценку рабочим процессам и сервисам. Метрики помогают также определить приоритетность задач развития Банка данных. Процессы курирования помогают оптимизировать и совершенствовать массивы, что положительно сказывается на возможности многократного использования научных данных. Дальнейшее развитие технической инфраструктуры – также в интересах как кураторов, так и пользователей. Эти процессы объединяют усилия авторов и кураторов в деле совершенствования баз данных и облегчают передачу больших файлов.

  

УДК: 004.65+004.658

ГРНТИ: 50.41.21

DOI: 10.7191/jeslib.2021.1202

 

Источник:

https://escholarship.umassmed.edu/jeslib/vol10/iss3/3

В своей статье «Практическое курирование данных: извлечение табличных данных из PDF-файлов с использованием инструмента аналитики данных» (Data curation in practice: Extract tabular data from PDF files using a data analytics tool) Эллис Дж. Чой (Allis J. Choi) и Сунг Син (Xuying Xin), Университет штата Пенсильвания, рассказывают о репозитории университета, который носит название ScholarSphere, и практике курирования данных, принятой для хранящихся в нем файлов и массивов данных. В частности, они представляют Microsoft Power BI Desktop — инструмент извлечения табличных данных из PDF-файлов, которые составляют до 80% депонированных материалов университетского комплекса. Данный инструмент позволяет использовать дополнительные данные из PDF-файлов со встроенными таблицами, извлечь которые, как правило, не очень просто. В рамках настоящего исследования подвергнут анализу следующий набор данных: https://doi.org/10.7554/elife.44898.

Курирование данных — процесс управления данными, обеспечивающий их повторное использование и сохранение, а также соблюдение принципов FAIR (легкость обнаружения, доступность, функциональная совместимость, возможность повторного использования). Данный процесс является важной частью исследовательского цикла, поскольку созданные учеными массивы данных должны быть обнаруживаемыми и пригодными для повторного использования — часто это становится условием получения гранта. Кроме того, многими организациями принята политика открытого доступа. В реализации данных принципов ключевые роли играют репозиторий и курирование данных, в нем содержащихся.

  

УДК: 004.65+004.658

ГРНТИ: 50.41.21

DOI: 10.7191/jeslib.2021.1209

 

Источник:

https://escholarship.umassmed.edu/jeslib/vol10/iss3/10/

Статья Сары Маннхеймер (Sara Mannheimer) «Повторное использование качественных данных и крупные социальные исследования с точки зрения курирования данных» (Data Curation Implications of Qualitative Data Reuse and Big Social Research) основана на презентации «Поддержка ответственных исследований с получением Больших данных общественного характера: объединение практикующих сообществ» (Supporting Responsible Research with Big Social Data by Connecting Communities of Practice), состоявшейся в рамках Саммита RDAP (Registration Data Access Protocol) 2021 г. Материалы доступны в интернете: https://osf.io/e4u7v.

Большие данные общественного характера (например, данные социальных сетей и блогов) и архивированные качественные данные (например, транскрипты интервью, полевые журналы, дневники) обладают сходством, между тем сообщества, которые являются источником этих данных, не идентичны и практически не пересекаются. В данной статье рассматриваются общие задачи повторного использования качественных данных и Больших данных общественного характера в сфере курирования данных. Автор провела анализ литературы и применила индуктивное кодирование в отношении 300 статей, посвященных вопросу о повторном использовании качественных данных и крупным социологическим исследованиям. В представленной литературе выявлено шесть основных проблем, связанных с использованием и повторным использованием данных, присутствующих в качественных данных и крупных социологических исследованиях – это контекст, качество данных, сопоставимость данных, информированное согласие, право на частную жизнь и конфиденциальность, интеллектуальная собственность и право собственности на данные.

Автор настаивает на том, что специалисты, занятые курированием данных, должны понимать сущность этих проблем, вырабатывать стратегию и соответственно решать задачи их курирования через документирование, комбинирование массивов данных и их объединение через ссылки; поддержку надежных репозиториев; использование и продвижение стандартов для метаданных; обсуждение с исследователями и экспертами организаций альтернативных стратегий для контента; обеспечение деидентификации; обеспечение ограниченного доступа к данным; разработку договоров об использовании данных; управление правами и лицензирование данных; разработку и реализацию альтернативных стратегий архивирования. Решение этих задач по курированию данных обеспечит эффективную практику использования качественных данных и данных крупных социологических исследований.

Registration Data Access Protocol (RDAP) — протокол доступа к регистрационным данным, стандартизирован рабочей группой Инженерного совета Интернета в 2015 г. после изучения экспериментальных разработок и подробнейших обсуждений. RDAP является протоколом-преемником протокола WHOIS и используется для поиска релевантных регистрационных данных на таких ресурсах Интернет, как имена доменов, IP-адреса и номера автономных систем.

  

УДК: 004.65:303.425

ГРНТИ: 20.01; 04.15; 20.23.17, 20.23.21, 20.23.25

DOI: 10.7191/jeslib.2021.1218

 

Источник:

https://escholarship.umassmed.edu/jeslib/vol10/iss4/5/

Цифровой контент и цифровые технологии ставят перед информационными учреждениями серьезную задачу, связанную с отбором, обеспечением сохранности и доступа к информационным ресурсам. Ее решение требует от сотрудников библиотек новых профессиональных навыков и скоординированной совместной работы. Поэтому существует острая необходимость повышения осведомленности о новых тенденциях партнерского сотрудничества между научно-исследовательскими сообществами и университетскими библиотеками.

Сотрудники Университета Иордании Манал Ахмад Авамлех (Manal Ahmad Awamleh) и Фатен Хамад (Faten Hamad) в июне-июле 2021 г. провели опрос среди работников библиотек десяти государственных университетов Иордании (150 респондентов). Целью этого исследования было изучение: (1) степени осведомленности о цифровой сохранности, (2) восприятия сотрудниками важности цифровой сохранности, (3) политики цифровой сохранности, которой придерживаются в университетских библиотеках Иордании, (4) требований к цифровой сохранности и, наконец, (5) трудностей и проблем при обеспечении цифровой сохранности. Анализ результатов опроса приводится в статье «Цифровая сохранность информационных ресурсов в университетских библиотеках Иордании с точки зрения библиотекаря» (Digital preservation of information sources at academic libraries in Jordan: an employee’s perspective). Авторы отмечают, что все респонденты признали преимущества цифровой сохранности и ее значение для обеспечения длительного и надежного доступа к информации для пользователей библиотеки. Поэтому крайне важно повысить осведомленность библиотечного персонала о тенденциях и достижениях в области цифрового хранения, а также необходима четкая политика обучения сотрудников методам обеспечения сохранения и передовой практике в этой области. Библиотекам нужно выделять больше средств из своего бюджета на сохранение цифрового контента, и особенно на необходимое оборудование и аренду облачного хранилища для цифровых ресурсов. И наконец, важно наладить сотрудничество с другими библиотеками и научно-исследовательскими центрами для создания институциональных хранилищ на национальном уровне.

  

УДК: 004.658:027+004:02

ГРНТИ: 20.15.31; 13.31; 20.23; 81.93.29

DOI: 10.1108/LM-10-2021-0088

 

Источник:

https://www.emerald.com/insight/content/doi/10.1108/LM-10-2021-0088/full/html

В том же выпуске журнала опубликована статья «Должностные обязанности специалиста по данным в библиотеке и его взгляд на управление научно-исследовательскими данными» (Data Services Librarians’ Responsibilities and Perspectives on Research Data Management). Авторы — Брэдли Уэйд Бишоп (Bradley Wade Bishop), Эшли Орехек (Ashley M. Orehek), Кристофер Икер (Christopher Eaker), Плато Смит (Plato L. Smith). Данное исследование является частью серии работ, посвященных роли библиотекарей и перспективам развития сервисов управления научно-исследовательскими данными в высшем образовании. На основе анализа опыта специалистов определяются функции, которые выполняет библиотекарь в рамках реализации данного сервиса, а также возможности их совершенствования для удовлетворения потребностей академического сообщества. На базе предшествующих исследований авторы определяют контекст, в котором реализуются данные сервисы, а также очерчивают круг данных, которые понадобились им для качественного исследования должностных обязанностей специалистов и задач, которые они решают. Специалисты, принявшие участие в опросе, представляли 10 государственных и 10 частных университетов, вошедших в рейтинг лучших университетов США 2020 г. Им было задано 30 вопросов об их должностных обязанностях и перспективах управления научно-исследовательскими данными. Интервью были записаны и расшифрованы. Стенограммы подверглись анализу в NVivo с использованием методов обоснованной теории: открытого, осевого и избирательного кодирования. На основании ответов респондентов и синонимичных значений была проведена классификация и определены основные направления работы и развития данных сервисов. Построена матрица должностных обязанностей библиотечных специалистов по данным, на основании которой могут строиться дальнейшие исследования и учебные курсы, происходить специализация в профессиональной сфере. Эти обязанности включают в себя: поиск вторичных данных, анализ планов по управлению данными, осуществление информирования, обучение управлению научно-исследовательскими данными. В некоторых случаях к этим обязанностям относится также курирование данных и управление репозиторием организации. Результаты исследования могут оказаться полезными для подготовки библиотечных кадров, при приеме специалистов на работу, при решении задач управления научно-исследовательскими данными.

  

УДК: 023.5:027.7; 004.65:027.7

ГРНТИ: 20.15.31; 13.31; 14.35; 12.41.55

DOI: 10.7191/jeslib.2022.1226

 

Источник:

https://escholarship.umassmed.edu/jeslib/vol11/iss1/4/

В майском выпуске журнала опубликована статья Анжелы Мурилло (Angela P. Murillo) из Школы информатики и компьютерных наук Университета Индианы-Университета Пердью в Индианаполисе (шт. Индиана, США) «Данные имеют значение: как ученые в сфере наук о земле и экологии определяют релевантность данных и возможность их повторного использования» (Data matters: how earth and environmental scientists determine data relevance and reusability).

В задачи данного исследования входило изучение информационных потребностей ученых в сфере наук о земле и экологии и характеристик, по которым ученые определяют релевантность данных и возможность их повторного использования. Полученные данные позволяют предложить стратегии развития фондов и рекомендации по управлению данными и их курированию информационными специалистами, работающими бок о бок с учеными. Исследование проводилось в несколько этапов с применением смешанного метода анализа. В качестве экспериментальной среды был выбран репозиторий данных DataONE. Респонденты, специалисты по геологическим наукам, наукам об окружающей среде, экологии и биологии, были набраны через Университет Северной Каролины, Университет штата Северная Каролина, Комитет по данным для науки и техники (CODATA), информационную рассылку репозитория DataONE; также в список вошли участники Ежегодной конференции Геологического общества Америки. На первом этапе был проведен качественный и количественный анализ контента депонированных данных. Второй этап, главным образом описанный в статье, представлял собой квазиэксперимент по методике «мышление вслух». Ученые описали поиск данных в репозиториях как трудоемкий процесс, поскольку записи данных в некоторых из них содержат недостаточно информации. Информационные потребности ученых выявлены в отношении исследовательских методов, инструментов и описаний данных, а также реструктуризации рефератов. Кроме того, обнаружено, что ученые заинтересованы в реорганизации представления записи и информации о цитировании. Несмотря на то, что исследование ограничено сферой наук о земле и экологии, его результаты могут быть перенесены и в другие сферы, поскольку экологические науки и науки о земле являются мультидисциплинарной областью и включают в себя биологию, экологию и геологию. Результаты исследования имеют непосредственное практическое значение для библиотекарей-специалистов по данным и по управлению репозиториями, для кураторов данных, информационных специалистов, а также ученых, использующих эти данные. Реализация рекомендаций позволит увеличить эффективность консультационной деятельности библиотек при работе с учеными-исследователями в отношении организации хранения и создания данных, скорректировать политику развития репозиториев, определить, какая информация имеет первостепенное, а какая — второстепенное значение для возможности повторного использования данных. Поскольку затронута сфера экологии, данное исследование имеет и серьезное общественное значение. Уникальность и ценность данного исследования проблемы совместного и повторного использования данных состоит в уточнении и дальнейшей детализации данных по данной проблематике. В отличие от многих других работ, акцент сделан не на социальных мотиваторах и демотиваторах, а на информации, представленной в описании данных.

  

УДК: 001.103+004.65

ГРНТИ: 20.15.17, 20.17, 20.23.17

DOI: 10.1108/CC-11-2018-0023

 

Источник:

https://www.emerald.com/insight/content/doi/10.1108/CC-11-2018-0023/full/html

В своей статье «Оценка временных затрат на курирование данных» (Measuring the time spent on data curation) исследователи Аня Перри (Anja Perry) и Себастиан Нетчер (Sebastian Netscher) пишут о том, что финансирование процессов курирования данных в научно-исследовательских проектах должно основываться на информации о временных затратах на данный процесс, в частности, на фильтрацию и документирование количественных данных, предназначенных для совместного доступа. Авторами разработаны рекомендации по выбору стоимостных показателей в управлении научно-исследовательскими данными. Они использовали материалы пилотного исследования, проведенного Архивом данных по социальным наукам GESIS (Германия) в период декабрь 2016 г. – сентябрь 2017 г. На протяжении этого времени кураторы данных Института социальных наук им. Лейбница ежедневно документировали свою деятельность, связанную с фильтрацией и документированием данных по десяти количественным обзорным исследованиям. На этом основании выявлены влияющие на стоимость факторы, которые способны также увеличить или сократить временные затраты на названные выше операции. Обнаружено, что на них влияют главным образом два фактора: объем данных и информация персонального характера, содержащаяся в них. Фактором, влияющим на временные затраты, является также неоднородность данных и самообучение кураторов в случае обработки аналогичных наборов данных или повторения процедур. Оригинальность и ценность данного исследования состоит в том, что в рамках процесса курирования данных были выделены различные операции и задачи, что может служить моделью для планирования процесса кураторства данных в исследовательских проектах; определено время, затраченное на обработку уникальных данных по социальным наукам, найдена взаимозависимость между временными затратами на отдельных этапах курирования, а также между временем и качеством обработки и сложностью данных.

  

УДК: 004.65 + 001.891

ГРНТИ: 20.21

DOI: 10.1108/JD-08-2021-0167

 

Источник:

https://www.emerald.com/insight/content/doi/10.1108/JD-08-2021-0167/full/html

Статья Клауса Кемпфа (Klaus Kempf) «Движение библиотек к цифровой трансформации» (Moving libraries toward digital transformation), посвященная цифровизации библиотек, структурно поделена на две части: в первой рассматривается феномен гибридной библиотеки, во второй — идея библиотеки будущего. Автором выполнен обширный обзор литературы, преимущественно германоязычной, на основе чего он анализирует процесс цифровой трансформации библиотек, от инновационных изменений концепции гибридной библиотеки до превращения ее в библиотеку будущего, которое он представляет как эволюционный процесс, охватывающий современные тенденции в развитии распределенных фондов и курирования данных. В связи с этим роль библиотекаря будущего, по мнению автора, будет «встроена» в рабочий поток пользовательской исследовательской работы и предполагает пребывание в постоянном диалоге с пользователями.

  

УДК: 004:02

ГРНТИ: 13.31.19

DOI: 10.1080/10572317.2023.2231715

 

Источник:

https://www.tandfonline.com/doi/full/10.1080/10572317.2023.2231715

Интересная идея высказана в статье «Концепция медленного курирования» (Conceptualizing Slow Curation) Джоанны Тилен (Joanna Thielen), Ванды Марсолек (Wanda Marsolek) и Микалы Нарлок (Mikala Narlock). Кураторы данных, как и многие другие специалисты библиотек, находятся под постоянным давлением — от них требуется действовать быстро и еще быстрее. Однако авторы призывают специалистов присмотреться к достоинствам «медленного движения» в его многочисленных поджанрах (например, так называемая «медленная кулинария» или идея «медленной жизни»). «Медленное движение» распространилось на различные сферы жизни: на моду, искусство, некоторые технологические секторы; помимо прочего, оно означает критическое рефлексивное отношение к жизни и работе. «Медленное движение» вдохновило и профессионалов, работающих в институтах по сохранению культурного наследия — «медленное библиотечное дело», «медленное музейное или архивное дело». Идея «медленного курирования», утверждают авторы, особенно применима к курированию научных данных. Авторы выявили те моменты профессиональной деятельности, где принцип медленного действия может быть внедрен в модель сети курирования данных CURATE(D). Они рассматривают «медленное курирование» как возможность реализовать профессиональные функциональные обязанности без спешки, возможность вдумчиво читать документацию, размышлять над метаданными, отбирать файлы, выявлять слабые места, искать решения и документировать операции.

Они также указали, что и за пределами функциональной деятельности, у специалистов есть возможность замедлить темпы и при этом повысить эффективность своей работы. Они предлагают рассмотреть способы самопомощи и поддержки профессионального сообщества через реализацию идеи «медленного курирования» и преодоления принятых стереотипов бизнес-культуры. Самопомощь, отстаивание своих профессиональных и гражданских прав также являются частью медленного курирования.

  

УДК: 025.5:316.6

ГРНТИ: 13.31.21; 15.41.31

DOI: 10.7191/jeslib.740

 

Источник:

https://publishing.escholarship.umassmed.edu/jeslib/article/id/740/