В январском номере журнала Library Journal в разделе «Новости» опубликована статья старшего редактора колонки «Технология» Мэтта Эниса (Matt Enis) «Библиотека Конгресса совершенствует инструмент машинного обучения с помощью краудсорсинга» (Library of Congress Trains Machine Learning Tool with Crowdsourcing).
Лаборатории цифровой трансформации Библиотеки Конгресса LC Labs с 2017 г. занимаются изучением применения технологий машинного обучения и искусственного интеллекта в библиотечной деятельности, стремясь сделать цифровые коллекции библиотеки более доступными и простыми в использовании. 30 ноября 2021 г. был опубликован финальный отчет об инициативе Humans-in-the-Loop (HITL, «Люди в контуре управления»). Особенностью этого проекта было пересечение практики краудсорсинга и алгоритмов машинного обучения: к обучению компьютера извлечению структурированных данных из одной из цифровых коллекций библиотеки были привлечены волонтеры. Их задействовали в двух рабочих процессах: создании обучающих данных для машины и коррекции выходных данных.
Команда LC Labs определила три основные концепции для каждого этапа HITL: от выбора коллекции и проектирования до реализации и презентации проекта:
• Вовлечение: коллекция должна быть интересной для волонтеров, они должны ощущать собственную сопричастность.
• Этичность: данные, представленные в коллекции, должны не нарушать конфиденциальность субъектов или создателей коллекции, а любые потенциальные риски должны быть выявлены и сведены к минимуму.
• Полезность: результаты проекта призваны улучшить обнаружение цифровых коллекций библиотеки; этот контент должен быть востребован и не иметь ограничений для использования.
В качестве объекта была выбрана оцифрованная коллекция микрофильмов телефонных справочников 15 штатов США. Этот ресурс охватывает большую часть XX-го века и часто используется исследователями в области права и людьми, изучающими генеалогию и семейную историю.
В результате была получена структура, которая послужит основой для будущих проектов краудсорсинга и обогащения данных в Библиотеке Конгресса. В 97-страничном отчете подробно описаны проблемы, возникшие на каждом этапе разработки HITL, их решение, а также процесс пользовательского тестирования для создания дизайна интерфейса краудсорсинговой платформы. В отчете предлагаются идеи и советы библиотекам и учреждениям культурного наследия по разработке собственных этичных и полезных краудсорсинговых проектов.
С полным отчетом об инициативе Humans-in-the-Loop можно ознакомиться по ссылке: https://labs.loc.gov/static/labs/work/reports/LC-Labs-Humans-in-the-Loop-Recommendations-Report-final.pdf
УДК: 021:004.89
ГРНТИ: 13.31; 20.23.29; 28.23
Источник: