Ручное предметное индексирование в библиотеках – трудоемкий и дорогостоящий процесс, и качество назначенного предметного содержания ресурса напрямую зависит от знаний каталогизатора по конкретным темам. Марит Асулаа (Marit Asulaa), Джейн Маккеб (Jane Makkeb), Линда Фрейентала (Linda Freienthala), Хеле-Андра Куулметса (Hele-Andra Kuulmetsa) и Рауль Сирела (Raul Sirela) в статье «Kratt: разработка инструмента автоматического предметного индексирования для Национальной библиотеки Эстонии» (Kratt: Developing an Automatic Subject Indexing Tool for the National Library of Estonia) рассказывают об использовании набора приложений искусственного интеллекта Kratt для автоматизации процесса предметного индексирования книг. Этот проект был запущен в 2019 г., и на создание прототипа Kratt ушло 6–7 месяцев. Kratt может составить предметный указатель книги независимо от ее объема и жанра с помощью набора ключевых слов, представленных в эстонском предметном тезаурусе. Инструменту Kratt требуется примерно одна минута, чтобы составить предметный указатель книги; это в 10–15 раз быстрее, чем ручное индексирование. Хотя полученные в результате ключевые слова не вполне удовлетворили каталогизаторов, оценки небольшой выборки обычных пользователей библиотеки были более обнадеживающими. Авторы утверждают, что результаты могут быть улучшены за счет загрузки большего объема данных для обучения модели и применения более глубоких методов предварительной обработки.

  

УДК: 025.4.026:004.8

ГРНТИ: 20.19, 20.15.31; 28.23; 13.31

DOI: 10.1080/01639374.2021.1998283

 

Источник:

https://www.tandfonline.com/doi/full/10.1080/01639374.2021.1998283

В январском номере журнала Library Journal в разделе «Новости» опубликована статья старшего редактора колонки «Технология» Мэтта Эниса (Matt Enis) «Библиотека Конгресса совершенствует инструмент машинного обучения с помощью краудсорсинга» (Library of Congress Trains Machine Learning Tool with Crowdsourcing).

Лаборатории цифровой трансформации Библиотеки Конгресса LC Labs с 2017 г. занимаются изучением применения технологий машинного обучения и искусственного интеллекта в библиотечной деятельности, стремясь сделать цифровые коллекции библиотеки более доступными и простыми в использовании. 30 ноября 2021 г. был опубликован финальный отчет об инициативе Humans-in-the-Loop (HITL, «Люди в контуре управления»). Особенностью этого проекта было пересечение практики краудсорсинга и алгоритмов машинного обучения: к обучению компьютера извлечению структурированных данных из одной из цифровых коллекций библиотеки были привлечены волонтеры. Их задействовали в двух рабочих процессах: создании обучающих данных для машины и коррекции выходных данных.

Команда LC Labs определила три основные концепции для каждого этапа HITL: от выбора коллекции и проектирования до реализации и презентации проекта:

• Вовлечение: коллекция должна быть интересной для волонтеров, они должны ощущать собственную сопричастность.

• Этичность: данные, представленные в коллекции, должны не нарушать конфиденциальность субъектов или создателей коллекции, а любые потенциальные риски должны быть выявлены и сведены к минимуму.

• Полезность: результаты проекта призваны улучшить обнаружение цифровых коллекций библиотеки; этот контент должен быть востребован и не иметь ограничений для использования.

В качестве объекта была выбрана оцифрованная коллекция микрофильмов телефонных справочников 15 штатов США. Этот ресурс охватывает большую часть XX-го века и часто используется исследователями в области права и людьми, изучающими генеалогию и семейную историю.

В результате была получена структура, которая послужит основой для будущих проектов краудсорсинга и обогащения данных в Библиотеке Конгресса. В 97-страничном отчете подробно описаны проблемы, возникшие на каждом этапе разработки HITL, их решение, а также процесс пользовательского тестирования для создания дизайна интерфейса краудсорсинговой платформы. В отчете предлагаются идеи и советы библиотекам и учреждениям культурного наследия по разработке собственных этичных и полезных краудсорсинговых проектов.

С полным отчетом об инициативе Humans-in-the-Loop можно ознакомиться по ссылке: https://labs.loc.gov/static/labs/work/reports/LC-Labs-Humans-in-the-Loop-Recommendations-Report-final.pdf

  

УДК: 021:004.89

ГРНТИ: 13.31; 20.23.29; 28.23

 

Источник:

https://www.libraryjournal.com/story/technology/library-of-congress-trains-machine-learning-tool-with-crowdsourcing

В первом номере журнала за 2022 г. опубликована статья Андреа Гаспарини (Andrea Gasparini) и Хели Каутонен (Heli Kautonen) «Искусственный интеллект в научной библиотеке — обширный обзор литературы» (Understanding Artificial Intelligence in Research Libraries – Extensive Literature Review). В научном мире искусственный интеллект (ИИ) стал основой различных видов деятельности. Безусловно, он влияет и на то, как осуществляют свои услуги научные и университетские библиотеки и как будут использоваться данные, которые они хранят в своих репозиториях. В настоящее время это сложный и неопределенный ландшафт, в котором библиотечные специалисты и руководители должны сориентироваться. Авторы поставили перед собой задачу определить специфику исследований в данной области. Они предлагают обширный обзор литературы, посвященный самым разным аспектам взаимодействия научной библиотеки и искусственного интеллекта, предполагая, что использование последнего должно быть поднято на уровень стратегии. Проанализированы 126 статей, на основании чего описаны те роли, которые играют библиотеки и библиотекари, пользователи, а также искусственный интеллект в качестве субъекта взаимодействия.

Более четверти публикаций (33) из представленного списка являются докладами; в том числе это работы, посвященные профессиональной роли библиотекаря (14). Между тем, большая часть работ посвящена общим вопросам (79). Сорок одна статья отвечает критериям концептуальной или теоретико-исследовательской работы. Тридцать две работы представляют результаты эмпирических исследований (от частного случая до полномасштабного проекта). Публикации охватывают временной период в 60 лет. Почти половина статей опубликована после 2018 г. (первая публикация относится к 1975 г., последняя — к октябрю 2020 г.).

На основании анализа литературы делается вывод о том, что роль библиотекарей реализуется по 7 направлениям (профессиональное использование инструментов и сервисов ИИ, профессиональная разработка инструментов и сервисов ИИ, защита профессиональных ценностей, исследование перемен, замена человека искусственным интеллектом, партнерское участие в переменах, агент происходящих перемен).

Второй круг вопросов касается роли пользователей (студентов, научных сотрудников, других граждан); она связана с поиском информации, эксплуатацией со стороны ИИ, предвзятостью, участием в сообществе, изучением ИИ-технологий, потреблением ИИ-услуг, участием в создании новых знаний с использованием ИИ, взаимообмен с ИИ, участием в разработке ИИ, действиями в обход библиотекаря.

Роль ИИ как субъекта реализуется в нескольких направлениях: ИИ как инструмент/система, расширение круга человеческих возможностей, замена человеческого труда, «черный ящик», посредничество, роль агента/актора.

Лишь 24 публикации были посвящены проблемам дизайна ИИ в контексте библиотечных процессов: ИИ как интерфейс, человеко-ориентированный дизайн, ориентация на потребности, ИИ как инфраструктура, требования самого ИИ.

В анализе результатов авторы опирались на постгуманистические теории, которые порой ставят под сомнение прежде незыблемые утверждения о первенстве человеческого разума и призывают к глубокому анализу соотношения сил между всеми субъектами взаимодействия с технологиями. Результаты исследования представлены также в табличной форме.

  

УДК: 004.8:02

ГРНТИ: 28.23; 20.15.31; 13.31

DOI: 10.53377/lq.10934

 

Источник:

https://liberquarterly.eu/article/view/10934

Статья Йингшен Хуана (Yingshen Huang), Эндрю Кокса (Andrew M. Cox) и Джона Кокса (John Cox) «Искусственный интеллект в стратегии университетских библиотек Великобритании и континентального Китая» (Artificial Intelligence in academic library strategy in the United Kingdom and the Mainland of China) характеризует развитие этой тенденции в названных странах. Данные для исследования получены на базе стратегических документов лучших, согласно мировому рейтингу университетов QS, университетов Великобритании и Материкового Китая, 25 британских и 25 китайских. Временные рамки, заданные стратегическими программами этих вузов, различны — от 4 до 10 лет, в среднем, 4-6 лет. Они различаются также степенью детализации: от концепции до подробных планов. Из представленных документов стратегические планы 38 университетов приняты после 2020 г., поэтому можно предположить, что они отражают текущий взгляд на ИИ, сложившийся после определения национальной политики двух стран. Авторы осуществили контент-анализ упомянутых стратегических планов с подсчетом частотности употребления слов, связанных с ИИ. Согласно результатам исследования, слова «искусственный интеллект/машинное обучение» упомянуты в стратегических планах 24 университетов, из которых 3 находятся в Великобритании, а 21—в Китае; всего количество слов, связанных с ИИ в этих документах, составляет 171; 3% (5 упоминаний) которых относятся к британским университетам, а 97% (165 упоминаний) — к китайским. Несмотря на то, что некоторые библиотеки внедрили какие-то так называемые «умные» или «интеллектуальные» приложения или приложения, основанные на технологиях ИИ, в большинстве библиотек это не составляет пока стратегическую повестку. Сдержанное отношение библиотек к ИИ оценивается авторами как оптимальное. Библиотека, будучи функциональным подразделением университета, обязана выбирать жизнеспособные и обоснованные технологические решения, отвечающие ее роли, и не может следовать всем подряд модным новшествам. Если новые технологии, такие как искусственный интеллект, машинное обучение, обработка естественно-языковых текстов, могут способствовать достижению целей или повысить эффективность работы библиотеки, тогда активное освоение этих технологий оправдано.

  

УДК: 004.8:027.7

ГРНТИ: 13.31.19; 28.23

DOI: 10.1016/j.acalib.2023.102772

 

Источник:

https://www.sciencedirect.com/science/article/pii/S0099133323001118

В своей статье «От ChatGPT к CatGPT. Возможности искусственного интеллекта для библиотечной каталогизации» (From ChatGPT to CatGPT. The Implications of Artificial Intelligence on Library Cataloging) Рихард Бжустович (Richard Brzustowicz) рассказывает о возможности решать функциональные библиотечные задачи при помощи технологий искусственного интеллекта (ИИ). Автор анализирует потенциал языковых моделей, подобных ChatGPT, в отношении трансформации библиотечной каталогизации. Опираясь на эксперименты, проведенные им с использованием ChatGPT, автор демонстрирует возможность генерировать точные записи при помощи протокола RDA и иных стандартов, таких как набор элементов метаданных Дублинского ядра (Dublin Core). Автор задал ChatGPT задачу сгенерировать 6 библиографических записей, в том числе одной не имеющей соответствия в WorldCat, после чего сравнил полученные записи с составленными каталогизатором-человеком. Была проведена оценка точности, эффективности ChatGPT и способности его справляться с различными видами и стандартами каталогизации и метаданных. Автор убедился, что ИИ может генерировать записи, соответствующие различным стандартам метаданных; может извлекать с достаточной точностью необходимые метаданные, такие как заглавие, автор, издатель, дата публикации, предметные рубрики, иные элементы описания. Кроме того, ChatGPT генерировал записи независимо от формата, носителя или языка материала, как совпадающие с существующими авторитетными записями, так и полностью оригинальные. В диалоге с ChatGPT автор выяснил, что ИИ прошел обучение на данных из различных каталогов, в том числе Библиотеки Конгресса США, Национальной медицинской библиотеки США, Британской Библиотеки, COPAC (Каталога университетских и национальных библиотек Великобритании), Europeana, а также Цифровой библиотеки HathiTrust. Это уже указывает на некую проблему, поскольку эти каталоги имеют различную политику в отношении доступа и использования своих данных. Отмечено несколько аспектов проблем, связанных с интеллектуальной собственностью и способностью ChatGPT генерировать контент, например, нарушение авторских прав, неправильное определение авторства, право на сам сгенерированный ChatGPT контент, а также ненамеренное раскрытие чувствительной или конфиденциальной информации.

Полученные результаты демонстрируют потенциал ChatGPT как инструмента модернизации и повышения эффективности процесса создания записей в библиотеке. Автор приходит к выводу, что для ответственного внедрения данной инновационной технологии в сфере библиотечной каталогизации необходимы дальнейшие исследования и разработки, а также процедуры и технологии контроля со стороны человека.

  

УДК: 004.8:025.3

ГРНТИ: 13.31.19, 13.31.33

DOI: 10.5860/ital.v42i3.16295

 

Источник:

https://ital.corejournals.org/index.php/ital/article/view/16295