БиблиоГоризонт

Ручное предметное индексирование в библиотеках – трудоемкий и дорогостоящий процесс, и качество назначенного предметного содержания ресурса напрямую зависит от знаний каталогизатора по конкретным темам. Марит Асулаа (Marit Asulaa), Джейн Маккеб (Jane Makkeb), Линда Фрейентала (Linda Freienthala), Хеле-Андра Куулметса (Hele-Andra Kuulmetsa) и Рауль Сирела (Raul Sirela) в статье «Kratt: разработка инструмента автоматического предметного индексирования для Национальной библиотеки Эстонии» (Kratt: Developing an Automatic Subject Indexing Tool for the National Library of Estonia) рассказывают об использовании набора приложений искусственного интеллекта Kratt для автоматизации процесса предметного индексирования книг. Этот проект был запущен в 2019 г., и на создание прототипа Kratt ушло 6–7 месяцев. Kratt может составить предметный указатель книги независимо от ее объема и жанра с помощью набора ключевых слов, представленных в эстонском предметном тезаурусе. Инструменту Kratt требуется примерно одна минута, чтобы составить предметный указатель книги; это в 10–15 раз быстрее, чем ручное индексирование. Хотя полученные в результате ключевые слова не вполне удовлетворили каталогизаторов, оценки небольшой выборки обычных пользователей библиотеки были более обнадеживающими. Авторы утверждают, что результаты могут быть улучшены за счет загрузки большего объема данных для обучения модели и применения более глубоких методов предварительной обработки.

УДК: 025.4.026:004.8

ГРНТИ: 20.19, 20.15.31; 28.23; 13.31

DOI: 10.1080/01639374.2021.1998283

Источник:

https://www.tandfonline.com/doi/full/10.1080/01639374.2021.1998283

В статье Шарлин Чоу (Charlene Chou) и Тони Чу (Tony Chu) «Анализ использования BERT (модели обработки естественного языка) для компьютеризированного предметного индексирования в проекте «Гутенберг»» (An Analysis of BERT (NLP) for Assisted Subject Indexing for Project Gutenberg) рассматривается целесообразность использования моделей ИИ/ОЕЯ (Искусственный интеллект – Обработка естественного языка) для совершенствования процесса предметной индексации цифровых ресурсов. Модели BERT (Bidirectional Encoder Representations from Transformers— двунаправленный кодировщик-трансформер) широко используются в машинном индексировании коллекции проекта «Гутенберг», когда для индексации предлагаются предметные рубрики Классификации Библиотеки Конгресса США (LCC), отобранные по кодовым обозначениям подклассов LCC. Результаты данного исследования могут стать фундаментом для последующих разработок по автоматической предметной индексации цифровых библиотечных фондов.

BERT — нейросетевая модель-трансформер, предназначенная для предварительного обучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка. BERT является автокодировщиком.

УДК: 004.934:025.32

ГРНТИ: 20.19.17, 20.23.15; 28.23.11; 16.31.25, 16.31.31; 13.31.19

DOI: 10.1080/01639374.2022.2138666

Источник:

https://www.tandfonline.com/doi/full/10.1080/01639374.2022.2138666?scroll=top&needAccess=true&role=tab

Журнал опубликовал статью Джонатана Фёрнера (Jonathan Furner) и Бёрджера Хьорланда (Birger Hjorland) «Информационная наука и организация знаний в предметных рубриках Библиотеки Конгресса» (The coverage of information science and knowledge organization in the Library of Congress Subject Headings). Предметные рубрики Библиотеки Конгресса (Library of Congress Subject Headings, LCSH) – самая популярная в мире система предметизации и наглядный пример контролируемого словаря. Основываясь на своих экспертных знаниях в области информационной науки и систем организации знаний, авторы анализируют Предметные рубрики Библиотеки Конгресса. Они уточняют, присутствуют ли базовые концепции информационной дисциплины как области знания в упомянутой системе классификации. В случае отсутствия в ней этих концепций необходимо было определить, содержат ли LCSH альтернативные термины, которые можно использовать при поиске документов, соответствующих отсутствующей концепции; с этой же целью проанализированы книги, проиндексированные Библиотекой Конгресса. Наконец, выявлены семантические отношения между предметными рубриками. Результаты продемонстрировали фундаментальные проблемы в логике представления информационных наук и организации знаний в LCSH. Авторы обсуждают общие вопросы практического использования контролируемого словаря.

УДК: 025.4.05 + 002:004

ГРНТИ: 13.31.33

DOI: 10.1108/JD-11-2022-0256

Источник:

https://www.emerald.com/insight/content/doi/10.1108/JD-11-2022-0256/full/html