В статье Шарлин Чоу (Charlene Chou) и Тони Чу (Tony Chu) «Анализ использования BERT (модели обработки естественного языка) для компьютеризированного предметного индексирования в проекте «Гутенберг»» (An Analysis of BERT (NLP) for Assisted Subject Indexing for Project Gutenberg) рассматривается целесообразность использования моделей ИИ/ОЕЯ (Искусственный интеллект – Обработка естественного языка) для совершенствования процесса предметной индексации цифровых ресурсов. Модели BERT (Bidirectional Encoder Representations from Transformers— двунаправленный кодировщик-трансформер) широко используются в машинном индексировании коллекции проекта «Гутенберг», когда для индексации предлагаются предметные рубрики Классификации Библиотеки Конгресса США (LCC), отобранные по кодовым обозначениям подклассов LCC. Результаты данного исследования могут стать фундаментом для последующих разработок по автоматической предметной индексации цифровых библиотечных фондов.

BERT — нейросетевая модель-трансформер, предназначенная для предварительного обучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка. BERT является автокодировщиком.

  

УДК: 004.934:025.32

ГРНТИ: 20.19.17, 20.23.15; 28.23.11; 16.31.25, 16.31.31; 13.31.19

DOI: 10.1080/01639374.2022.2138666

 

Источник:

https://www.tandfonline.com/doi/full/10.1080/01639374.2022.2138666?scroll=top&needAccess=true&role=tab

Журнал опубликовал статью Джонатана Фёрнера (Jonathan Furner) и Бёрджера Хьорланда (Birger Hjorland) «Информационная наука и организация знаний в предметных рубриках Библиотеки Конгресса» (The coverage of information science and knowledge organization in the Library of Congress Subject Headings). Предметные рубрики Библиотеки Конгресса (Library of Congress Subject Headings, LCSH) – самая популярная в мире система предметизации и наглядный пример контролируемого словаря. Основываясь на своих экспертных знаниях в области информационной науки и систем организации знаний, авторы анализируют Предметные рубрики Библиотеки Конгресса. Они уточняют, присутствуют ли базовые концепции информационной дисциплины как области знания в упомянутой системе классификации. В случае отсутствия в ней этих концепций необходимо было определить, содержат ли LCSH альтернативные термины, которые можно использовать при поиске документов, соответствующих отсутствующей концепции; с этой же целью проанализированы книги, проиндексированные Библиотекой Конгресса. Наконец, выявлены семантические отношения между предметными рубриками. Результаты продемонстрировали фундаментальные проблемы в логике представления информационных наук и организации знаний в LCSH. Авторы обсуждают общие вопросы практического использования контролируемого словаря.

  

УДК: 025.4.05 + 002:004

ГРНТИ: 13.31.33

DOI: 10.1108/JD-11-2022-0256

 

Источник:

https://www.emerald.com/insight/content/doi/10.1108/JD-11-2022-0256/full/html