В статье Шарлин Чоу (Charlene Chou) и Тони Чу (Tony Chu) «Анализ использования BERT (модели обработки естественного языка) для компьютеризированного предметного индексирования в проекте «Гутенберг»» (An Analysis of BERT (NLP) for Assisted Subject Indexing for Project Gutenberg) рассматривается целесообразность использования моделей ИИ/ОЕЯ (Искусственный интеллект – Обработка естественного языка) для совершенствования процесса предметной индексации цифровых ресурсов. Модели BERT (Bidirectional Encoder Representations from Transformers— двунаправленный кодировщик-трансформер) широко используются в машинном индексировании коллекции проекта «Гутенберг», когда для индексации предлагаются предметные рубрики Классификации Библиотеки Конгресса США (LCC), отобранные по кодовым обозначениям подклассов LCC. Результаты данного исследования могут стать фундаментом для последующих разработок по автоматической предметной индексации цифровых библиотечных фондов.
BERT — нейросетевая модель-трансформер, предназначенная для предварительного обучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка. BERT является автокодировщиком.
УДК: 004.934:025.32
ГРНТИ: 20.19.17, 20.23.15; 28.23.11; 16.31.25, 16.31.31; 13.31.19
DOI: 10.1080/01639374.2022.2138666
Источник:
Авторы статьи «Библиометрический анализ больших языковых моделей в Китае» (A bibliometric analysis of large language models in China) — Бин Лао (Bin Lao) и Си Же Жи (Si Zhe Zhi), представители Школы информатики и информационных технологий, Гуандунский университет зарубежных исследований, а также Вэй Лу (Wei Lu), Колледж зарубежных исследований, Университет Цзинань, Гуаньчжоу, Китай.
Они анализируют пути развития больших языковых моделей (Large Language Model, LLM) в Китае, выявляют основные направления и горизонты исследований, которые позволят сформулировать предложения по оптимизации данной сферы. Применен метод библиометрического анализа с использованием программного обеспечения CiteSpace. Данные получены на платформе CNKI путем расширенного поиска по ключевым словам. В качестве источников отобраны журналы, а в них — релевантные статьи. Всего по результатам поиска были отобрана 751 статья научно-исследовательского характера на китайском языке, опубликованная в период с 2021 по 2024 г., с последующим анализом публикационных тенденций журналов, ключевых слов, авторов, научных организаций. Выстроены графики смежности и кластеризации, и применены методы с использованием ADO-модели, описывающей взаимосвязь между предшествующими факторами, решениями и их результатами (Antecedents, Decisions, Outcomes, ADO). Также применен метод систематического обзора литературы с привлечением компонентов «теория», «контекст», «характеристики», «метод».
Было обнаружено, что исследования в области LLM в Китае находятся все еще на ранних этапах, тем не менее развиваются весьма активно и относятся к таким сферам, как образование, медицина, финансы. Исследования указывают на взрыв публикаций после 2023 г. из-за появления ChatGPT. Авторы сосредоточены на таких темах, как искусственный интеллект, взаимодействие человека и компьютера, этические основы.
УДК: [001.83:01]-047.44 + 004.93
ГРНТИ: 28.23.21, 28.23.25; 12.41.51
Источник: