В номер вошла также статья Рональда Шнайдера (Ronald Snijder) «Коллекция словесных алгоритмов – поиск схожих книг в открытом доступе с использованием техники интеллектуального анализа текстов» (Words Algorithm Collection - finding closely related open access books using text mining techniques). Рональд Шнайдер представляет фонд OAPEN.

Фонд OAPEN (Open Access Publishing in European Networks — буквально «публикации для открытого доступа в европейских сетях») — некоммерческая организация со штаб-квартирой в Национальной библиотеке Нидерландов, Гаага. Фонд привержен принципам открытого доступа и рецензирования книг. Фонд осуществляет свою деятельность на двух платформах: OAPEN Library (https://www.oapen.org/), центральном репозитории, выполняющем функции хранения и распространения книг с открытым доступом, и Directory of Open Access Books (DOAB, https://www.doabooks.org/), дискавери-сервиса книг с открытым доступом.

Платформы открытого доступа и веб-сайты системы книгораспространения призваны представлять клиентам релевантные предложения. Именно для этого на таких веб-сайтах и разворачивают рекомендательные системы, собирающие данные о покупателях. Эти системы эффективны, однако их функционирование вызывает озабоченность с точки зрения вмешательства в личную жизнь. В статье предложена альтернатива — алгоритм, использующий метод интеллектуального анализа текстов, который позволяет вычленять самые важные темы в книге или статье, находящихся в открытом доступе. Выявив другие публикации с совпадающей темой или совпадающими темами, можно рекомендовать клиенту книги или статьи родственной тематики.

Алгоритм разбивает весь текст на триграммы, исключая те из них, которые содержат слова, часто используемые в обыденной речи и в публикациях книг (открытого доступа). Оставшиеся триграммы с наибольшей вероятностью являются специфическими и указывают на тематику книги. Следующий этап — поиск публикаций с одной или несколькими общими триграммами. Вес связи измеряется путем подсчета количества и ранжирования общих триграмм. Алгоритм позволяет находить книги на разных языках. В рамках исследования он был использован для поиска связи между 10997 публикациями: 67% из них — на английском языке, 29% — на немецком и 6% на нидерландском или на нескольких языках. Алгоритм может быть использован не только в рекомендательных системах; в числе иных возможностей — генерирование характеристик для издателей или формирование коллекций сходных публикаций для библиотек. Алгоритм применим и к другим книжным коллекциям и даже к журналам открытого доступа, а не только к библиотеке OAPEN. Результаты, полученные при поиске в нескольких коллекциях одновременно, позволят достичь еще большей эффективности.

  

УДК: 02:004+027.9

ГРНТИ: 13.20.31, 13.31.23

DOI: 10.53377/lq.10938

 

Источник:

https://liberquarterly.eu/article/view/10938