БиблиоГоризонт

В номер вошла также статья Рональда Шнайдера (Ronald Snijder) «Коллекция словесных алгоритмов – поиск схожих книг в открытом доступе с использованием техники интеллектуального анализа текстов» (Words Algorithm Collection - finding closely related open access books using text mining techniques). Рональд Шнайдер представляет фонд OAPEN.

Фонд OAPEN (Open Access Publishing in European Networks — буквально «публикации для открытого доступа в европейских сетях») — некоммерческая организация со штаб-квартирой в Национальной библиотеке Нидерландов, Гаага. Фонд привержен принципам открытого доступа и рецензирования книг. Фонд осуществляет свою деятельность на двух платформах: OAPEN Library (https://www.oapen.org/), центральном репозитории, выполняющем функции хранения и распространения книг с открытым доступом, и Directory of Open Access Books (DOAB, https://www.doabooks.org/), дискавери-сервиса книг с открытым доступом.

Платформы открытого доступа и веб-сайты системы книгораспространения призваны представлять клиентам релевантные предложения. Именно для этого на таких веб-сайтах и разворачивают рекомендательные системы, собирающие данные о покупателях. Эти системы эффективны, однако их функционирование вызывает озабоченность с точки зрения вмешательства в личную жизнь. В статье предложена альтернатива — алгоритм, использующий метод интеллектуального анализа текстов, который позволяет вычленять самые важные темы в книге или статье, находящихся в открытом доступе. Выявив другие публикации с совпадающей темой или совпадающими темами, можно рекомендовать клиенту книги или статьи родственной тематики.

Алгоритм разбивает весь текст на триграммы, исключая те из них, которые содержат слова, часто используемые в обыденной речи и в публикациях книг (открытого доступа). Оставшиеся триграммы с наибольшей вероятностью являются специфическими и указывают на тематику книги. Следующий этап — поиск публикаций с одной или несколькими общими триграммами. Вес связи измеряется путем подсчета количества и ранжирования общих триграмм. Алгоритм позволяет находить книги на разных языках. В рамках исследования он был использован для поиска связи между 10997 публикациями: 67% из них — на английском языке, 29% — на немецком и 6% на нидерландском или на нескольких языках. Алгоритм может быть использован не только в рекомендательных системах; в числе иных возможностей — генерирование характеристик для издателей или формирование коллекций сходных публикаций для библиотек. Алгоритм применим и к другим книжным коллекциям и даже к журналам открытого доступа, а не только к библиотеке OAPEN. Результаты, полученные при поиске в нескольких коллекциях одновременно, позволят достичь еще большей эффективности.

УДК: 02:004+027.9

ГРНТИ: 13.20.31, 13.31.23

DOI: 10.53377/lq.10938

Источник:

https://liberquarterly.eu/article/view/10938

В третьем выпуске журнала Online Information Review опубликована редакторская статья Марко Бустоса (Marco Bustos), доцента Школы информационных и коммуникационных исследований Университетского колледжа Дублина Майкла Смурфита, «Пять проблем в обнаружении дезинформации и смягчении последствий ее распространения в социальных сетях» (Five challenges in detection and mitigation of disinformation on social media). Эта статья основана на приветственной речи автора на заседании Программы европейских скоординированных исследований CHIST-ERA 19 мая 2021 г.

В конце 2000-х гг. колонизация социальными сетями интернет-сообществ сопровождалась переходом от сетевых пабликов, основанных на ориентированной на пользователя и децентрализованной структуре управления, к коммерческим платформам, управляемым алгоритмами. Социальные сети стали централизованными регуляторами критически важной инфраструктуры, поддерживающей экономическое, демократическое и социальное участие. Это вызвало проблемы, связанные с распространением дезинформации, соблюдением цифровой конфиденциальности и политики доступа к данным, микротаргетингом и растущим влиянием алгоритмов в обществе. В данной статье описываются пять ключевых проблем в обнаружении и устранении дезинформации на социальных платформах:

1. Отсутствие информации о размещенных и удаленных постах. Контент, отмеченный алгоритмами социальной платформы и партнерскими агентствами по проверке фактов как дезинформация или спорная информация, очень быстро удаляется. К сожалению, широкая общественность и научное сообщество не имеют никакой возможности контроля или отслеживания удаленных записей.

2. Вынужденная обратная разработка алгоритмов социальных платформ. Возможность публичной подотчетности социальных платформ серьезно ограничена проблемами цифровой конфиденциальности, поэтому у социальных сетей нет никаких причин для расширения доступа к данным или повышения прозрачности политики удаления контента. Отдельные пользователи и журналисты, отслеживающие кампании по дезинформации, проводят обратную разработку алгоритмов социальных платформ, обычно называемую «алгоритмическим аудитом», для того чтобы получить фрагментарные доказательства или найти алгоритмические решения, которые привели к удалению или понижению рейтинга контента. Но даже когда пользователи сообщают о потенциальных кампаниях по дезинформации, социальные платформы редко раскрывают контент, который был помечен для удаления.

3. Психологические манипуляции (газлайтинг) со стороны социальных платформ. Отсутствие механизмов подотчетности и надзора за действиями социальных платформ ставят в уязвимое положение тех, на кого направлены эти действия. Люди оказываются не в состоянии определить, скоординированы ли массовые или групповые преследования, ведь решения об удалении контента, помеченного как потенциально неприемлемый, принимаются сотрудниками социальных сетей, не имеющими к этому практически никакого отношения.

4. Сложности с идентификацией ботов. При идентификации социальных ботов и оценке автоматизированной активности даже самые современные инструменты недостаточно точны и часто дают ложноотрицательные (т. е. боты классифицируются как люди) или ложноположительные (т. е. люди классифицируются как боты) результаты; особенно это касается учетных записей, размещающих контент на языках, отличных от английского.

5. Нет полной информации о кампаниях по размещению дезинформации. После скандала с неправомерным использованием данных пользователей компанией Cambridge Analytica, блокировка интерфейса прикладного программирования (API) социальных платформ, особенно Facebook и Instagram, затруднила значимые исследования операций влияния и дезинформации. Дезинформация, циркулирующая на общедоступных платформах (автор приводит в пример Twitter), может быть обнаружена лишь в ограниченной степени. Это связано с тем, что, например, в условиях обслуживания Twitter указано, что контент, удаленный пользователем или заблокированный платформой из-за нарушений, должен полностью исчезнуть с платформы. Эта специфическая особенность способствует исчезновению постов, изображений и веб-ссылок из поля зрения общественности, что имеет долгосрочные последствия для исследований операций влияния, разворачиваемых в социальных сетях.

УДК: 077:316

ГРНТИ: 19.31

DOI: 10.1108/OIR-08-2021-563

Источник:

https://www.emerald.com/insight/content/doi/10.1108/OIR-08-2021-563/full/html