LIBER Quarterly
В очередном номере журнала опубликована статья Пита Шнейдера (Pit Schneider), Ива Моро (Yves Maurer) и Ральфа Маршала (Ralph Marschal) «Комплексный процесс оптического распознавания символов с технологией повышения четкости METS/ALTO» (An End-To-End METS/ALTO OCR Enhancement Pipeline). Они подчеркивают, какие высокие требования ученые и клиенты предъявляют к обработке цифровых коллекций с использованием оптических устройств распознавания символов и возможностям их дальнейшего использования. Для пользователей крайне важно осуществлять полнотекстовый поиск с эффективным применением релевантной терминологии в исторических коллекциях; исследователи же, при том, что они склонны предвидеть масштаб погрешностей при распознавании текстов, тем не менее желали бы иметь возможность анализировать большие данные и применять методы машинного обучения. Все это зависит от качества текстовой расшифровки сканов.
В Национальной библиотеке Люксембурга разработан полный процесс, позволяющий улучшить оптическое распознавание данных в существующих оцифрованных документах. Для этого понадобилось не только усовершенствовать модели машинного обучения, но также и соответствующим образом пересмотреть стратегию вторичной обработки. Этим требованиям отвечает вновь разработанное программное средство Nautilus, использующее в качестве тестового формат METS/ALTO. Этот продукт с открытым исходным кодом могут свободно использовать и другие библиотеки. В статье описан процесс создания эталонных данных, вся цепочка операций, влияние на коллекции библиотеки в целом, а также дана оценка результатов разработки. Согласно прогнозу, методика которого была также разработана в библиотеке, качество вскоре будет превышать контрольный уровень. Обработка изображений применяется очень ограниченно в процессе бинаризации (конвертации изображения в черно-белое). Однако вполне возможно, что для оригинальных изображений низкого качества могут с успехом применяться компенсация, вращение и очистка. Кроме того, в будущем, благодаря анализу разметки текста, включенному в процесс перед использованием Nautilus, удастся снизить требования к делению текстовых блоков. Проект позволил подтвердить, что качество оптического распознавания символов в требуемом масштабе может быть улучшено в результате автоматизации. В будущих проектах Национальная библиотека Люксембурга может изменить требования к минимальному качеству текстов, представленных для оптического распознавания — а это позволяет сделать инструмент прогнозирования по качеству; также можно не вносить коррективы в технические требования, поскольку Nautilus будет автоматически обрабатывать вновь оцифрованные документы.
УДК: 004.932 + 004:021
ГРНТИ: 20.19.29; 13.31.19
DOI: 10.53377/lq.13330
Источник:
Статья приглашенного редактора Лео Вайерса (Leo Waaijers) «Новая актуальность научных библиотек» (Towards a new relevance for research libraries) носит отчасти полемический характер. Изобретение книгопечатания Иоганном Гуттенбергом в 1455 г. часто сравнивают с изобретением Всемирной паутины в 1991 г. Тимом Бернерсом-Ли с точки зрения обеспечения доступности информации. Оба этих события знаменуют социальный прорыв с далеко идущими последствиями. Появление печатного пресса привело к упадку монастырских библиотек с их скрипториями как очагов знаний и развития науки, уступивших в этом качестве место университетским библиотекам и издательствам. В результате цифровой революции, утверждает автор, происходит маргинализация университетских библиотек. Он отмечает, что пакетная подписка на электронные журналы и базы данных, а затем и книги через крупнейшие издательства и подписные агентства существенно изменила роль библиотек и библиотекарей, например, специалистов справочно-библиографических служб и комплектаторов. Безусловно, Всемирная сеть стала очередной революцией в распространении знаний, которую приветствовало академическое сообщество. Кульминацией этого процесса является движение Открытой науки. Академическое сообщество заинтересовано в оперативном и открытом доступе к научно-исследовательской информации, о чем говорят многие международные документы: Будапештская инициатива открытого доступа (2002), Заявление об открытом доступе к изданиям, принятое в Бетезде (2003), и Берлинская декларация об открытом доступе к научному и гуманитарному знанию (2003).
В новой формируемой модели открытого доступа к научному знанию автор видит роль университетских библиотек в следующем:
— независимое консультирование и информирование авторов и администраторов научных учреждений о новых формах публикации (препринтах, научном рецензировании помимо журнальных издательств, о журналах «бриллиантового» открытого доступа);
— инициация «бриллиантовых» журналов, принимающих рецензированные препринты;
— распространение «Семи руководящих принципов для обеспечения открытой научно-исследовательской информации» (Seven Guiding Principles for Open Research Information) среди финансирующих институтов и членов университетских советов;
— подготовка институциональных репозиториев к использованию искусственного интеллекта, начиная с обеспечения переносимости данных.
«Бриллиантовый» открытый доступ относится к модели научных публикаций, при которой журналы и платформы не взимают плату ни с авторов, ни с читателей. Журналы Diamond Open Access представляют собой издательские инициативы, управляемые сообществом, академическими кругами и принадлежащие им. Эти журналы и платформы, обслуживая, как правило, небольшие, многоязычные и мультикультурные научные сообщества, воплощают концепцию библиоразнообразия.
УДК: 004:021 + 025:[002.1-021.341]
ГРНТИ: 13.31.19
DOI: 10.53377/lq.13657
Источник:
Статья Лай Ма (Lai Ma) «Платформизация научной информации и борьба с ней» (The Platformisation of Scholarly Information and How to Fight It) посвящена анализу ситуации в сфере научных публикаций. Автор заявляет, что контроль научно-исследовательской деятельности и академических публикаций со стороны определенного числа олигополистических компаний тормозит развитие движения за открытый доступ и нарушает этические принципы доступности информации и конфиденциальности. В последние годы вертикальная интеграция издательств и иных провайдеров информационных сервисов в цикл научно-исследовательской деятельности привела к так называемой платформизации, которая понимается как зависимость деятельности организаций и государственных структур, а также экономических процессов от цифровой платформы. Платформизация научно-издательской деятельности характеризуется «датафикацией» и товаризацией научной информации, подобно тому, как это происходит на платформах социальных сетей. К научным публикациям относятся как к сгенерированному пользователями контенту, используемому для отслеживания и контроля данных с целью получения на этой основе приносящих издательствам прибыль продуктов и разработки сервисов оценки результатов научной деятельности, эталонных тестов и отчетности.
Автор утверждает, что такие платформы, как Scopus и Web of Science в значительной степени контролируют научную информацию — или научное знание, — индексируя журналы/ издательства в своих базы данных или исключая из них. Авторитетность и обоснованность такого поведения как бы гарантируется существующей системой оценки результативности научной деятельности ученых, которая в большинстве стран оперирует наличием публикаций на этих платформах. Те же работы, которых нет на этих платформах, считаются менее качественными, а иногда даже хищническими. Между тем, надо помнить, что в названных базах данных представлены публикации на английском языке, а основным фактором оценки является цитирование и соответствующие метрики.
В большинстве своем ученые не имеют представления о бизнес-моделях, реализуемых коммерческими издательствами, не видят различия между зеленой, золотой и бриллиантовой моделями открытого доступа — по крайней мере, до тех пор, пока не сталкиваются с требованиями финансирующей стороны. И конечно же, ученые часто не имеют представления о том, какие гигантские прибыли получают некоторые из издательств.
В данной статье предложены четыре направления борьбы с платформизацией научной информации и рассмотрено их потенциальное влияние на библиоразнообразие, доступ к информации и конфиденциальность данных: (1) ознакомление ученых исследователей с принципами функционирования коммерческих издательств и систем управления процессами; (2) выделение бюджета библиотек на поддержку издательской деятельности как самих ученых, так и библиотек; (3) активное участие библиотек в развитии государственных научно-исследовательских организаций и реформировании авторского права; и (4) поддержка реформирования моделей оценки результатов научно-исследовательской деятельности.
Автор характеризует такие реализуемые модели развития инфраструктуры открытой науки, как DSpace, Fedora, Omeka, Open Journal Systems (OJS), the Digital Preservation Network, LOCKSS, Directory of Open Access Journals (DOAJ), CrossRef, а также организации, выступающие в их защиту, такие как SPARC и Конфедерация репозиториев открытого доступа (Confederation of Open Access Repositories). Кроме того, описаны платформы для открытого контента, например, ArXiv и Hathitrust, а также План развития модели бриллиантового доступа (Action Plan for Diamond Open Access), опубликованный. Ассоциацией Science Europe.
УДК: 021.6(100) + 34:02 + 347.78.03
ГРНТИ: 13.31.19, 13.31.20; 10.41.29
DOI: 10.53377/lq.13561
Источник: