Как отметили в НГУ, новая платформа может стать важным инструментом для исследователей, архивистов и библиотекарей. Её внедрение поможет сохранить культурное наследие Тибета, включая памятники письменности, имеющие особую ценность для бурятского народа.
Работа велась в рамках научной деятельности в Институте вычислительной математики и математической геофизики СО РАН. В ходе исследования использовались изображения страниц тибетских текстов XVIII–XX веков из архивов Тибетского фонда Института монголоведения, буддологии и тибетологии СО РАН.
По словам автора проекта, старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве региона. Однако бумажные носители со временем разрушаются под воздействием внешних факторов, что ставит под угрозу сохранность тысяч документов.
«На данный момент в коллекции хранится около 70 тысяч единиц хроники, которые могут быть утрачены. Один из самых эффективных способов их сохранить — это оцифровка», — рассказала Мурашкина.
Для повышения точности распознавания тибетских символов она применила технологии машинного обучения. Сначала была выполнена лингвистическая разметка текстов, затем разработана специализированная система оценки качества OCR-распознавания. После сравнения существующих решений был выбран подходящий формат сверточной нейросети, который дорабатывался под конкретную задачу.
В результате удалось создать полноценный модульный алгоритм оптического распознавания, включающий предобработку, сегментацию, само распознавание и постобработку данных.