Девушка из Новосибирска создала приложение для расшифровки тибетских рукописей

В Новосибирске создали приложение для анализа тибетских текстов

17 июля 2025 в 11:43

В России

Девушка из Новосибирска создала приложение для расшифровки тибетских рукописей | В Новосибирске создали приложение для анализа тибетских текстов

Фото: freepik.com

Студентка Новосибирского государственного университета Анна Мурашкина разработала программное решение на основе машинного обучения, предназначенное для автоматической обработки и анализа классических тибетских текстов. Об этом сообщили в пресс-службе университета.

Как отметили в НГУ, новая платформа может стать важным инструментом для исследователей, архивистов и библиотекарей. Её внедрение поможет сохранить культурное наследие Тибета, включая памятники письменности, имеющие особую ценность для бурятского народа.

Работа велась в рамках научной деятельности в Институте вычислительной математики и математической геофизики СО РАН. В ходе исследования использовались изображения страниц тибетских текстов XVIII–XX веков из архивов Тибетского фонда Института монголоведения, буддологии и тибетологии СО РАН.

По словам автора проекта, старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве региона. Однако бумажные носители со временем разрушаются под воздействием внешних факторов, что ставит под угрозу сохранность тысяч документов.

«На данный момент в коллекции хранится около 70 тысяч единиц хроники, которые могут быть утрачены. Один из самых эффективных способов их сохранить — это оцифровка», — рассказала Мурашкина.

Для повышения точности распознавания тибетских символов она применила технологии машинного обучения. Сначала была выполнена лингвистическая разметка текстов, затем разработана специализированная система оценки качества OCR-распознавания. После сравнения существующих решений был выбран подходящий формат сверточной нейросети, который дорабатывался под конкретную задачу.

В результате удалось создать полноценный модульный алгоритм оптического распознавания, включающий предобработку, сегментацию, само распознавание и постобработку данных.