ch
Feedback
Tibetan language.བོད་སྐད།

Tibetan language.བོད་སྐད།

前往频道在 Telegram
1 513
订阅者
无数据24 小时
+67
+1430
帖子存档
Discover the Nyingmapa Calendar — track Tibetan auspicious days, practices & events! 🙏 https://play.google.com/store/apps/details?id=org.vajralotusfoundation.nyingmapacalendar

Nangchen Tashi Studio — Tibetan Heritage Apps · iOS App Developer https://nangchen.com/

tibetanOCRpipeline (2).png4.65 MB

В этой статье рассматриваются современные методы и инструменты для оптического распознавания символов (OCR) тибетского языка, что позволяет превращать изображения текстов в редактируемый и доступный для поиска формат Unicode. ### Основные инструменты и технологии Автор выделяет два основных движка для распознавания: Google Cloud Vision (коммерческий продукт Google) и Tesseract (движок с открытым исходным кодом). Оба инструмента отличаются высокой точностью и активно развиваются. Для обычных пользователей предлагается два основных приложения: 1. Google Drive / Google Docs: * Как использовать: Загрузите изображение или PDF в Google Drive, нажмите правой кнопкой мыши и выберите «Открыть с помощью > Google Docs». * Преимущества: Очень простой интерфейс; отлично справляется со смесью тибетского и английского языков. * Ограничения: Распознает только одну страницу за раз и не сохраняет исходный макет страницы, просто выводя текст под изображением. 2. OCRmyPDF: * Как использовать: Это консольная программа (командная строка), использующая движок Tesseract. Она добавляет в PDF-файл невидимый текстовый слой, делая его доступным для поиска. * Преимущества: Идеально подходит для целых книг и многостраничных документов. Позволяет исправлять наклон страниц и оптимизировать изображения. ### Решение проблемы старых кодировок Одной из главных проблем тибетских текстов являются файлы, созданные до появления стандарта Unicode. В таких PDF-файлах текст при копировании превращается в «кракозябры». Программа OCRmyPDF позволяет решить эту проблему с помощью функции --force-ocr. Она фактически перерисовывает текст в изображение и заново распознает его в Unicode. Это делает текст снова доступным для поиска, хотя и может значительно увеличить размер файла (иногда в десятки раз). Итог: Для быстрого извлечения текста из одной страницы лучше всего подходит Google Docs, а для создания полноценных электронных книг с возможностью поиска — OCRmyPDF.

lobdeb.pdf24.24 MB

cover.jpg1.45 KB

2019.Mingyuan Shao.pdf1.40 MB

The-Torch-for-the-Definitive-Meaning.pdf

Folder.jpg0.67 KB

img_1_1724600242180.jpg0.31 KB

Folder.jpg0.37 KB