1 513
المشتركون
لا توجد بيانات24 ساعات
+67 أيام
+1430 أيام
أرشيف المشاركات
Discover the Nyingmapa Calendar — track Tibetan auspicious days, practices & events! 🙏
https://play.google.com/store/apps/details?id=org.vajralotusfoundation.nyingmapacalendar
Nangchen Tashi Studio — Tibetan Heritage Apps · iOS App Developer
https://nangchen.com/
В этой статье рассматриваются современные методы и инструменты для оптического распознавания символов (OCR) тибетского языка, что позволяет превращать изображения текстов в редактируемый и доступный для поиска формат Unicode.
### Основные инструменты и технологии
Автор выделяет два основных движка для распознавания: Google Cloud Vision (коммерческий продукт Google) и Tesseract (движок с открытым исходным кодом). Оба инструмента отличаются высокой точностью и активно развиваются.
Для обычных пользователей предлагается два основных приложения:
1. Google Drive / Google Docs:
* Как использовать: Загрузите изображение или PDF в Google Drive, нажмите правой кнопкой мыши и выберите «Открыть с помощью > Google Docs».
* Преимущества: Очень простой интерфейс; отлично справляется со смесью тибетского и английского языков.
* Ограничения: Распознает только одну страницу за раз и не сохраняет исходный макет страницы, просто выводя текст под изображением.
2. OCRmyPDF:
* Как использовать: Это консольная программа (командная строка), использующая движок Tesseract. Она добавляет в PDF-файл невидимый текстовый слой, делая его доступным для поиска.
* Преимущества: Идеально подходит для целых книг и многостраничных документов. Позволяет исправлять наклон страниц и оптимизировать изображения.
### Решение проблемы старых кодировок
Одной из главных проблем тибетских текстов являются файлы, созданные до появления стандарта Unicode. В таких PDF-файлах текст при копировании превращается в «кракозябры».
Программа OCRmyPDF позволяет решить эту проблему с помощью функции
--force-ocr. Она фактически перерисовывает текст в изображение и заново распознает его в Unicode. Это делает текст снова доступным для поиска, хотя и может значительно увеличить размер файла (иногда в десятки раз).
Итог: Для быстрого извлечения текста из одной страницы лучше всего подходит Google Docs, а для создания полноценных электронных книг с возможностью поиска — OCRmyPDF.Repost from Tibetan language.བོད་སྐད།
https://soundcloud.com/shambhala-publications/sets/learning-practical-tibetan @ sc
#colloquial #Bloomfield
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
