Tibetan language.བོད་སྐད། - Telegram 频道 @tibetanlanguage 的统计与分析

1 520

+1

🦊 У Лисьей норы теперь есть сайт! Собирала его я сама на коленке, так что не ворчите, пожалуйста Что там уже есть: вся наша библиотека (300+ книг) с человеческим поиском — фильтры по Монголии/Тибету/Бурятии, темам и языкам, полки «с чего начать» и даже подбор по свободному описанию. Плюс раздел тибетской фонетики. Файлы книг по-прежнему живут в постах этого паблика, сайт даёт на них ссылки поскольку это бесплатно. Дальше по плану — тибетско-русско-английский словарь. 👉Заходите

1 520

Repost from Tibetan language.བོད་སྐད།

Тибетский язык #SR #roerich

1 520

Вступительная статья «Памяти Ю. Н. Рериха» из издания 1961 года была, по неизвестным причинам, исключена при переиздании.

1 520

+1

1 520

https://t.me/+cMlXlvIV0SQ4NmRi

1 520

Repost from Tibetan language.བོད་སྐད།

English-Tibetan-Chinese dictionary.2006

1 520

Repost from Tibetan language.བོད་སྐད།

+2

English-Tibetan-Chinese dictionary. 2006 File Index #dictionary #lo2006

1 520

Repost from N/a

1 520

Это важное сообщение, кто не согласен или не понял - тому лучше удалиться

1 520

https://thlib.org/terms/reference-resources/#/

1 520

Discover the Nyingmapa Calendar — track Tibetan auspicious days, practices & events! 🙏 https://play.google.com/store/apps/details?id=org.vajralotusfoundation.nyingmapacalendar

1 520

Nangchen Tashi Studio — Tibetan Heritage Apps · iOS App Developer https://nangchen.com/

1 520

tibetanOCRpipeline (2).png4.65 MB

1 520

В этой статье рассматриваются современные методы и инструменты для оптического распознавания символов (OCR) тибетского языка, что позволяет превращать изображения текстов в редактируемый и доступный для поиска формат Unicode. ### Основные инструменты и технологии Автор выделяет два основных движка для распознавания: Google Cloud Vision (коммерческий продукт Google) и Tesseract (движок с открытым исходным кодом). Оба инструмента отличаются высокой точностью и активно развиваются. Для обычных пользователей предлагается два основных приложения: 1. Google Drive / Google Docs: * Как использовать: Загрузите изображение или PDF в Google Drive, нажмите правой кнопкой мыши и выберите «Открыть с помощью > Google Docs». * Преимущества: Очень простой интерфейс; отлично справляется со смесью тибетского и английского языков. * Ограничения: Распознает только одну страницу за раз и не сохраняет исходный макет страницы, просто выводя текст под изображением. 2. OCRmyPDF: * Как использовать: Это консольная программа (командная строка), использующая движок Tesseract. Она добавляет в PDF-файл невидимый текстовый слой, делая его доступным для поиска. * Преимущества: Идеально подходит для целых книг и многостраничных документов. Позволяет исправлять наклон страниц и оптимизировать изображения. ### Решение проблемы старых кодировок Одной из главных проблем тибетских текстов являются файлы, созданные до появления стандарта Unicode. В таких PDF-файлах текст при копировании превращается в «кракозябры». Программа OCRmyPDF позволяет решить эту проблему с помощью функции --force-ocr. Она фактически перерисовывает текст в изображение и заново распознает его в Unicode. Это делает текст снова доступным для поиска, хотя и может значительно увеличить размер файла (иногда в десятки раз). Итог: Для быстрого извлечения текста из одной страницы лучше всего подходит Google Docs, а для создания полноценных электронных книг с возможностью поиска — OCRmyPDF.