Machinelearning

Kanalga Telegram’da o‘tish

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya1 275 Texnologiyalar & Aralashmalar329...

📈 Telegram kanali Machinelearning analitikasi

Machinelearning (@ai_machinelearning_big_data) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 296 260 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 329-o'rinni va Rossiya mintaqasida 1 275-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 296 260 obunachiga ega bo‘ldi.

20 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -6 181 ga, so‘nggi 24 soatda esa -161 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.10% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.73% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 24 014 marta ko‘riladi; birinchi sutkada odatda 16 967 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 187 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent openai, claude, api, gemini, контекст kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 21 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

296 260

Obunachilar

-16124 soatlar

-1 4287 kunlar

-6 18130 kunlar

24 014

Post ko'rishlar

~ 16 96724 soatlar

~ 19 11248 soatlar

8.10%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

296 190

🌟 MatAnyone: модель для выделения по маске людей на видео. MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре. MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана. При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей. Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео. В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео: 🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы); 🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63. ⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал. ▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py

📌Лицензирование: S-Lab License 1.0. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #VideoMatte #MatAnyone

296 190

🔥 Как я ускорил обработку данных с помощью ИИ! 💡 Недавно потребовалось быстро обработать большой массив текстовых данных — тысячи клиентских отзывов, из которых требовалось извлекать ключевые темы и анализировать настроение. Обычные методы занимали слишком много времени, а готовые решения не подходили под специфику данных. Без нейросети не обойтись, хотелось найти способ запустить её без долгой настройки и сложного погружения в инфраструктуру. Попробовал сделать это в Foundation Models в Yandex Cloud. Новая фича в сервисе позволяет запускать готовые модели, включая LLaMa, Qwen, DeepSeek и другие, без необходимости настраивать серверы. Я выбрал одну из нейросетей, загрузил данные — и уже через пару минут получил первые результаты. Для финальной доработки там же использовал метод LoRA, чтобы адаптировать нейросеть под мою задачу. В результате модель начала не просто сортировать отзывы по тональности, но и выделять нужные детали в строгом формате, такие как упоминания конкретных товаров и частых проблем. Дообучение заняло не больше 10 минут. Сам факт, что теперь можно запустить нейросеть и быстро адаптировать её под нужды бизнеса, серьёзно меняет подход к обработке данных. 🔗 Попробовать Foundation Models можно тут, а дообучение с LoRA здесь

296 190

https://github.com/THU-KEG/Agentic-Reward-ModelingAgentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем. Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей. Основные особенности: - Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели. - Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений. - Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий. Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения. ▪Paper: https://arxiv.org/abs/2502.19328 ▪Code: https://github.com/THU-KEG/Agentic-Reward-Modeling @ai_machinelearning_big_data #ai #ml #opnesource #agents #aiagents

296 190

Можете представить, как запрограммировать робота так, чтобы он безопасно передвигался по огромному складу? В складской логистике роботы работают бок о бок с людьми, поэтому их маршруты, правила передвижения и поведения должны быть продуманы до мелочей. Роботы Яндекс Роботикс, например, ориентируются в пространстве с помощью двух систем. В одних складах помогают QR-коды на полу: проехал, считал и подкорректировал маршрут. В других — лидар. Он собирает и передает данные для построения топологии склада, чтобы роботы могли ориентироваться среди людей и техники. Как это всё реализовано и какой путь прошла команда, чтобы наладить такую сложную систему? Какие ещё технологии лежат в её основе? Об этом (и многом другом) пишет Ваня Калинов — руководитель команды, создающей складских роботов.

296 190

✔️ Deepseek DualPipe: алгоритм параллелизма для обучения LLM. Deepseek в рамках марафона "5 дней opensource-проектов" опубликовал проект DualPipe. Это алгоритм двунаправленного конвейерного параллелизма для повышения эффективности обучения больших языковых моделей. DualPipe совмещает вычисления и передачу данных в процессе обучения за счет одновременного выполнения прямого и обратного проходов, тем самым нивелирует периоды простоя или неэффективного использования вычислительных ресурсов. С помощью этого алгоритма обучались Deepseek V3 и R1 и теперь он в доступен под лицензией MIT. Подробности и примеры использования - в репозитории deepseek-ai/DualPipe на GitHub. Deepseek в X (Twitter) ✔️ Ideogram 2a: релиз новой text-to-image модели. Ideogram выпустила новую модель - Ideogram 2a, которая. по заверению создателей, обещает стать самой быстрой и экономичной разработкой компании, позволяя создавать высококачественную графику с текстом и фотореалистичные изображения всего за несколько секунд. Стоимость Ideogram 2a на 50% ниже, чем у ее предшественника, Ideogram 2.0. Модель доступна как в веб-сервисе Ideogram, так и через API. Ideogram в X (Twitter) ✔️ Claude получила интеграцию с Github и обновление tool use. Алекс Альберт, руководитель отдела по связям с клиентами Antropic, в X сообщил, что интеграция GitHub с Claude теперь открыта для всех пользователей. Помимо этого, новейшая модель 3.7 Sonnet сегодня получила более эффективную реализацию использования инструментов - теперь она использует в среднем на 14% меньше токенов и показывает заметное улучшение производительности. Обновление имеет заголовок token-efficient-tools-2025-02-19. Alex Albert в X (Twitter) ✔️ Mercury Coder - первая коммерческая диффузионная LLM-модель. Inception Labs представила Mercury Coder, diffusion large language models (dLLM), которая обещает перевернуть представление о скорости и эффективности. dLLM, по словам разработчиков, до 10 раз быстрее и дешевле существующих LLM. Утверждается, что Mercury Coder способна обрабатывать более 1000 токенов в секунду на NVIDIA H100s. В отличие от традиционных LLM, dLLM не ограничены последовательным созданием текста, что позволяет им лучше рассуждать и структурировать ответы. В бенчмарках на Copilot Arena Mercury Coder Mini занял 2 место, превзойдя GPT-4o Mini и Gemini-1.5-Flash. Inception Labs предлагает доступ к инференсу через API и on-premise развертывания, заявлена поддержка файнтюнинга. Попробовать можно бесплатно в плейграунде. inceptionlabs.ai ✔️ Cloudflare на защите ИИ: релиз Guardrails в AI Gateway. Cloudflare представила Guardrails в AI Gateway – решение, созданное, чтобы сделать использование ИИ более безопасным и предсказуемым. Инструмент выступает в роли "модератора", контролирующего взаимодействие пользователей с онлайн ИИ моделями OpenAI, Anthropic и DeepSeek. Guardrails анализирует запросы пользователей и ответы моделей на предмет нежелательного контента, используя Llama Guard. Система может блокировать или помечать опасные запросы и ответы, обеспечивая соответствие нормативным требованиям и защиту от репутационных рисков. blog.cloudflare.com ✔️ В плагине Material Theme для VS Code обнаружен вредоносный код. Пользователи сообщества VS Code провели анализ и обнаружили, что Material Theme содержит вредоносный код, это подтвердили и эксперты по безопасности Microsoft, которые определили, что плагин содержит бэкдоры. В настоящее время VS Code удалил плагин из маркета и попросил всех его пользователей немедленно деинсталлировать Material Theme из соображений безопасности. Разработчик плагина был заблокирован. Сообщений о возможном сборе данных и последствиях злонамеренного вторжения пока не поступало. news.ycombinator.com @ai_machinelearning_big_data #news #ai #ml

296 190

✔️ 5 день недели опенсорса: и новый релиз от DeepSeek DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей. ▶️ Это решение показывает впечатляющие результаты: • 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере • 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере • 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1). Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей. В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации. ▪3FS → github.com/deepseek-ai/3FS ▪Smallpond → github.com/deepseek-ai/smallpond #OpenSourceWee #DeepSeek #Smallpond #3FS #opensource

296 190

виде: ⚡️Вышвл GPT-4.5 Главное: - Универсальная модель: подходит как для креативных, так и для повседневных задач. - Нейронка может грубить: если попросить, chatgp сможет быть очень грубым ( привет Grok) - Значительное улучшение в общении: Сэм Альтман отметил, что это первая модель, с которой он чувствует себя так, словно общается с внимательным человеком. - Масштабный прогресс: в три раза точнее обрабатывает факты и почти в три раза реже допускает ошибки по сравнению с GPT-4. И

296 190

🌟 Llama3-SWE-RL: Методика обучения LLM для задач разработки ПО с использованием RL. SWE-RL – техника обучения LLM для задач разработки программного обеспечения с применением обучения с подкреплением на данных открытых репозиториев Github. Llama3-SWE-RL наделяет навыкам ризонинга, улучшая результаты на задачах вне общего домена кодинга: функциональное программирование, использование библиотек, планирование кода, математические операции и NLP. В отличие от SFT, SWE-RL позволяет модели улучшать свои общие способности рассуждения. Пайплайн методики состоит из последовательности этапов: 🟢Первый этап - сбор, модерация и агрегирование pull requests из публичных репозиториев Github, разметка и преобразование этого массива в датасет (описание проблемы-контекст кода - "oracle patch")

Oracle patch - это эталонный вариант исправления кода, используемый для обучения и оценки языковых моделей в задачах, связанных с автоматическим решением проблем в программном обеспечении

🟢Второй этап: обучение LLM навыкам генерации кода на основе задачи и контекста, расчет поощрения для RL (тут используют similarity score между инференсом модели и "oracle patch" с использованием difflib.SequenceMatcher. Неверные ответы получают отрицательный reward) 🟢Третий этап: корректировка и оптимизация политики обучения с помощью GPRO. Тестовая модель Llama3-SWE-RL-70B, обученная на основе Llama-3.3-70B-Instruct с использованием SWE-RL, показала 41.0% solve rate на SWE-bench Verified, это лучший показатель среди моделей среднего размера (<100B) и сопоставимо с результатом GPT-4o. Прикладная реализация SWE-RL доступна в репозитории проекта, где разработчиками представлены шаблоны промптов и реализация функции вознаграждения на основе сходства последовательностей. ▶️ Локальная установка с примером использования в проекте:

# Install SWE-RL
git clone https://github.com/facebookresearch/swe-rl && cd swe-rl
pip install -e ".[dev]"
pytest

# example on how you can use the reward function in your own project:
import swerl

file = """
def sort_list(lst):
    return sorted(lst)
""".strip()

oracle_file = """
def sort_list(lst: list[int]) -> list[int]:
    return sorted(lst)
""".strip()

context = {"example.py": file}
oracle = {"example.py": oracle_file}

output = """
<think>
...thoughts by LLM
</think>
<solution>
```python
### example.py
<<<<<<< SEARCH
def sort_list(lst):
=======
def sort_list(lst: list[int]) -> list[int]:
>>>>>>> REPLACE
</solution>
""".strip()

reward, metadata = swerl.core.reward.calculate_search_replace_reward(context, oracle, output)
assert reward == 1.0
print(metadata)

📌Лицензирование: CC-NC-4.0 License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #RL #SWERL

296 190

Yandex B2B Tech запустил SourceCraft - российский аналог GitLab для разработки программных продуктов Платформа объединяет среду для совместной разработки, интеллектуальную навигацию по коду и встроенный AI-ассистент. Он помогает быстрее находить нужные фрагменты, исправлять ошибки и дополнять код, поддерживая более 30 языков программирования, включая Python, Java, C++ и Go. Предусмотрена интеграция с облаком. Проект можно развернуть по нажатию кнопки, а в будущем появится возможность работать с on-premise версией, что особенно важно для компаний с высокими требованиями к безопасности. Вскоре в SourceCraft будут доступны инструменты защиты данных, сканирования секретов и поиска уязвимостей в цепочках поставок. Система автоматизации CI/CD позволяет гибко настраивать процессы сборки и релизов. Это актуально для компаний, которые работают в условиях постоянного обновления продуктов. Благодаря накопленному опыту Яндекса, платформа масштабируема и способна выдерживать очень большие репозитории. 🔗 Платформа SourceCraft уже тестируется и доступна по заявке.

296 190

✔️ ElevenLabs представили новую функцию для преобразования аудио в текст, которая действительно впечатляет! ElevenLabs представила Scribe — своё первое решение для преобразования речи в текст, которое уже завоевало звание лидера по точности в этой области. В независимых тестах Scribe достигла Word Error Rate всего 7.7%, что значительно лучше результатов Whisper v2 и v3 (~10%). Scribe поддерживает 99 языков, включая русский. Основные преимущества: - Отличное различение голосов разных спикеров - Возможность экспорта результатов в самые популярные форматы, включая SRT для субтитров на YouTube - Бесплатное использование доступно до 9 апреля 💰 Ценообразование: Scribe относится к премиум-классу и стоит 6,67 долл. за 1 тыс. минут аудио, что значительно ниже, чем у Hyperscaler, но выше, чем у Whisper. ▪Бенчмарки: https://artificialanalysis.ai/speech-to-text ▪ Потестить можно здесь: https://elevenlabs.io/speech-to-text #ElevenLabs #tts

296 190

✔️ OpenAI открыла доступ к Advanced Voice для всех. С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах. Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита. OpenAI в X ✔️ Microsoft Copilot voice и deepthink теперь бесплатны и не имеют ограничений. Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце. microsoft.com ✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями. Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи. Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса. В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%). hume.ai ✔️DeepSeek снижает цены на использование своих AI-моделей в непиковые часы. DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно. reuters.com ✔️ SSD Samsung Pro-серии Gen 5 PCIe поступят в продажу в марте. Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США). Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0. news.samsung.com ✔️ Свежий релиз Microsoft Phi‑4 mini instruct — это компактная, оптимизированная модель на 3.8 млрд параметров, оптимизированная для вычислительно ограниченных сред Hf @ai_machinelearning_big_data #news #ai #ml #microsoft #openai #DeepSeek

296 190

Какие методы машинного обучения применяются для дизайна белков? Расскажем на открытом уроке, посвященному курсу «Искусственный интеллект в медицине» Узнаете, как современные алгоритмы помогают моделировать, предсказывать и оптимизировать структуру и функции белков. Разберете основные подходы, включая языковые модели для белковых последовательностей и методы генеративного дизайна. ✅ Практика: Знакомство с современными инструментами и библиотеками, используемыми в белковой инженерии 👉 Регистрация и подробности: https://otus.pw/aX6dI/?erid=2W5zFJSx7Fv #реклама О рекламодателе

296 190

🌟 olmOCR: инструмент для обработки PDF-документов. olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах. olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач. Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема. Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы. В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU. ▶️Релиз olmOCR: 🟢Модель olmOCR-7B-0225-preview - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225; 🟢Датасет olmOCR-mix-0225 - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы. 🟢Набор кода для инференса и обучения. ▶️Рекомендованная среда для инференса: 🟠NVIDIA GPU (RTX 4090 и выше) 🟠30 GB свободного пространства на SSD \ HDD 🟠установленный пакет poppler-utils 🟠sglang с flashinfer для GPU-инференса ▶️Локальная установка и запуск:

# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env 
conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Demo 🟡Модель 🟡Arxiv 🟡Сообщество в Discord 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #OCR #Olmocr

296 190

📌Открытый вебинар «MLFlow — полный контроль над ML-экспериментами» 📚Вы узнаете: 1️⃣ Что такое MLFlow и какие компоненты он содержит; 2️⃣ Как отслеживать и управлять экспериментами с помощью MLFlow; 3️⃣ Как интегрировать MLFlow в ваш ML-пайплайн и ускорить вывод моделей в продакшн; 4️⃣ Возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость; 5️⃣ Как эффективно работать с артефактами и версиями моделей. 🎁 Проведем живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект! Спикер: Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд. 📅 Дата: 27 февраля в 20:00 (мск) 🆓 Бесплатно. Вебинар в рамках курса «MLOps» 👉 Регистрация открыта: https://otus.pw/YwNm/?erid=2W5zFJ62YM6 #реклама О рекламодателе

296 190

⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном агентском решении. Чем полезен инструмент: - Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой. Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений. - ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование. Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами). Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео. Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи. Минусы: - На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях. - Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками. Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения. В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе. pip install torchvision Pillow open_clip_torch https://huggingface.co/microsoft/Magma-8B #microsoft #magma #multimodal

296 190

📌 Llama3 from scratch: расширенная версия Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом. Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3. ▶️Изменения и улучшения в этом форке: 🟢Последовательность изложения материала была изменена, скорректирована структура чтобы сделать процесс обучения более прозрачным, помогая понимать код шаг за шагом; 🟢Добавлено большое количество подробных аннотаций к коду; 🟢Изменения размеров матрицы на каждом этапе вычислений полностью аннотированы; 🟢Добавлены подробные пояснения к принципам, чтобы в полной мере можно было освоить концепцию дизайна модели. 🟢Добавлена дополнительная глава, посвященная KV-сache, в которой подробно описаны основные концепции, принципы работы и процесс применения механизма внимания. 📌Лицензирование: MIT License. 🔜 Репозиторий на Github @ai_machinelearning_big_data #AI #ML #LLM #Tutorial #Github

296 190

🔥🔥🔥 ML-инженер в 2025 году: навыки, тренды, спрос 26 февраля в 18:00 (мск) основатель karpov. courses Анатолий Карпов и сооснователь AI Talent Hub Дмитрий Ботов расскажут: — как изменилась ML-индустрия за год и что будет в тренде в 2025-м; — как ML трансформирует бизнес, в частности FinTech и ритейл; — какие навыки нужны ML-инженерам для продвижения в карьере; — чем примечательна программа от karpov. courses и ИТМО. Регистрация по ссылке. @ai_machinelearning_big_data #ai #ml #machinelearning #news Реклама. Университет ИТМО ИНН:7813045547 erid:2VtzqvPWg6a

296 190

✔️ OpenAI запускает deep research. OpenAI полностью откроет улучшенную и обновленную функцию deep research для пользователей ChatGPT Plus, Team, Edu и Enterprise. Вместе с анонсом опубликована карта deep research системы, в которой подробно рассказывается о том, как OpenAI проводили глубокие исследования, оценивали их возможности и риски, а также повышали уровень безопасности. Новая версия поддерживает обработку изображений и улучшает возможности понимания и цитирования загруженных файлов. Пользователи Plus, Team, Enterprise и Edu могут использовать 10 deep research запросов в месяц, а на тарифе Pro месячная квота составит 120 запросов. OpenAI в X ✔️ Nvidia подтверждает наличие производственных дефектов у RTX 5080. Nvidia подтвердила, что RTX 5080 имеют недостаточное количество блоков рендеринга на некоторых чипах из-за производственных дефектов, что приводит к усредненному падению производительности примерно на 4%. Ранее компания только заявляла, что проблема наблюдается только с RTX 5090, 5090D и 5070 Ti. Бен Беллиондо, директор по глобальным коммуникациям Nvidia GeForce, сообщил, что у ранних моделей RTX 5080 был «редкий» дефект (затронувший менее 0,5%), но на производительность с ИИ и вычисления он не повлиял. Он пояснил, что RTX 5070 не были затронуты, и признал, что компания не обнаружила дефект до выпуска, но производственная проблема была решена. theverge.com ✔️ Apple планирует построить завод по производству серверов для ИИ. Apple планирует построить завод по производству микросхем в Хьюстоне (Техас) для производства серверов с искусственным интеллектом, оснащенных высокопроизводительными чипами M5. Завод будет построен в сотрудничестве с Foxconn и, как ожидается, будет введен в эксплуатацию в 2026 году. Его площадь составит 23 тыс. кв.м. macrumors.com ✔️ DeepSeek спешит выпустить новую модель R2. DeepSeek ускорит выпуск своей новой модели R2, которая, как ожидается, превзойдет многих западных конкурентов. Этот шаг может усилить конкуренцию на мировом рынке ИИ и заставить американские компании пересмотреть свои стратегии. DeepSeek планировала выпустить R2 в мае, но теперь стремится сделать это как можно скорее. Компания утверждает, что новая модель будет лучше в программировании и сможет рассуждать на разных языках, а не только на английском. reuters.com ✔️ Cisco и NVIDIA объединяют усилия для ускорения внедрения ИИ в корпоративном секторе. Cisco и NVIDIA объявили о расширении партнерства, направленного на упрощение создания сетей для ЦОДов, готовых к работе с ИИ. В рамках сотрудничества компании планируют разработать единую архитектуру, которая объединит технологии Cisco Silicon One и NVIDIA SuperNICs в платформе NVIDIA Spectrum-X. Это сделает Cisco единственным партнером, чьи решения будут интегрированы в Spectrum-X. Новая инициатива позволит клиентам стандартизировать использование технологий Cisco и NVIDIA в своих центрах обработки данных тем самым упростит управление сетями как для предприятий, так и для облачных провайдеров. Ожидается, что первые обновления, включающие совместимость с Spectrum-X, появятся в середине 2025 года. Это позволит клиентам воспользоваться преимуществами технологий адаптивной маршрутизация, телеметрии и низкой задержки пакетов в сетях. newsroom.cisco.com ✔️Copilot теперь доступен бесплатно и без ограничений — Microsoft предоставила полный доступ к голосовым функциям Voice и режиму размышлений Think Deeper. В основе сервиса лежат модели o1 от OpenAI. @ai_machinelearning_big_data #news #ai #ml

296 190

erid: 2W5zFJt6CkY Практический вебинар для ML-специалистов по автоматической обработке текстов📝 Приходите на прямой эфир 27 февраля в 18:00, где: — обсудим, что представляют из себя методы векторных представлений слов и как их применяют для решения задач NLP — подробно изучим алгоритмы FastText & W2V — на практике с минимальными ресурсами решим задачу классификации текстов Урок приурочен к старту онлайн-курса «Machine Learning. Professional» в OTUS и будет полезен IT-специалистам, которые хотят освоить продвинутые методы ML. ➡️ Участвовать в вебинаре бесплатно: https://otus.pw/9CAV/ #реклама О рекламодателе

296 190

🌟 Платформу для работы с открытым кодом GitVerse интегрировали в RuStore Благодаря специальному расширению цикл разработки и доставка обновлений существенно ускоряются: теперь разработчики могут напрямую публиковать созданные на GitVerse мобильные приложения. Теперь достаточно встроить автоматизированный этап в CI/CD-конвейер и отправить приложение на модерацию через консоль RuStore или API. Кроме того, для запуска сборки теперь нужен всего один клик. Новые функции не требуют локальных настроек и значительно уменьшают вероятность ошибок. ▶В GitVerse можно организовать разработку любых проектов: платформа позволяет писать и проверять код, автоматизировать CI/CD-процессы, управлять задачами и вести документацию. При этом с рутинными задачами по написанию и проверке кода может помочь ИИ-ассистент платформы GigaCode. @ai_machinelearning_big_data #RuStore #GitVerse