Machinelearning

Ir al canal en Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Red:Machinelearning Rusia1 275 Tecnologías y Aplicaciones329...

📈 Análisis del canal de Telegram Machinelearning

El canal Machinelearning (@ai_machinelearning_big_data) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 296 260 suscriptores, ocupando la posición 329 en la categoría Tecnologías y Aplicaciones y el puesto 1 275 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 296 260 suscriptores.

Según los últimos datos del 20 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -6 181, y en las últimas 24 horas de -161, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.10%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.73% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 24 014 visualizaciones. En el primer día suele acumular 16 967 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 187.
Intereses temáticos: El contenido se centra en temas clave como openai, claude, api, gemini, контекст.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 21 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

296 260

Suscriptores

-16124 horas

-1 4287 días

-6 18130 días

24 014

Visitas de la publicación

~ 16 96724 horas

~ 19 11248 horas

8.10%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

296 190

🌟 MatAnyone: модель для выделения по маске людей на видео. MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре. MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана. При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей. Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео. В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео: 🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы); 🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63. ⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал. ▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py

📌Лицензирование: S-Lab License 1.0. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #VideoMatte #MatAnyone

296 190

🔥 Как я ускорил обработку данных с помощью ИИ! 💡 Недавно потребовалось быстро обработать большой массив текстовых данных — тысячи клиентских отзывов, из которых требовалось извлекать ключевые темы и анализировать настроение. Обычные методы занимали слишком много времени, а готовые решения не подходили под специфику данных. Без нейросети не обойтись, хотелось найти способ запустить её без долгой настройки и сложного погружения в инфраструктуру. Попробовал сделать это в Foundation Models в Yandex Cloud. Новая фича в сервисе позволяет запускать готовые модели, включая LLaMa, Qwen, DeepSeek и другие, без необходимости настраивать серверы. Я выбрал одну из нейросетей, загрузил данные — и уже через пару минут получил первые результаты. Для финальной доработки там же использовал метод LoRA, чтобы адаптировать нейросеть под мою задачу. В результате модель начала не просто сортировать отзывы по тональности, но и выделять нужные детали в строгом формате, такие как упоминания конкретных товаров и частых проблем. Дообучение заняло не больше 10 минут. Сам факт, что теперь можно запустить нейросеть и быстро адаптировать её под нужды бизнеса, серьёзно меняет подход к обработке данных. 🔗 Попробовать Foundation Models можно тут, а дообучение с LoRA здесь

296 190

https://github.com/THU-KEG/Agentic-Reward-ModelingAgentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем. Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей. Основные особенности: - Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели. - Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений. - Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий. Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения. ▪Paper: https://arxiv.org/abs/2502.19328 ▪Code: https://github.com/THU-KEG/Agentic-Reward-Modeling @ai_machinelearning_big_data #ai #ml #opnesource #agents #aiagents

296 190

Можете представить, как запрограммировать робота так, чтобы он безопасно передвигался по огромному складу? В складской логистике роботы работают бок о бок с людьми, поэтому их маршруты, правила передвижения и поведения должны быть продуманы до мелочей. Роботы Яндекс Роботикс, например, ориентируются в пространстве с помощью двух систем. В одних складах помогают QR-коды на полу: проехал, считал и подкорректировал маршрут. В других — лидар. Он собирает и передает данные для построения топологии склада, чтобы роботы могли ориентироваться среди людей и техники. Как это всё реализовано и какой путь прошла команда, чтобы наладить такую сложную систему? Какие ещё технологии лежат в её основе? Об этом (и многом другом) пишет Ваня Калинов — руководитель команды, создающей складских роботов.

296 190

✔️ Deepseek DualPipe: алгоритм параллелизма для обучения LLM. Deepseek в рамках марафона "5 дней opensource-проектов" опубликовал проект DualPipe. Это алгоритм двунаправленного конвейерного параллелизма для повышения эффективности обучения больших языковых моделей. DualPipe совмещает вычисления и передачу данных в процессе обучения за счет одновременного выполнения прямого и обратного проходов, тем самым нивелирует периоды простоя или неэффективного использования вычислительных ресурсов. С помощью этого алгоритма обучались Deepseek V3 и R1 и теперь он в доступен под лицензией MIT. Подробности и примеры использования - в репозитории deepseek-ai/DualPipe на GitHub. Deepseek в X (Twitter) ✔️ Ideogram 2a: релиз новой text-to-image модели. Ideogram выпустила новую модель - Ideogram 2a, которая. по заверению создателей, обещает стать самой быстрой и экономичной разработкой компании, позволяя создавать высококачественную графику с текстом и фотореалистичные изображения всего за несколько секунд. Стоимость Ideogram 2a на 50% ниже, чем у ее предшественника, Ideogram 2.0. Модель доступна как в веб-сервисе Ideogram, так и через API. Ideogram в X (Twitter) ✔️ Claude получила интеграцию с Github и обновление tool use. Алекс Альберт, руководитель отдела по связям с клиентами Antropic, в X сообщил, что интеграция GitHub с Claude теперь открыта для всех пользователей. Помимо этого, новейшая модель 3.7 Sonnet сегодня получила более эффективную реализацию использования инструментов - теперь она использует в среднем на 14% меньше токенов и показывает заметное улучшение производительности. Обновление имеет заголовок token-efficient-tools-2025-02-19. Alex Albert в X (Twitter) ✔️ Mercury Coder - первая коммерческая диффузионная LLM-модель. Inception Labs представила Mercury Coder, diffusion large language models (dLLM), которая обещает перевернуть представление о скорости и эффективности. dLLM, по словам разработчиков, до 10 раз быстрее и дешевле существующих LLM. Утверждается, что Mercury Coder способна обрабатывать более 1000 токенов в секунду на NVIDIA H100s. В отличие от традиционных LLM, dLLM не ограничены последовательным созданием текста, что позволяет им лучше рассуждать и структурировать ответы. В бенчмарках на Copilot Arena Mercury Coder Mini занял 2 место, превзойдя GPT-4o Mini и Gemini-1.5-Flash. Inception Labs предлагает доступ к инференсу через API и on-premise развертывания, заявлена поддержка файнтюнинга. Попробовать можно бесплатно в плейграунде. inceptionlabs.ai ✔️ Cloudflare на защите ИИ: релиз Guardrails в AI Gateway. Cloudflare представила Guardrails в AI Gateway – решение, созданное, чтобы сделать использование ИИ более безопасным и предсказуемым. Инструмент выступает в роли "модератора", контролирующего взаимодействие пользователей с онлайн ИИ моделями OpenAI, Anthropic и DeepSeek. Guardrails анализирует запросы пользователей и ответы моделей на предмет нежелательного контента, используя Llama Guard. Система может блокировать или помечать опасные запросы и ответы, обеспечивая соответствие нормативным требованиям и защиту от репутационных рисков. blog.cloudflare.com ✔️ В плагине Material Theme для VS Code обнаружен вредоносный код. Пользователи сообщества VS Code провели анализ и обнаружили, что Material Theme содержит вредоносный код, это подтвердили и эксперты по безопасности Microsoft, которые определили, что плагин содержит бэкдоры. В настоящее время VS Code удалил плагин из маркета и попросил всех его пользователей немедленно деинсталлировать Material Theme из соображений безопасности. Разработчик плагина был заблокирован. Сообщений о возможном сборе данных и последствиях злонамеренного вторжения пока не поступало. news.ycombinator.com @ai_machinelearning_big_data #news #ai #ml

296 190

✔️ 5 день недели опенсорса: и новый релиз от DeepSeek DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей. ▶️ Это решение показывает впечатляющие результаты: • 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере • 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере • 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1). Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей. В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации. ▪3FS → github.com/deepseek-ai/3FS ▪Smallpond → github.com/deepseek-ai/smallpond #OpenSourceWee #DeepSeek #Smallpond #3FS #opensource

296 190

виде: ⚡️Вышвл GPT-4.5 Главное: - Универсальная модель: подходит как для креативных, так и для повседневных задач. - Нейронка может грубить: если попросить, chatgp сможет быть очень грубым ( привет Grok) - Значительное улучшение в общении: Сэм Альтман отметил, что это первая модель, с которой он чувствует себя так, словно общается с внимательным человеком. - Масштабный прогресс: в три раза точнее обрабатывает факты и почти в три раза реже допускает ошибки по сравнению с GPT-4. И

296 190

🌟 Llama3-SWE-RL: Методика обучения LLM для задач разработки ПО с использованием RL. SWE-RL – техника обучения LLM для задач разработки программного обеспечения с применением обучения с подкреплением на данных открытых репозиториев Github. Llama3-SWE-RL наделяет навыкам ризонинга, улучшая результаты на задачах вне общего домена кодинга: функциональное программирование, использование библиотек, планирование кода, математические операции и NLP. В отличие от SFT, SWE-RL позволяет модели улучшать свои общие способности рассуждения. Пайплайн методики состоит из последовательности этапов: 🟢Первый этап - сбор, модерация и агрегирование pull requests из публичных репозиториев Github, разметка и преобразование этого массива в датасет (описание проблемы-контекст кода - "oracle patch")

Oracle patch - это эталонный вариант исправления кода, используемый для обучения и оценки языковых моделей в задачах, связанных с автоматическим решением проблем в программном обеспечении

🟢Второй этап: обучение LLM навыкам генерации кода на основе задачи и контекста, расчет поощрения для RL (тут используют similarity score между инференсом модели и "oracle patch" с использованием difflib.SequenceMatcher. Неверные ответы получают отрицательный reward) 🟢Третий этап: корректировка и оптимизация политики обучения с помощью GPRO. Тестовая модель Llama3-SWE-RL-70B, обученная на основе Llama-3.3-70B-Instruct с использованием SWE-RL, показала 41.0% solve rate на SWE-bench Verified, это лучший показатель среди моделей среднего размера (<100B) и сопоставимо с результатом GPT-4o. Прикладная реализация SWE-RL доступна в репозитории проекта, где разработчиками представлены шаблоны промптов и реализация функции вознаграждения на основе сходства последовательностей. ▶️ Локальная установка с примером использования в проекте:

# Install SWE-RL
git clone https://github.com/facebookresearch/swe-rl && cd swe-rl
pip install -e ".[dev]"
pytest

# example on how you can use the reward function in your own project:
import swerl

file = """
def sort_list(lst):
    return sorted(lst)
""".strip()

oracle_file = """
def sort_list(lst: list[int]) -> list[int]:
    return sorted(lst)
""".strip()

context = {"example.py": file}
oracle = {"example.py": oracle_file}

output = """
<think>
...thoughts by LLM
</think>
<solution>
```python
### example.py
<<<<<<< SEARCH
def sort_list(lst):
=======
def sort_list(lst: list[int]) -> list[int]:
>>>>>>> REPLACE
</solution>
""".strip()

reward, metadata = swerl.core.reward.calculate_search_replace_reward(context, oracle, output)
assert reward == 1.0
print(metadata)

📌Лицензирование: CC-NC-4.0 License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #RL #SWERL

296 190

Yandex B2B Tech запустил SourceCraft - российский аналог GitLab для разработки программных продуктов Платформа объединяет среду для совместной разработки, интеллектуальную навигацию по коду и встроенный AI-ассистент. Он помогает быстрее находить нужные фрагменты, исправлять ошибки и дополнять код, поддерживая более 30 языков программирования, включая Python, Java, C++ и Go. Предусмотрена интеграция с облаком. Проект можно развернуть по нажатию кнопки, а в будущем появится возможность работать с on-premise версией, что особенно важно для компаний с высокими требованиями к безопасности. Вскоре в SourceCraft будут доступны инструменты защиты данных, сканирования секретов и поиска уязвимостей в цепочках поставок. Система автоматизации CI/CD позволяет гибко настраивать процессы сборки и релизов. Это актуально для компаний, которые работают в условиях постоянного обновления продуктов. Благодаря накопленному опыту Яндекса, платформа масштабируема и способна выдерживать очень большие репозитории. 🔗 Платформа SourceCraft уже тестируется и доступна по заявке.

296 190

✔️ ElevenLabs представили новую функцию для преобразования аудио в текст, которая действительно впечатляет! ElevenLabs представила Scribe — своё первое решение для преобразования речи в текст, которое уже завоевало звание лидера по точности в этой области. В независимых тестах Scribe достигла Word Error Rate всего 7.7%, что значительно лучше результатов Whisper v2 и v3 (~10%). Scribe поддерживает 99 языков, включая русский. Основные преимущества: - Отличное различение голосов разных спикеров - Возможность экспорта результатов в самые популярные форматы, включая SRT для субтитров на YouTube - Бесплатное использование доступно до 9 апреля 💰 Ценообразование: Scribe относится к премиум-классу и стоит 6,67 долл. за 1 тыс. минут аудио, что значительно ниже, чем у Hyperscaler, но выше, чем у Whisper. ▪Бенчмарки: https://artificialanalysis.ai/speech-to-text ▪ Потестить можно здесь: https://elevenlabs.io/speech-to-text #ElevenLabs #tts

296 190

✔️ OpenAI открыла доступ к Advanced Voice для всех. С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах. Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита. OpenAI в X ✔️ Microsoft Copilot voice и deepthink теперь бесплатны и не имеют ограничений. Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце. microsoft.com ✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями. Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи. Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса. В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%). hume.ai ✔️DeepSeek снижает цены на использование своих AI-моделей в непиковые часы. DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно. reuters.com ✔️ SSD Samsung Pro-серии Gen 5 PCIe поступят в продажу в марте. Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США). Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0. news.samsung.com ✔️ Свежий релиз Microsoft Phi‑4 mini instruct — это компактная, оптимизированная модель на 3.8 млрд параметров, оптимизированная для вычислительно ограниченных сред Hf @ai_machinelearning_big_data #news #ai #ml #microsoft #openai #DeepSeek

296 190

Какие методы машинного обучения применяются для дизайна белков? Расскажем на открытом уроке, посвященному курсу «Искусственный интеллект в медицине» Узнаете, как современные алгоритмы помогают моделировать, предсказывать и оптимизировать структуру и функции белков. Разберете основные подходы, включая языковые модели для белковых последовательностей и методы генеративного дизайна. ✅ Практика: Знакомство с современными инструментами и библиотеками, используемыми в белковой инженерии 👉 Регистрация и подробности: https://otus.pw/aX6dI/?erid=2W5zFJSx7Fv #реклама О рекламодателе

296 190

🌟 olmOCR: инструмент для обработки PDF-документов. olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах. olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач. Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема. Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы. В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU. ▶️Релиз olmOCR: 🟢Модель olmOCR-7B-0225-preview - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225; 🟢Датасет olmOCR-mix-0225 - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы. 🟢Набор кода для инференса и обучения. ▶️Рекомендованная среда для инференса: 🟠NVIDIA GPU (RTX 4090 и выше) 🟠30 GB свободного пространства на SSD \ HDD 🟠установленный пакет poppler-utils 🟠sglang с flashinfer для GPU-инференса ▶️Локальная установка и запуск:

# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env 
conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Demo 🟡Модель 🟡Arxiv 🟡Сообщество в Discord 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #OCR #Olmocr

296 190

📌Открытый вебинар «MLFlow — полный контроль над ML-экспериментами» 📚Вы узнаете: 1️⃣ Что такое MLFlow и какие компоненты он содержит; 2️⃣ Как отслеживать и управлять экспериментами с помощью MLFlow; 3️⃣ Как интегрировать MLFlow в ваш ML-пайплайн и ускорить вывод моделей в продакшн; 4️⃣ Возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость; 5️⃣ Как эффективно работать с артефактами и версиями моделей. 🎁 Проведем живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект! Спикер: Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд. 📅 Дата: 27 февраля в 20:00 (мск) 🆓 Бесплатно. Вебинар в рамках курса «MLOps» 👉 Регистрация открыта: https://otus.pw/YwNm/?erid=2W5zFJ62YM6 #реклама О рекламодателе

296 190

⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном агентском решении. Чем полезен инструмент: - Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой. Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений. - ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование. Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами). Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео. Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи. Минусы: - На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях. - Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками. Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения. В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе. pip install torchvision Pillow open_clip_torch https://huggingface.co/microsoft/Magma-8B #microsoft #magma #multimodal

296 190

📌 Llama3 from scratch: расширенная версия Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом. Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3. ▶️Изменения и улучшения в этом форке: 🟢Последовательность изложения материала была изменена, скорректирована структура чтобы сделать процесс обучения более прозрачным, помогая понимать код шаг за шагом; 🟢Добавлено большое количество подробных аннотаций к коду; 🟢Изменения размеров матрицы на каждом этапе вычислений полностью аннотированы; 🟢Добавлены подробные пояснения к принципам, чтобы в полной мере можно было освоить концепцию дизайна модели. 🟢Добавлена дополнительная глава, посвященная KV-сache, в которой подробно описаны основные концепции, принципы работы и процесс применения механизма внимания. 📌Лицензирование: MIT License. 🔜 Репозиторий на Github @ai_machinelearning_big_data #AI #ML #LLM #Tutorial #Github

296 190

🔥🔥🔥 ML-инженер в 2025 году: навыки, тренды, спрос 26 февраля в 18:00 (мск) основатель karpov. courses Анатолий Карпов и сооснователь AI Talent Hub Дмитрий Ботов расскажут: — как изменилась ML-индустрия за год и что будет в тренде в 2025-м; — как ML трансформирует бизнес, в частности FinTech и ритейл; — какие навыки нужны ML-инженерам для продвижения в карьере; — чем примечательна программа от karpov. courses и ИТМО. Регистрация по ссылке. @ai_machinelearning_big_data #ai #ml #machinelearning #news Реклама. Университет ИТМО ИНН:7813045547 erid:2VtzqvPWg6a

296 190

✔️ OpenAI запускает deep research. OpenAI полностью откроет улучшенную и обновленную функцию deep research для пользователей ChatGPT Plus, Team, Edu и Enterprise. Вместе с анонсом опубликована карта deep research системы, в которой подробно рассказывается о том, как OpenAI проводили глубокие исследования, оценивали их возможности и риски, а также повышали уровень безопасности. Новая версия поддерживает обработку изображений и улучшает возможности понимания и цитирования загруженных файлов. Пользователи Plus, Team, Enterprise и Edu могут использовать 10 deep research запросов в месяц, а на тарифе Pro месячная квота составит 120 запросов. OpenAI в X ✔️ Nvidia подтверждает наличие производственных дефектов у RTX 5080. Nvidia подтвердила, что RTX 5080 имеют недостаточное количество блоков рендеринга на некоторых чипах из-за производственных дефектов, что приводит к усредненному падению производительности примерно на 4%. Ранее компания только заявляла, что проблема наблюдается только с RTX 5090, 5090D и 5070 Ti. Бен Беллиондо, директор по глобальным коммуникациям Nvidia GeForce, сообщил, что у ранних моделей RTX 5080 был «редкий» дефект (затронувший менее 0,5%), но на производительность с ИИ и вычисления он не повлиял. Он пояснил, что RTX 5070 не были затронуты, и признал, что компания не обнаружила дефект до выпуска, но производственная проблема была решена. theverge.com ✔️ Apple планирует построить завод по производству серверов для ИИ. Apple планирует построить завод по производству микросхем в Хьюстоне (Техас) для производства серверов с искусственным интеллектом, оснащенных высокопроизводительными чипами M5. Завод будет построен в сотрудничестве с Foxconn и, как ожидается, будет введен в эксплуатацию в 2026 году. Его площадь составит 23 тыс. кв.м. macrumors.com ✔️ DeepSeek спешит выпустить новую модель R2. DeepSeek ускорит выпуск своей новой модели R2, которая, как ожидается, превзойдет многих западных конкурентов. Этот шаг может усилить конкуренцию на мировом рынке ИИ и заставить американские компании пересмотреть свои стратегии. DeepSeek планировала выпустить R2 в мае, но теперь стремится сделать это как можно скорее. Компания утверждает, что новая модель будет лучше в программировании и сможет рассуждать на разных языках, а не только на английском. reuters.com ✔️ Cisco и NVIDIA объединяют усилия для ускорения внедрения ИИ в корпоративном секторе. Cisco и NVIDIA объявили о расширении партнерства, направленного на упрощение создания сетей для ЦОДов, готовых к работе с ИИ. В рамках сотрудничества компании планируют разработать единую архитектуру, которая объединит технологии Cisco Silicon One и NVIDIA SuperNICs в платформе NVIDIA Spectrum-X. Это сделает Cisco единственным партнером, чьи решения будут интегрированы в Spectrum-X. Новая инициатива позволит клиентам стандартизировать использование технологий Cisco и NVIDIA в своих центрах обработки данных тем самым упростит управление сетями как для предприятий, так и для облачных провайдеров. Ожидается, что первые обновления, включающие совместимость с Spectrum-X, появятся в середине 2025 года. Это позволит клиентам воспользоваться преимуществами технологий адаптивной маршрутизация, телеметрии и низкой задержки пакетов в сетях. newsroom.cisco.com ✔️Copilot теперь доступен бесплатно и без ограничений — Microsoft предоставила полный доступ к голосовым функциям Voice и режиму размышлений Think Deeper. В основе сервиса лежат модели o1 от OpenAI. @ai_machinelearning_big_data #news #ai #ml

296 190

erid: 2W5zFJt6CkY Практический вебинар для ML-специалистов по автоматической обработке текстов📝 Приходите на прямой эфир 27 февраля в 18:00, где: — обсудим, что представляют из себя методы векторных представлений слов и как их применяют для решения задач NLP — подробно изучим алгоритмы FastText & W2V — на практике с минимальными ресурсами решим задачу классификации текстов Урок приурочен к старту онлайн-курса «Machine Learning. Professional» в OTUS и будет полезен IT-специалистам, которые хотят освоить продвинутые методы ML. ➡️ Участвовать в вебинаре бесплатно: https://otus.pw/9CAV/ #реклама О рекламодателе

296 190

🌟 Платформу для работы с открытым кодом GitVerse интегрировали в RuStore Благодаря специальному расширению цикл разработки и доставка обновлений существенно ускоряются: теперь разработчики могут напрямую публиковать созданные на GitVerse мобильные приложения. Теперь достаточно встроить автоматизированный этап в CI/CD-конвейер и отправить приложение на модерацию через консоль RuStore или API. Кроме того, для запуска сборки теперь нужен всего один клик. Новые функции не требуют локальных настроек и значительно уменьшают вероятность ошибок. ▶В GitVerse можно организовать разработку любых проектов: платформа позволяет писать и проверять код, автоматизировать CI/CD-процессы, управлять задачами и вести документацию. При этом с рутинными задачами по написанию и проверке кода может помочь ИИ-ассистент платформы GigaCode. @ai_machinelearning_big_data #RuStore #GitVerse