Machinelearning

前往频道在 Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

显示更多

网络:Machinelearning 俄罗斯1 275 技术与应用329...

📈 Telegram 频道 Machinelearning 的分析概览

频道 Machinelearning (@ai_machinelearning_big_data) 俄语语言赛道中的是活跃参与者。目前社区聚集了 296 149 名订阅者，在 技术与应用 类别中位列第 329，并在 俄罗斯 地区排名第 1 275 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 296 149 名订阅者。

根据 21 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -6 159，过去 24 小时变化为 -192，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.12%。内容发布后 24 小时内通常能获得 5.73% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 24 037 次浏览，首日通常累积 16 970 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 191。
主题关注点： 内容集中在 openai, claude, api, gemini, контекст 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

凭借高频更新（最新数据采集于 22 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

296 149

订阅者

-19224 小时

-1 4507 天

-6 15930 天

24 037

帖子浏览量

~ 16 97024 小时

~ 19 10748 小时

8.12%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

296 083

📲 Diffusion Explainer - визуализация, которая поможет понять работу моделей, основанных на диффузии: ⭐️Визуал, который будет понятен каждому ⭐️Работает в браузере ⭐️Отличное наглядное объяснение того, как модели диффузии генерируют изображения. https://poloclub.github.io/diffusion-explainer ▪Diffusion explainer ▪Github ▪Статья ▪Видео @ai_machinelearning_big_data #diffusion #tutorial #ml

296 083

⚡️🔥 Недавно Google Cloud выпустил «Руководство разработчика PyTorch по основам JAX». Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow. Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным. Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений. Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков. В этом руководстве содержится пошаговый гайд по реализации простой нейтронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX. 📌 Читать 📌Документация Jax @ai_machinelearning_big_data #jax #pytorch #google

296 083

⚡Microsoft на высоте! rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% для Phi3-mini-3.8B), 🔥 превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы Код будет опубликован в ближайшее время! 🤗 https://huggingface.co/papers/2501.04519с @ai_machinelearning_big_data #microsoft #llm

296 083

🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов. Лицензия MIT! 🤗 HF: https://huggingface.co/microsoft/phi-4 ▪Demo: https://huggingface.co/spaces/Tonic/Phi-4 @ai_machinelearning_big_data #phi4 #llm #Microsoft

296 083

🖥 NVIDIA представила видеокарты серии RTX 50 — всего четыре модели. RTX 5090 оказалась в 1,5 раза производительнее предыдущей версии RTX 4090! Более того, благодаря технологии DLSS 4, даже самая доступная модель RTX 5070 за $550 способна обеспечить производительность на уровне RTX 4090. Мы все ожидали от RTX 5090, крутые характеристики и все такое. Но все ли поняли, что Дженсен сказал о графике? Что новая карта использует нейронные сети для генерации 90+% пикселей в играх? Традиционные алгоритмы трассировки лучей отрисовывают только ~10%, своего рода «скетч», а затем генеративная модель заполняет остальные мелкие детали. За один проход в режиме реального времени. ИИ - это новый уровень графики, дамы и господа. Цены и технические характеристики: GeForce RTX 5090: - Процессор: GB202-300 - CUDA-ядер: 21 760 - Память: 32 ГБ GDDR7 (1792 Гбайт/с) - Шина: 512 бит - Потребление энергии: 575 Вт - Цена: $1999 GeForce RTX 5080: - Процессор: GB203-400 - CUDA-ядер: 10 752 - Память: 16 ГБ GDDR7 (960 Гбайт/с) - Шина: 256 бит - Потребление энергии: 360 Вт - Цена: $999 GeForce RTX 5070 Ti: - Процессор: GB203-300 - CUDA-ядер: 8 960 - Память: 16 ГБ GDDR7 (896 Гбайт/с) - Шина: 256 бит - Потребление энергии: 300 Вт - Цена: $749 GeForce RTX 5070: - Процессор: GB205-300 - CUDA-ядер: 6 144 - Память: 12 ГБ GDDR7 (672 Гбайт/с) - Шина: 192 бит - Потребление энергии: 250 Вт - Цена: $549 Продажи стартуют уже в этом месяце! @ai_machinelearning_big_data #nvidia

296 083

🖥 nv-ingest - NVIDIA Ingest NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера. Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях. NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON. После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus. 📌GitHub 📌Документация @ai_machinelearning_big_data #NVIDIA #parsing #embedding

296 083

🖥 Magnetron Этот проект был создан, с целью изучения понимания внутренней работы PyTorch и других популярных фреймворков глубокого обучения. Главная цель проекта - создание с нуля минималистичного, но при этом мощного фреймворк глубокого обучения, который можно использовать как для исследований, так и для продакшена. Фреймворк написан на C и Python и спроектирован так, чтобы его было легко понять и модифицировать. Знаменитая цитат Ричарда Фенимана - То, что я не могу создать, я не понимаю. Создание собственного языка программирования, игрового движка и конечно фреймворка машинного обучения позволит понять, как работает современное программное обеспечение, до мельчайших деталей. ◾️GitHub ◾️Demo ◾️Docs

296 083

🌟 VSI-Bench: бенчмарк для оценки визуально-пространственного восприятия MMLM. VSI-Bench - видео-бенчмарк из 5130 пар "вопрос-ответ" основанных на 288 видеозаписях реальных сцен. Видеоматериалы были собраны из публичных датасетов ScanNet, ScanNet++ и ARKitScenes и содержат типы пространств: жилые помещения, офисы и производственные объекты. Бенчмарк структурирован в виде 8 задач, классифицированных по трем категориям: конфигурационные, измерительные и пространственно-временные: 🟢Конфигурационные задачи определяют количество объектов, измеряют относительные расстояния и направления и планируют маршруты. 🟢Измерительные - определяют размеры объектов, помещений и абсолютные расстояния. 🟢Пространственно-временные задачи выполняют оценку способности тестируемой MMLM к запоминанию последовательности появления объектов в видео. ▶️Структура датасета: 🟠idx - номер записи в датасете; 🟠dataset - источник видео (датасет): scannet, arkitscenes or scannetpp; 🟠scene_name - название видео; 🟠question_type - тип вопроса; 🟠question - вопрос; 🟠options - варианты ответа на вопрос, если возможен множественный выбор; 🟠ground_truth - правильный ответ на вопрос. Возможности VSI-Bench оценивались с 15 MLLM, поддерживающих видеоформат: Gemini-1.5, GPT-4o, InternVL2, ViLA, LongViLA, LongVA, LLaVA-OneVision и LLaVA-NeXT-Video. Оценка проводилась в режиме zero-shot с применением стандартных запросов для каждой модели. В качестве метрик для задач с множественным выбором использовалась Accuracy (ACC), а для задач с числовыми ответами — Mean Relative Accuracy (MRA). Результаты оценки показали, что, несмотря на достижение значительных результатов топовыми моделями, их производительность все еще уступает человеческой. Люди демонстрируют среднюю точность в 79%, в то время как MLLM с высшим результатом (Gemini-1.5 Pro) показывают более низкие показатели (48.8%). Использование стандартных лингвистических техник: chain-of-thought, self-consistency и tree-of-thoughts не привели к улучшению результатов. Анализ ошибок выявил, что основная проблема для моделей - пространственное рассуждение, а не визуальное восприятие, NLP-навыки или обработка временных данных. ▶️Локальная установка и запуск evaluation скрипта для нескольких моделей:

# Create conda env
conda create --name vsibench python=3.10
conda activate vsibench

# Clone repo
git clone git@github.com:vision-x-nyu/thinking-in-space.git
cd thinking-in-space

# Update submodules
git submodule update --init --recursive

# Install requirements
cd transformers && pip install -e . && cd ..
pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed

# Run all-in-one evaluation script
bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Датасет 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #Benchmark #VSIBench

296 083

🌟 noise_step: алгоритм тернарного обучения без использования градиентной памяти. Noise_step - экспериментальный концепт аглоритма, который позволяет обучать модели, оперируя 1,58-битной (тернарной) точностью, что снижает потребление электроэнергии и сокращает вычислительные затраты. Noise_step обходится без обратного распространения ошибки, а также может работать параллельно с инференсом и хранит тернарные значения в бинарном представление, которое позволяет упаковать 5 тернов в 1байт. Алгоритм оценивает градиент, используя произведение Якобиана на вектор возмущения, которые генерируются с помощью распределения Бернулли и равномерного распределения {-1, +1}. Для оценки градиента нужен только знак выравнивания, а не его величина. Чтобы улучшить сходимость, Noise_step отбрасывает возмущения со слишком маленькой величиной выравнивания. Векторы возмущений не надо хранить в памяти, поскольку они генерируются из начального сида. Это значит, что размер модели больше не зависит от количества параметров, а зависит от произведения шагов и возмущений. Таким образом, модель можно представить как последовательность шагов, что кардинально уменьшает её размер. Теоретически, основываясь на расчетах, размер модели, подобной GPT-3 175B, можно уменьшить до 19MB. Noise_step использует дискретные шаги из-за тернарного пространства, что добавляет шума в кривую обучения, но алгоритм сходится примерно как Adam, хотя и требует большего батч-сайза. Сходимость, аналогичная Adam, была подтверждена эмпирически на единственном прикладном эксперименте с простым MLP на наборе MINST и, очевидно, требует большей вариативности практических тестов. Несмотря на то, что ранее тернарная точность уже была реализована в фреймворке Microsoft и модели Nous Research, которые не имеют таких ограничений, как в Noise_step , он может стать в будущем альтернативой квантованию и встать в один ряд с другими методами оптимизации обучения и инференса. ⚠️ Обучение трансформерных моделей с noise_step пока остается отрытым вопросом, так как для этого необходимо написать ядро, в котором шум будет виртуализирован (генерироваться по мере использования). ⚠️ Для больших моделей с большим количеством шагов реконструкция становится непрактичной, поскольку каждый вес должен обновляться с учетом каждого вектора возмущений на каждом шаге. Полная реконструкция тернарной модели с количеством параметров 175B, потребовала бы примерно 10 в 19 степени операций. 🟡Исследование 🟡Google Collab простого MLP c MINST 🖥GitHub @ai_machinelearning_big_data #AI #ML #NoiceStep #TernaryPresision

296 083

✔️ Глава Google заявил о необходимости ускорить разработку ИИ, чтобы конкурировать с ChatGPT. На стратегической встречи с сотрудниками компании Google, генеральный директор Сундар Пичаи отметил, что приоритетным направлением в следующем году станет масштабирование модели Gemini на потребительском рынке. Существует обеспокоенность, что продукт ChatGPT от компании OpenAI приобретает статус синонима ИИ, аналогично тому, как Google стал синонимом поисковых технологий. searchengineland.com ✔️ Тенденции в области ИИ в 2025 году по версии Стэнфордского института. Эксперты Стэнфордского института человеко-ориентированного ИИ (HAI) прогнозируют, что в 2025 году произойдет значительный сдвиг в сторону коллаборативных систем ИИ, где несколько специализированных агентов будут работать вместе, под управлением человека. Эксперты также отмечают замедление темпов улучшения крупных моделей и усиление скептицизма относительно их реальных преимуществ. Ожидается увеличение количества мошенничеств с использованием генеративного ИИ. В США, вероятно, будет ослаблено регулирование в ИИ, при этом другие игроки - ЕС и отдельные штаты будут устанавливать собственные правила. Будут развиваться системы, где разные LLM с узкой специализацией будут взаимодействовать друг с другом для решения задач, при этом ведущую роль будет играть “генеральный подрядчик” LLM. hai.stanford.edu ✔️ Nvidia переориентирует свою деятельность на робототехнику на фоне усиления конкуренции на рынке ИИ-чипов. В первой половине 2025 г. компания планирует выпустить компактные компьютеры Jetson Thor, предназначенные для человекоподобных роботов. Nvidia стремится занять лидирующие позиции на рынке робототехники, полагая, что данный сегмент находится на пороге значительного роста. Компания ожидает усиления конкурентного давления со стороны AMD, Google и Amazon. На текущий момент доходы от робототехники составляют относительно небольшую долю в общем объеме доходов Nvidia, где 88% приходится на доходы от центров обработки данных, составившие 35,1 миллиарда долларов в третьем квартале 2024. pymnts.com ✔️ AgiBot World: Открытый набор данных для обучения роботов от Zhiyuan Robotics. Zhiyuan Robotics опубликовала AgiBot World, большой набор данных, предназначенный для содействия развитию воплощенного интеллекта. Набор включает в себя более 80 различных навыков, охватывающих пять основных сфер применения: бытовые условия, общественное питание и промышленное производство. Датает создан на основе производственной и экспериментальной базы компании, площадь которой составляет более 4000 квадратных метров, с использованием 8 камер и манипуляторов с 6 степенями свободы. AgiBot World содержит более 3000 реальных объектов, воспроизводящих условия, приближенные к реальным производственным и бытовым ситуациям. В набор данных входят как элементарные действия (захват и перемещение предметов) и более сложные операции (перемешивание, складывание и глажка). Zhiyuan Robotics планирует постепенное открытие доступа к десяткам миллионов единиц данных моделирования и выпуск базовой модели с полным комплексом инструментов для обучения, сбора и анализа данных. agibot-world.com ✔️ Британские ученые предупреждают о манипуляциях с решениями пользователей в интернете с помощью ИИ. В работе Кембриджского университета исследуется формирование новой "экономики намерений", основанной на анализе, прогнозировании и манипулировании намерениями людей с помощью ИИ-ассистентов, с последующей продажей данной информации заинтересованным компаниям. Данная модель позиционируется как преемник "экономики внимания", где социальные сети стремятся удерживать внимание пользователей с целью демонстрации рекламы. В новой парадигме ИИ-компании будут продавать информацию о мотивациях пользователей, их планы и политические взгляды, заинтересованным сторонам. Согласно исследованию, LLM могут быть использованы для "предвосхищения и управления" поведением пользователей, основываясь на поведенческом анализе. theguardian.com @ai_machinelearning_big_data #news #ai #ml

296 083

📌Роадмэп воспроизведения o1 от OpenAI с фокусом на RL. Fundan University совместно с Shanghai AI Laboratory составили дорожную карту, как повторить возможности модели o1 от OpenAI. Главное – обучение с подкреплением, есть 4 важных условия, которые нужно сделать, чтобы добиться такого же уровня, как у o1: 🟢Инициализация политики 🟢Разработка вознаграждения 🟢Поиск 🟢Обучение Инициализация политики начинается с предварительного обучения LLM на больших текстовых датасетах. Они должны быть из разных областей и включать помимо классических задач NLP, примеры логического рассуждения, знаний о мире и демонстрировать паттерны навыка сравнения. Это позволит модели освоить базовое понимание языка и навыки рассуждения. Последующая тонкая настройка на инструкциях преобразует модель из "предсказателя следующего токена" в полноценного агента, который может выполнять задачи. Тут важно добавить в процесс человекоподобных рассуждений через SFT или подсказки, чтобы научить модель исследовать пространство решений. Например, самооценке и самокоррекции, как это происходит у OpenAI o1. Разработка вознаграждения дает модели четкую и понятную обратную связь не только в конце решения задачи, но и на промежуточных этапах. Правильно спроектированная система с использованием внутренних и внешних функций крайне важна, с ней модель учится лучше. Поиск - решающий навык для генерации качественных решений на этапах обучения и тестирования. Использование методов Best-of-N, Beam Search, MCTS позволяет получить лучшие из возможных результатов. Например, MCTS подходит для более широкого исследования пространства решений. Обучение использует данные, полученные в процессе поиска для улучшения политики модели. Чем больше параметров и объем поисковых данных - тем лучше производительность в итоге. По сути, обучение и поиск работают как "суперсила", способствуя развитию модели. Выводы, сделанные в процессе исследования авторами сводятся к тому, что существующие открытые проекты, которые пытаются воспроизвести o1 - вариации такого метода обучения. Обучение с подкреплением - ключ к созданию "рассуждающей модели". 🟡Arxiv @ai_machinelearning_big_data #AI #ML #LLM #Paper #RL

296 083

🌟 Google Cloud собрала 321 реальный пример использования GenAI от ведущих мировых компаний. Большая подборка примеров внедрения генеративного ИИ от ведущих компаний, правительств, исследовательских институтов и стартапов по всему миру. Они демонстрируют, как организации используют ИИ-агентов для повышения производительности, автоматизации процессов и улучшения клиентского опыта, что в итоге приводит к ощутимой отдаче от инвестиций. ▶️ Розничная торговля 🟢Best Buy использует Gemini для создания виртуального ассистента, способного решать проблемы с продуктами и управлять доставками; 🟢BrainLogic использует Claude для персонального ИИ-ассистента Zapia, ориентированного на латиноамериканский рынок; 🟢Carrefour Taiwan разработал AI Sommelier, который помогает клиентам выбирать вино. ▶️ Автоконцерны 🟠Continental интегрировал разговорный ИИ в Smart Cockpit HPC, решение для управления речевыми командами в автомобиле; 🟠General Motors улучшила OnStar с помощью разговорного помощника, который лучше распознают намерения собеседника; 🟠Volkswagen создал виртуального ассистента в приложении myVW, который помогает водителям изучать руководства и задавать вопросы. ▶️ Здравоохранение 🟢Freenome разрабатывает диагностические тесты на основе ИИ для раннего выявления рака; 🟢Orby применяет ИИ и нейротехнологии для реабилитации пациентов. ▶️Финансы 🟠NG Bank разработал чат-бота для поддержки сотрудников, чтобы повысить качество ответов на запросы клиентов. 🟠Scotiabank использует Gemini для персонализации клиентского опыта. ▶️Производство 🟢Motorola использует Gemini и Imagen для улучшения UX/UI смартфонов; 🟢Samsung применяет Gemini Pro и Imagen 2 в Galaxy S24 для обработки текста и редактирования изображений; 🟢ScottsMiracle-Gro создал ИИ-агента для консультаций по садоводству. ▶️ Госсектор 🟠Justicia Lab разрабатывает AI-помощника для упрощения юридических процессов для иммигрантов; 🟠Министерство труда Катара запустило платформу Ouqoul для поиска работы выпускниками-экспатами. ▶️ Медиа 🟢Formula E может создает 2-минутные подкасты на любом языке из двухчасовых комментариев. 🟢Globant разработала Advance Video Search для поиска контента по кадрам. 🔜 Читать полную подборку примеров @ai_machinelearning_big_data #ai #ml

296 083

🌟 OmniAudio: Мультимодальная модель для обработки аудио и текста. OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов. OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса. Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею. OmniAudio обучалась в три этапа: 🟠Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription. Для различения задач транскрибирования и завершения был введен специальный токен <|transcribe|>. 🟠Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель. 🟠На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт». Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду. В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF. Модель опубликовала в 4 вариантах квантования в формате GGUF: 🟢OmniAudio-2.6B-model-fp16 - 5.24 Gb 🟢OmniAudio-2.6B-model-q8_0 - 2.78 Gb 🟢OmniAudio-2.6B-model-q4_K_M - 1.71 Gb 🟢OmniAudio-2.6B-model-q4_0 - 2.78 Gb ⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей. ⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Demo 🟡Сообщество в Discord @ai_machinelearning_big_data #AI #ML #OmniAudio #NexaAI

296 083

🌟 DRT-o1: метод машинного перевода с техникой CoT. DRT-o1 - экспериментальная методика для повышения качества нейронного машинного перевода с помощью техники Chain-of-Thoughts, которая успешно применятся в задачах логического вывода. Машинный (дословный) перевод текстов, содержащих сравнения и метафоры, зачастую не обеспечивает адекватную передачу смысла. DRT-o1 - попытка расширить возможности нейропереводчиков и сделать их более "человечными". В методе используется многоагентная архитектура, моделирующая мыслительно- итеративный процесс перевода, где каждый этап базируется на предыдущем, способствуя более точному и глубокому пониманию сложных языковых конструкций. За основу для тестовых моделей были взяты Qwen2.5-7B-Instruct и Qwen2.5-14B-Instruct. Обучающий датасет собирался на основе 400 англоязычных литературных произведений были извлечены предложения, содержащие сравнения или метафоры. Предложения, для которых дословный перевод на китайский язык был признан неадекватным, сохранялись для последующей обработки. Затем использовался многоагентный пайплайн из переводчика, советника и оценщика. Переводчик генерировал варианты перевода, советник предоставлял рекомендации по их улучшению, а оценщик проводил анализ качества перевода на каждом этапе. Этот процесс повторялся итеративно до достижения установленного критерия качества. В финале, для достижения удобочитаемости и связности полученных данных применялся GPT-4o, который модифицировал и оптимизировал процесс размышления. В результате было собрано 22 264 образца машинного перевода с длинными цепочками рассуждений. В результате получились 2 модели перевода между английским и китайским языками: 🟢DRT-o1-7B 🟢DRT-o1-14B Посттренинговые тесты обеих моделей показали ощутимое повышение качества перевода литературных текстов. DRT-o1-7B показала улучшение на 8.26 в BLEU, 1.31 в CometKiwi и 3.36 в CometScore по сравнению с Qwen2.5-7B-Instruct. Она превзошла QwQ-32B-Preview на 7.82 в BLEU и 1.46 в CometScore. DRT-o1-14B достигла еще более высоких показателей - 7.33 в BLEU, 0.15 в CometKiwi и 1.66 CometScore по сравнению с Qwen2.5-14B-Instruct. ▶️Пример инференса с DRT-o1-7B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Krystalan/DRT-o1-7B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Translate the following text from English to Chinese:%text%."
messages = [
    {"role": "system", "content": "You are a philosopher skilled in deep thinking, accustomed to exploring complex problems with profound insight."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

📌Лицензирование моделей: CC-BY-NC-SA-4.0 License. 🟡Модель 7B 🟡Модель 14B 🟡Arxiv 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #Translation #CoT #DRTo1

296 083

Уголок AI-энтузиастов от Сбера 🤖 Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити. ✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины. ✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере ✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub. Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.

296 083

✔️ OpenAI планирует реорганизацию в корпорацию для привлечения инвестиций. OpenAI объявила о планах по реорганизации своей корпоративной структуры в следующем году. Компания намерена создать публичную благотворительную корпорацию, которая будет управлять операциями и бизнесом OpenAI, а некоммерческая организация будет заниматься благотворительными проектами в областях здравоохранения, образования и науки. Новая структура позволит привлечь больше капитала, необходимого для дальнейшего развития и достижения AGI. theguardian.com ✔️ Nvidia, Niantic и World Labs разрабатывают пространственные AI-модели Земли. Nvidia, Niantic и World Labs занимаются разработкой новых геопространственных AI-моделей Земли, способных видеть, думать и действовать в трехмерном пространстве. Nvidia использует свой проект Earth-2, объединяющий ИИ-модель с физическими симуляциями и компьютерной графикой, для прогнозирования погоды и климата. Niantic, создатель Pokémon Go, применяет свой опыт в создании карт и 3D-моделей, основанный на сканировании местности игроками. У Niantic уже есть 10 млн. отсканированных локаций по всему миру и она использует эти данные для создания самой полной наземной 3D-карты мира. World Labs также разрабатывает "большую мировую модель", аналогичную концепции Niantic, и видит ее применение в создании виртуальных миров. barrons.com ✔️ Испанская AI-модель зарабатывает до €10 000 в месяц. Создатель AI-модели, Рубен Круз, основатель агентства The Clueless, решил создать виртуального инфлюенсера из-за проблем с реальными моделями. 25-летняя Аитана Лопес, фитнес-энтузиаст с ярко выраженной индивидуальностью, созданной на основе анализа общественных вкусов и трендов, зарабатывает в среднем около €3000 в месяц, но в пике ее доход достигает €10 000. Она зарабатывает более €1000 за рекламу, является лицом компании по производству спортивного питания и размещает фотографии в нижнем белье на платформе Fanvue. За полтора года у нее появилось более 343 000 подписчиков в соцсетях, и ее фотографии получают тысячи просмотров. Успех Аитаны привел к созданию еще двух моделей, одна из них, певица Лия З., стала первой AI-моделью, заключившей контракт на запись. euronews.com ✔️ Первый выпуск печатного журнала, посвященного искусству, созданному ИИ. Биеннале журнал The AI Art Magazine, посвященный искусству, созданному ИИ, начал свою публикацию и служит важным свидетельством этого переломного момента в истории искусства. По заявлению издателя журнала, Майка Браунера, он "празднует слияние человеческой креативности и разумных машин", фиксируя "момент искусства в ощутимой печатной форме", во времена стремительного развития ИИ-технологий. Журнал стоит 22 евро и финансируется независимо, что гарантирует "редакционную независимость и творческую свободу". Первый выпуск журнала включает в себя работы японского AI-художника Эми Кусано и кураторскую галерею из 50 работ, отобранных международным жюри. artnews.com ✔️ Восстановлено 100 гонконгских фильмов с использованием ИИ. Китайский киноархив, Douyin и Volcano Engine совместно инициировали проект по восстановлению 100 гонконгских фильмов в формате 4K. Десять из них были восстановлены с использованием ручной и AI-коррекции, а 90 — преимущественно с помощью ИИ. В рамках проекта также был выпущен документальный фильм "Обновляя время", который рассказывает о процессе восстановления фильмов "Богатые и могущественные" и "Однажды в Китае". ИИ-технологии помогли повысить эффективность восстановления, автоматически удаляя артефакты и генерируя промежуточные кадры для улучшения плавности движения. Модель ИИ была оптимизирована для улучшения деталей текстуры кожи лица для приданию изображения четкости и естественности. Volcano Engine, в свою очередб, увеличил скорость восстановления в 3 раза по сравнению с прошлым годом, сократив время восстановления двухчасового фильма с 18 до 5 часов. jiqizhixin.com @ai_machinelearning_big_data #news #ai #ml

296 083

🌟 PAR: метод параллелизации в генерации изображений и видео. Авторегрессионное моделирование использует последовательный принцип "токен за токеном" с отличными результатами, но, с развитием качества генерации и размеров моделей, требует больших вычислительных ресурсов, замедляя процесс инференса. Анализ зависимостей между токенами выявил закономерность, что токены, пространственно удаленные друг от друга, обладают более слабыми взаимосвязями. Так родилась теория о возможности их параллелизации, которая получила название PAR (Parallelized Autoregressive Visual Generation). PAR предлагает разделение изображения на локальные сегменты, в которых начальные токены генерируются последовательно для формирования глобальной структуры. Затем выполняется параллельная генерация токенов в сегментах. Такой подход дает ускорение процесса генерации изображений и видео в 3,6 раза при сохранении сопоставимого качества, и до 9,5 раз при минимальном снижении качества. PAR может интегрироваться в стандартные архитектуры авторегрессионных моделей, не требуя их модификации, при этом используется механизм переупорядочивания токенов и набор обучаемых эмбеддингов, чтобы поддержать плавность перехода между последовательным и параллельным режимами генерации. Эксперименты с PAR проводились на наборах ImageNet и UCF-101, с токенизаторами VQGAN и MAGVIT-v2. Качества итоговых изображений оценивалось метриками FID и IS, а для видео - метрикой FVD. В результате, PAR с набором ImageNet показал сокращение количества шагов генерации в 3,9 раза и ускорение в 3,6 раза при сопоставимом уровне качества. В кейсе с более интенсивной параллелизацией количество шагов сократилось в 11,3 раза, а ускорение в 9,5 раз с минимальным снижением качества. С датасетом UCF-101 PAR-4x (реализация с четырьмя параллельными токенами) показала ускорение в 3,8 раза при незначительном ухудшении качества, а PAR-16x (16 токенов) - в 12,6 раза, также при минимальных изменениях метрики FVD. ⚠️ Код проекта обещают опубликовать в ближайшее время. 🟡Страница проекта 🟡Arxiv 🖥GitHub (Coming soon) @ai_machinelearning_big_data #AI #ML #PAR #Parallelization

296 083

📌Эксперты назвали основные тренды в развитии ИИ В пятерку глобальных ИИ-трендов вошли мультимодальные ИИ, активное использование открытого кода, гиперперсонализация ИИ, развитие ИИ-агентов и автономные системы. Особенность мультимодального ИИ в возможности обрабатывать сразу и текст, и изображения, и аудио с видео. По словам эксперта, кульминацией мультимодальности станут VLM-модели, обучающиеся не на текстах, а на видеофайлах. Также в будущем разработчики ИИ будут активнее использовать опенсорсные модели обучения и выкладывать новые модели в Open Source. Развитие открытого кода позволит увеличить скорость разработки инновационных продуктов и создания более доступных технологий, отметил техдиректор Яндекс Поиска Алексей Гусаков. 🔜 Статья @ai_machinelearning_big_data #news #ai #ml

296 083

✔️ Deepseek V3. Deepseek выпустила свою самую мощную языковую модель Deepseek V3, которая, по предварительным тестам, конкурирует с ведущими проприетарными моделями. Новая модель построена на архитектуре MoE и содержит 671 млрд. параметров, из которых 37 млрд. активных. Deepseek V3 обучалась на 14,8 трлн. токенов, что почти вдвое больше, чем у V2. Deepseek V3 обрабатывает 60 токенов в секунду, это в 3 раза быстрее, чем V2. Модель показала высокие результаты в тестах на логическое мышление, в MATH 500 (90,2%) и программировании (Codeforces и SWE). Deepseek утверждает, что V3 сопоставима с GPT-4o и Claude-3.5-Sonnet по производительности. В отрытом доступе модель можно найти на HF, а попробовать - в демо-чате. deepseek.com ✔️ Смартфоны с ИИ могут компенсировать спад в центрах обработки данных. СEO Advantest, поставщика Nvidia, считает, что спрос на смартфоны с ИИ может помочь защитить полупроводниковый сектор от резкого спада клиентских расходов на центры обработки данных. Снижение темпов роста инвестиций в центры обработки данных крупными технологическими компаниями, такими как Google и Microsoft, может иметь серьезные последствия для цепочки поставок. В то время как спрос на телефоны с искусственным интеллектом пока был "довольно медленным", он может быстро возрасти. pymnts.com ✔️ ИИ в 2025 году: прогноз от Forbes. В 2025 году мир ИИ ожидает ряд изменений, которые коснутся как технологий, так и бизнеса. Разработчик Llama начнет взимать плату за использование своих моделей для крупных компаний. Это неизбежно из-за огромных затраты обучения моделей, так как поддержание конкурентоспособности требует миллиардных инвестиций. При этом, индивидуальные разработчики и стартапы смогут продолжать пользоваться Llama бесплатно. Законы масштабирования будут применяться не только к языковым моделям, но и к робототехнике и биологии. В этих областях ожидается значительный прогресс, поскольку исследования только начинаются. Веб-агенты станут массовым явлением, выполняя за пользователей онлайн-задачи. Начнут появляться серьезные проекты по размещению дата-центров с ИИ в космосе для получения доступа к "бесплатной" солнечной энергии. С безопасностью ИИ произойдет первый реальный инцидент, который покажет, что системы ИИ могут действовать непредсказуемо. ИИ достигнет нового уровня в распознавании речи, пройдя тест Тьюринга для голоса. И наконец, системы ИИ будут способны самостоятельно разрабатывать более совершенные ИИ, что разгонит развитие в этой области кратно. forbes.com ✔️ Microsoft и OpenAI определяют AGI на основе прибыли, а не технических достижений. Согласно отчету The Information, Microsoft и OpenAI имеют внутреннее определение AGI, основанное на прибыльности проекта. По этому определению, OpenAI достигнет AGI только тогда, когда их системы смогут приносить не менее 100 млрд. долларов прибыли. Это отличается от общепринятых технических и философских определений AGI. В этом году OpenAI понесет миллиардные убытки и не ожидает прибыли до 2029 года. Это важная деталь, так как Microsoft потеряет доступ к технологиям OpenAI, когда стартап достигнет AGI. Ходят слухи, что OpenAI может объявить о достижении AGI раньше, чтобы ограничить доступ Microsoft, но этот отчет означает, что Microsoft может иметь доступ к моделям OpenAI в течение десятилетия или более. theinformation.com ✔️ Nvidia B300: новые ускорители с увеличенной на 50% производительностью и TDP 1400 Вт Nvidia готовится к выпуску B300 второго поколения на архитектуре Blackwell, которые обеспечат на 50% более высокую производительность по сравнению с серией B200. Увеличение производительности достигается при TDP 1400 Вт, что всего на 200 Вт больше, чем у GB200. Процессоры B300 будут использовать память 12-Hi HBM3E с пропускной способностью 8 ТБ/с. Помимо увеличенной производительности и памяти, B300 получит сетевой адаптер 800G ConnectX-8, который имеет 2х большую пропускную способность, чем 400G ConnectX-7, и 48 линий PCIe. Nvidia изменит подход к поставкам, продавая B300 только на модуле SXM Puck. tomshardware.com @ai_machinelearning_big_data #news #ai #ml

296 083

🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей. DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR. Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви. Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления. Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder. Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах. Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации. Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25. Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины. Для локального инференса потребуются модели: 🟢Marigold checkpoint; 🟢Энкодер CLIP-ViT-H-14-laion-2B; 🟢Набор чекпоинтов DepthLab. ▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh

🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #DepthLab