ch
Feedback
Machinelearning

Machinelearning

前往频道在 Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

显示更多

📈 Telegram 频道 Machinelearning 的分析概览

频道 Machinelearning (@ai_machinelearning_big_data) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 296 497 名订阅者,在 技术与应用 类别中位列第 328,并在 俄罗斯 地区排名第 1 270

📊 受众指标与增长动态

невідомо 创建以来,项目保持高速增长,吸引了 296 497 名订阅者。

根据 19 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -6 252,过去 24 小时变化为 -213,整体触达仍然可观。

  • 认证状态: 未认证
  • 互动率 (ER): 平均受众互动率为 8.08%。内容发布后 24 小时内通常能获得 5.74% 的反应,占订阅者总量。
  • 帖子覆盖: 每篇帖子平均可获得 23 972 次浏览,首日通常累积 17 005 次浏览。
  • 互动与反馈: 受众积极参与,单帖平均反应数为 185
  • 主题关注点: 内容集中在 openai, claude, api, gemini, контекст 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台:
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

凭借高频更新(最新数据采集于 20 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。

296 497
订阅者
-21324 小时
-1 4247
-6 25230
帖子存档
YTsaurus - масштабируемая платформа для обработки и хранения данных, теперь как сервис в Yandex Cloud Что делает YTsaurus интересной: это не просто "система хранения" - это полноценная вычислительная среда, в которую можно принести любые данные и запускать на них любые задачи. ⚙️ Что умеет YTsaurus: 🟢Поддерживает ClickHouse, Apache Spark и MapReduce в одном пространстве 🟢Обрабатывает эксабайты данных, работает с миллионами CPU и десятками тысяч GPU 🟢Масштабируется под конкретный сценарий — от логов и транзакций до ML-пайплайнов 🟢Подходит для построения корпоративных хранилищ и сложных ETL-систем 🟢При этом доступен как управляемый облачный сервис - без забот о поддержке и инфраструктуре Ранее платформу использовали только в технологических продуктах Яндекса, теперь - можно подключить к своей инфраструктуре и работать как с готовым дата-движком. Интерфейс, API, масштаб - всё заточено под производственные задачи. Это ещё один шаг к доступной ML-инфраструктуре уровня hyperscaler'ов - но с локальной экспертизой. @ai_machinelearning_big_data #YTsaurus #BigData #MLInfrastructure #YandexCloud #DataPlatform #AI

🖥 NVIDIA снова удивила рынок — результаты сильно превзошли ожидания аналитиков. 📈 За квартал общая выручка выросла на 69%,
🖥 NVIDIA снова удивила рынок — результаты сильно превзошли ожидания аналитиков. 📈 За квартал общая выручка выросла на 69%, а продажи в дата-центрах (включая AI-чипы и инфраструктуру) — на 73%. 🔥 Главная причина? Очевидна: взрывной спрос на GPU для обучения и инференса ИИ. Мир строит LLM — и делает это на железе NVIDIA. 📌Финансовые итоги за квартал: Выручка: $44.1 млрд (+69% год к году) ▪ Earnings per share: $0.96 (прогноз был $0.93) ▪ Доход от дата-центров: $39 млрд (+73% YoY) ▪ Доход от гейминга: $3.8 млрд (+48% по сравнению с прошлым кварталом) 📌 Прибыль vs Прогноз Фактический показатель прибыли на акцию (EPS) у NVIDIA составил $0.96, что на 3,23% выше прогнозируемых $0.93. Также выручка превысила ожидания на $800 млн, что подчёркивает способность компании точно попадать в рыночные тренды и сохранять уверенное финансовое здоровье. 🔥 Комментарии излишни — рынок ИИ буквально катапультирует NVIDIA на новый уровень. GPU стали не просто новым золотом, а инфраструктурой будущего. Пока другие корпорации режут бюджеты и занижают прогнозы, NVIDIA штампует рекорды — квартал за кварталом. @ai_machinelearning_big_data #NVIDIA

💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данным
💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования. Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты. На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи. ➡️ Записывайтесь в группу прямо сейчас: https://tglink.io/ff8f84b04b2a?erid=2W5zFGaq6LG Чтобы успеть воспользоваться 🏷10% скидкой на курс «Специализация Machine Learning» и 🎁 бонусным промокодом ML5 и учиться весь год по ценам мая. Скидка на курс действует по 31.05 включительно! #реклама О рекламодателе

✔️ Релзиз DeepSeek R1-0528 Главное в обновлении DeepSeek R1-0528: • Глубокое рассуждение — на уровне моделей Google • Улучшен
✔️ Релзиз DeepSeek R1-0528 Главное в обновлении DeepSeek R1-0528: • Глубокое рассуждение — на уровне моделей Google • Улучшена генерация текста — более естественно, структурировано и аккуратно • Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно • Может работать над одной задачей 30–60 минут, удерживая контекст Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench. https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 @ai_machinelearning_big_data #DeepSeek #opensource

✔️ xAI и Telegram планируют партнерство по внедрению Grok. По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы. Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом. Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд. Pavel Durov ✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей. Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи. Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4. support.anthropic ✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов. OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro). Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны. techcrunch ✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса. К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9. "Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года. arstechnica ✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса. ✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize. С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей. Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами. Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью. habr.com @ai_machinelearning_big_data #news #ai #ml

🤖 Boston Dynamics показали, как их гуманоид Atlas «видит» мир и взаимодействует с ним В новом видео команда ИИ-инженеров показала, как устроена система восприятия Atlas — и это уже не просто «робот с камерами», а почти полноценный агент с чувством пространства и контекста. 🧠 Что умеет Atlas: 🔹 Понимает форму и назначение объектов в реальной среде 🔹 Объединяет 2D и 3D восприятие 🔹 Использует ключевые точки для ориентации в пространстве 🔹 Отслеживает позы объектов с учётом их движения и перекрытия 🔹 Сливает визуальные данные, кинематику и знания об объектах в одну систему 🔹 Имеет сверхточную калибровку для координации «глаз–рука» Atlas может не просто находить предмет, но понимать, *что это*, *зачем оно нужно* и *как его лучше схватить*, даже если оно наполовину скрыто. Команда инженеров работает над единой моделью, которая объединяет восприятие и управление. Это шаг от просто «пространственного ИИ» к настоящему физическому интеллекту. Их робот выглядит на данный момент самым передовым, как вы считаете? #Atlas #BostonDynamics #AI #Robotics #Перцепция #ИскусственныйИнтеллект @ai_machinelearning_big_data

🌀 Opera Neon — браузер-агент нового поколения Opera представила Neon — браузер со встроенным ИИ-агентом, который продолжает выполнять задачи даже тогда, когда пользователь спит. 🌐 Что умеет Opera Neon? 🔹 Понимает намерения пользователя 🔹 Помогает с задачами — от поиска до бронирования 🔹 Самостоятельно действует: анализирует, предлагает и выполняет 🔹 Работает как агент, а не просто интерфейс Это инфраструктура для агентного интернета, где ИИ помогает тебе в реальном времени. 🚀 Доступ только по инвайтам. Сейчас Opera открывает доступ первым участникам сообщества, чтобы сформировать будущее вместе. Подать заявку: https://www.operaneon.com/ @ai_machinelearning_big_data #OperaNeon #AgenticWeb #AI #БраузерБудущего

🤖 Стивен Бартлетт — предприниматель, инвестор и ведущий подкаста *The Diary of a CEO* — поделился тревожной деталью о закулисье ИИ-индустрии: Один из топ-CEO компаний, работающих с искусственным интеллектом, публично заявляет: > «Всё под контролем. Нам нечего бояться». Но в приватной беседе — совсем другое: > «Нас ожидает нечто по-настоящему ужасающее». > «То, что он говорит мне наедине — полностью противоположно публичным заявлениям», — добавил источник. 📉 Выходит, даже те, кто стоит у руля ИИ-революции, не до конца уверены, чем она обернётся. ❓А если они боятся — стоит ли нам просто наблюдать? 👉 Полное видео @ai_machinelearning_big_data #AI #Ethics #ИИ #Будущее

Исследователи Яндекса выложили в опенсорс датасет для RecSys почти на 5 млрд событий — YaMBDa YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов. Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий. ⚙️ Что внутри YaMBDa: – 3 объёма данных: 50M, 500M и полный сет на 4,79B событий – Эмбеддинги треков из аудио, полученные через CNN – Метаданные треков: длительность, альбом, исполнитель и др. – Метка is_organic: отличает органические действия в датасете от рекомендованных – Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark 🔗Доступно на HuggingFace

+2
🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций. Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио. Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов: 🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными. 🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки. 🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку. По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD). При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1. ⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ. Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых. ▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах. 🟡Страница проекта 🟡Модели 🟡Arxiv 🟡Demo (китайский язык) 🖥GitHub @ai_machinelearning_big_data #AI #ML #HunyuanAvatar

🌟 V-Triune от MiniMax: RL для VLM. V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепле
+2
🌟 V-Triune от MiniMax: RL для VLM. V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления. В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки. Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.
Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.
Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями. На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность. Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta: 🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B; 🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321; 🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct. ⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #RL #Framework #MiniMax

🚀 Хотите освоить одну из ключевых областей машинного обучения — кластеризацию данных? На открытом вебинаре вы узнаете, как р
🚀 Хотите освоить одну из ключевых областей машинного обучения — кластеризацию данных?  На открытом вебинаре вы узнаете, как работают популярные методы кластеризации, такие как k-means и DBSCAN. Мы не только разберем их теоретические основы, но и покажем, как применять эти алгоритмы на практике для обработки данных. 📊 Освоив методы кластеризации, вы сможете анализировать и группировать данные для дальнейшего использования в реальных проектах. Этот навык необходим в Data Science и востребован на рынке труда. 🗓️ Урок проходит в преддверие старта курса «Machine Learning. Professional». Пройдите регистрацию и получите скидку на обучение! Встречаемся 2 июня в 18:00 МСК. 🔗 Регистрация открыта: https://tglink.io/e29611f3626a?erid=2W5zFGJMpba Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

✔️ Mistral запустил Agents API. Mistral объявила о запуске Agents API — решения, которое превращает языковые модели в активных исполнителей задач. Новый API сочетает возможности LLM с выполнением действий: запуск кода, поиск в сети, генерацию изображений и операции с данными через инструменты MCP. Агенты сохраняют контекст диалога, а их оркестрация позволяет распределять задачи между несколькими «помощниками» для сложных сценариев. Встроенные коннекторы упрощают интеграцию с GitHub, Linear и другими сервисами. Платформа поддерживает потоковую передачу данных и ветвление диалогов. Для старта достаточно создать агента через SDK, настроив инструменты под свои нужды. Подробности в документации и примерах использования. mistral.ai ✔️ Spaitial создает новый тип моделей для реалистичных 3D-сред. Стартап Spaitial разрабатывает Spatial Foundation Models (SFM) — новый тип ИИ, который генерирует и анализирует сложные 3D-миры. В отличие от стандартных генеративных систем, работающих с пикселями или текстом, SFM оперируют геометрией, материалами и физическими свойствами объектов. Это позволяет моделям «понимать» пространство и время, что критично для симуляции реальных процессов или обучения автономных роботов. По словам разработчиков, SFM способны создавать фотореалистичные 3D-сцены из текста, изображения или короткого видео. Пользователи могут исследовать такие среды под любым углом, эта технология открывает новые возможности для игр, AR/VR, цифровых двойников и промышленного моделирования. Желающие попробовать SFM могут записаться в лист ожидания. spaitial.ai ✔️ Компания Марка Цукерберга перестраивает команды по разработке ИИ и AGI. Топ-менеджемент объявил о реорганизации подразделений, связанных с искусственным интеллектом, чтобы ускорить вывод новых продуктов на рынок. Изменения разделят ресурсы на 2 команды: одна займется разработкой пользовательских решений (ассистент, AI Studio, функции в соцсетях), а вторая сосредоточится на технологиях общего AGI: улучшение моделей Llama, мультимедийных возможностей и голосовых систем. При этом исследовательское подразделение FAIR останется независимым, хотя часть команды по мультимедиа перейдёт в AGI-направление. По словам Криса Кокса, главы продуктового отдела, новая структура уменьшит зависимости между командами и повысит гибкость. Никаких сокращений не планируется. axios.com ✔️ TSMC откроет центр разработки чипов в Мюнхене. TSMC анонсировал запуск дизайн-центра в Мюнхене к третьему кварталу 2025 года. Основная цель — помощь европейским клиентам в создании энергоэффективных и высокопроизводительных чипов для автомобилей, промышленности, IoT и ИИ. Центр будет сотрудничать с совместным предприятием ESMC в Дрездене, где TSMC вместе с Infineon, NXP и Bosch строит завод за €10 млрд. Проект ESMC позволит выпускать чипы по передовым техпроцессам, ранее недоступным европейским производителям. reuters.com ✔️ DreaMS: революция в анализе масс-спектров молекул. Ученые из Праги создали модель машинного обучения DreaMS, которая ускоряет расшифровку масс-спектров неизвестных молекул. Разработка команды IOCB и CIIRC CTU и лауреата премии Neuron Томаша Плюскаля, использует самообучение, как ChatGPT для текста, но вместо слов она анализирует «химические отпечатки». Обучаясь на миллионах спектров из растений, почвы и тканей, DreaMS выявляет скрытые связи, создавая подобие «интернета для спектров» — DreaMS Atlas. В ходе разработки модель неожиданно научилась определять фтор, критичный для трети лекарств, хотя раньше это было сложно. Она также обнаружила сходства между пестицидами, кожей человека и едой, предположив их связь с псориазом. Сейчас команда учит DreaMS предсказывать полные структуры молекул, и, возможно, это изменит поиск новых веществ: от лекарств до биохимии. phys.org @ai_machinelearning_big_data #news #ai #ml

+2
🌟 HunyuanPortrait: код и веса. Спустя чуть больше двух месяцев, Tencent опубликовала веса и код инференса проекта HunyuanPortrait - системы на основе диффузионных моделей для создания реалистичных анимированных портретов. На вход подается видео, с которого движения переносятся на целевое изображение для "оживления". Режима "тext-to-motion", судя по всему - нет. Под капотом - набор моделей на основе SVD, DiNOv2, Arc2Face и YoloFace. Разработчики уверяют, что инференс заводится на 24 Гб VRAM и их метод лучше контролирует анимацию и делает более плавные переходы между кадрами, чем существующие аналоги. ⚠️ WebUI нет, адаптации под ComfyUI - пока тоже нет. ▶️Локальный инференс:
# Clone repo
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait

# Install requirements
pip3 install torch torchvision torchaudio
pip3 install -r requirements.txt

# Run
video_path="your_video.mp4"
image_path="your_image.png"

python inference.py \
    --config config/hunyuan-portrait.yaml \
    --video_path $video_path \
    --image_path $image_path
🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #HunyuanPortrait

✔️ OpenAI открывает офис в Сеуле. OpenAI объявила об открытии первого офиса в Сеуле, реагируя на стремительный рост спроса на ChatGPT в Южной Корее. Страна занимает 2 место по числу платных подписчиков сервиса после США. Уже начат набор команды для укрепления местных партнерств, а детали проектов обещают раскрыть в ближайшие месяцы. «От чипов до софта и от студентов до старшего поколения — корейская экосистема идеальна для внедрения ИИ», — отметил Джейсон Квон, директор по стратегии OpenAI. Ранее компания анонсировала сотрудничество с Kakao, разработчиком популярного мессенджера, для создания новых продуктов на базе ИИ. bloomberg.com ✔️ Компания Марка Цукерберга использует посты европейцев для обучения ИИ. С 27 мая техно-гигант начнет использовать публикации пользователей из Европы в своих соцсетях для обучения собственных ИИ-моделей. Пользователи могут попытаться ограничить доступ к своим данным, отправив запрос, но компания не гарантирует удовлетворение таких обращений — заявки будут рассматриваться «в соответствии с законами о защите данных». Регуляторы Бельгии, Франции и Нидерландов уже выразили обеспокоенность таким подходом на фоне глобальных споров о сборе онлайн-данных для ИИ. Создатели моделей ИИ, в свою очередь, настаивают, что весь открытый контент пригоден для обучения, однако это инициирует судебные иски из-за нарушений авторских прав и приватности. euronews.com ✔️ Модель о3 обнаружила уязвимость нулевого дня в ядре Linux. Модель o3 от OpenAI помогла выявить критическую уязвимость в модуле ksmbd ядра Linux, реализующем протокол SMB3. Речь идёт о CVE-2025-37899 — use-after-free в обработчике команды logoff, где освобождённый объект остаётся доступным для других потоков из-за отсутствия подсчета ссылок. Автор исследования, ранее находивший подобные баги вручную, использовал o3 для анализа ~12 тыс. строк кода, что в итоге привело к обнаружению проблемы, требующей понимания параллельных подключений. Хотя o3 выдает ложные срабатывания, ее способность анализировать код уже близка к человеческой. sean.heelan.io ✔️ Анонс CosyVoice 3: новый уровень синтеза речи. Команда SpeechLab (Alibaba Group) анонсировала CosyVoice 3 — новое поколение моделей для генерации речи, которое получило поддержку русского языка и улучшенную по сравнению с CosyVoice 2 передачу интонаций и эмоций. Согласно препринту техотчета, в семействе 2 модели, на 0.5 и 1.5 млрд параметров с новым токенизатором MinMo. Модели обучались методом оптимизации наград DiffRO на 1 млн. часов аудио с имитацией более 100 различных интонаций и эмоций. По тестам CosyVoice 3 снизил частоту ошибок (CER/WER) на 44% для китайского и 51% для английского по сравнению с CosyVoice 2, и обошел F5-TTS, Spark-TTS в кросс-языковых задачах. Кода и весов моделей пока нет. funaudiollm.github.io ✔️ Google расширил доступ к Veo 3 для 71 страны. Всего через несколько дней после запуска, Google расширил доступ к Veo 3, добавив 71 новую страну. Как сообщил вице-президент Gemini Джош Вудворд в сети Х, подписчики Gemini Pro получат пробный пакет из 10 генераций. А вот обладатели Ultra-подписки за $250 в месяц смогут создавать неограниченное количество роликов с ежедневным обновлением квот. Но есть нюансы: Veo 3 работает исключительно в веб-версии Gemini Pro, поддерживает только английскую аудиодорожку, а в Flow mode нельзя добавить голос поверх загруженных изображений. Похоже, Google повторяет успех NotebookLM, но теперь — на уровне визуального контента. Техническое комьюнити ждtт, когда модель научится мультиязычности и расширит функционал. Josh Woodward в сети Х @ai_machinelearning_big_data #news #ai #ml

✔️PyRoki (Python Robot Kinematics Toolkit) от Berkeley PyRoki — это open-source библиотека на Python для задач управления движением роботов. Она решает одну из главных задач в робототехнике — инверсную кинематику (IK), то есть определяет, как двигаться суставам робота, чтобы достичь нужной точки. ▶️ Что умеет PyRoki: ▪️ Инверсная кинематика ▪️ Оптимизация траектории ▪️ Перенос движений между разными роботами (motion retargeting) 🚀 Установка

git clone https://github.com/chungmin99/pyroki.git
cd pyroki
pip install -e .
Чем хороша: ✅ Быстрее на 1.7× по сравнению с cuRobo ✅ Работает на CPU, GPU и даже TPU ✅ Написана полностью на Python — легко внедряется, не требует C++ ✅ Подходит для промышленных роботов, симуляторов, гуманоидов Подходит для: — инженеров робототехники — разработчиков симуляций — ML-исследователей в motion planning ▪️ Репозиторий: https://github.com/chungmin99/pyroki ▪️ Сайт: http://pyroki-toolkit.github.io ▪️ Статья: https://arxiv.org/abs/2505.03728 @ai_machinelearning_big_data #ai #ml #robots

Как применять LLM в реальных продуктах? Расскажем на открытом уроке «Multimodal RAG: как LLM работают с текстами, картинками и документами» посвященный новому курсу от Otus — LLM Driven Development Разберёмся, как большие языковые модели можно дополнить внешними источниками знаний: базами данных, PDF-документами, изображениями, видео и прочим контентом. ✅Практика: работа мультимодального пайплайна Вы узнаете, как устроен мультимодальный RAG, почему это один из самых эффективных способов интеграции LLM в бизнес-процессы 👉Регистрация: https://otus.pw/WDR2/

🤖 CMG World Robot Competition – Mecha Fighting Series — прошел первый в мире турнир по боксу (и другим видам единоборств) среди гуманоидных роботов. Организатором выступает China Media Group (CMG), китайская государственная медиа-корпорация Соревнования: четыре команды операторов управляют роботами Unitree G1 в реальном времени. Формат — турнирные бои, где начисляют очки за удары разной степени (1 балл за руки, 3 за ноги. @ai_machinelearning_big_data #ai #robots #ml

✔️ OpenAI переводит агента Operator на модель o3. OpenAI объявила о переходе своего автономного агента Operator с кастомной версии GPT-4o на модель o3 — одну из последних в линейке, заточенных под логические задачи. Как отмечают разработчики, o3 заметно превосходит предшественников в математике и анализе, а ещё получила «прокачку» в безопасности. o3 Operator была обучена на дополнительных данных, которые учат модель четче определять границы допустимых действий (отказываться от поиска личной информации или выполнения сомнительных запросов). По данным технического отчета, система стала устойчивее к prompt-инъекциям, но доступ к терминалу или среде разработки у нее по-прежнему заблокирован. При этом API Operator останется на базе GPT-4o — изменения коснутся только облачного агента. openai ✔️ Nvidia опубликовала модель AceReason-Nemotron-14B. AceReason-Nemotron - модель с 14 млрд. параметров, которая фокусируется на решении задач по математике и программированию. Модель построена на базе DeepSeek-R1-Distill-Qwen-14B с помощью RL: сначала еe тренировали на математических задачах, затем — на коде. Такой подход позволил достичь высокой точности pass@1 в ключевых тестах (78,6 на AIME 2024 и 61,1 на LiveCodeBench v5). По заявлению разработчиков, многоуровневый подход к данным помог добиться прогресса в сложных бенчмарках типа Codeforces ELO (показатель 2024). Модель уже доступна на Hugging Face. NVIDIA ✔️ Microsoft добавит ИИ в Notepad, Paint и Snipping Tool для Windows 11. Для участников программ Canary и Dev Microsoft тестирует набор ИИ-инструментов в базовых приложениях. Notepad получил функцию Write: генерация текста по запросу и редактирование существующего контента с подсказками ИИ. В Paint добавили генератор стикеров — нейросеть создает их по текстовому промпту. Также появился ИИ-инструмент для точного выделения объектов, упрощающий работу с элементами изображений. В Snipping Tool теперь есть «Идеальный скриншот»: ИИ автоматически кадрирует выделенную область, учитывая её содержимое. Для доступа к Write в Notepad потребуется аккаунт Microsoft и кредитная система, как у других ИИ-фич системы. Пока компания не раскрыла детали тарификации, но тестирование уже доступно на Copilot Plus PC. blogs.windows.com ✔️ Apple планирует выпустить умные очки с ИИ к концу 2026 года. Apple ускорила разработку умных очков с ИИ, релиз которых запланирован на 2026 год. Устройства оснастят камерами, микрофонами и продвинутым ИИ, позволяющим делать фото, записывать видео, давать навигационные подсказки, отвечать на вопросы и анализировать окружение пользователя. Ключевой элемент — глубокая интеграция с Siri, чьи функции сейчас активно дорабатываются. Пока они не будут поддерживать дополненную реальность — это долгосрочная цель Apple. Однако уже сейчас команда фокусируется на базовых возможностях, схожих с Ray-Ban и Google Android XR. По словам сотрудника компании, качество исполнения превзойдет аналоги конкурентов. bloomberg ✔️ Китайские человекоподобные роботы прошли смотр перед первым в мире матчем по робо-боксу. В Ханчжоу прошла демонстрация роботов Unitree Robotics, которые отработали движения в рамках подготовки к первому в мире бою роботов 25 мая. На тестовой площадке машины показали прямые и боковые удары, прыжки с разворотами, а даже подъем после падения, вызвав восторг у учеников. Перед матчем роботы прошли «проверку на прочность» — 40-минутную пробежку на баскетбольной площадке. Управление осуществляется тремя способами: через простой контроллер и два новых метода, которые раскроют только на турнире. В рамках соревнований запланированы показательные выступления и турнирные бои: 1×1 и в группах. 4 команды операторов с разным техническим бэкграундом будут управлять роботами в реальном времени, а победителя определят по итогам серии схваток. interestingengineering ✔️ Valve делает мозговой чип! Гейб Ньюэлл и стартап Starfish Neuroscience представили имплант-конкурент Neuralink. Starfish — можно ставить сразу несколько чипов в разные зоны мозга для комплексного воздействия. ai_ml #news #ai #ml

+3
✔️ Google представила Gemma 3n — лёгкую и быструю AI-модель для работы на девайсах Google выпустила Gemma 3n — это новая версия модели, которая запускается локально на мобильных устройствах. На 1ом видео Gemma 3n запущена локально на устройстве с 2 ГБ оперативной памяти! ➡️ Особенности: • Работает в 1.5 раза быстрее, чем предыдущая Gemma 3 4B • Поддерживает работу без интернета — всё локально и безопасно • Умеет понимать текст, речь и изображения • Можно использовать даже на устройствах с 2–3 ГБ RAM • Поддерживает мгожетсво языков, 💡 Gemma 3n использует гибкую архитектуру (MatFormer), которая может "переключаться" между лёгким и полным режимом (2B и 4B параметров) — модель подстраивается под задачу, не перегружая устройство. 🔧 Как начать пользоваться: • Через Google AI Studio — работает прямо в браузере • Или через SDK Google AI Edge — интеграция на Android, Chromebook и другие устройства 📊 Где это применимо: • Голосовые ассистенты • Приложения с ИИ, которые работают без интернета • Переводчики, чат-боты, анализ изображений на телефоне ➡️Релиз: https://developers.googleblog.com/en/introducing-gemma-3n/ ➡️ Документация: https://ai.google.dev/gemma/docs/gemma-3n#parameters #Gemma #Google #mobile #МультимодальныйИИ #МобильныйИИ #edgedevices