Machinelearning

الذهاب إلى القناة على Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

إظهار المزيد

الشبكة:Machinelearning روسيا1 270 التكنولوجيات والتطبيقات328...

📈 نظرة تحليلية على قناة تيليجرام Machinelearning

تُعد قناة Machinelearning (@ai_machinelearning_big_data) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 296 497 مشتركاً، محتلاً المرتبة 328 في فئة التكنولوجيات والتطبيقات والمرتبة 1 270 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 296 497 مشتركاً.

بحسب آخر البيانات بتاريخ 19 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -6 252، وفي آخر 24 ساعة بمقدار -213، مع بقاء الوصول العام مرتفعاً.

حالة التحقق: غير موثّقة
معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 8.08‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 5.74‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
وصول المنشورات: يحصل كل منشور على متوسط 23 972 مشاهدة. وخلال اليوم الأول يجمع عادةً 17 005 مشاهدة.
التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 185.
الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل openai, claude, api, gemini, контекст.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 20 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

296 497

المشتركون

-21324 ساعات

-1 4247 أيام

-6 25230 أيام

23 972

عرض المشاهدات

~ 17 00524 ساعات

~ 19 20848 ساعات

8.08%

معدل المشاركة

~ 5

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

296 470

YTsaurus - масштабируемая платформа для обработки и хранения данных, теперь как сервис в Yandex Cloud Что делает YTsaurus интересной: это не просто "система хранения" - это полноценная вычислительная среда, в которую можно принести любые данные и запускать на них любые задачи. ⚙️ Что умеет YTsaurus: 🟢Поддерживает ClickHouse, Apache Spark и MapReduce в одном пространстве 🟢Обрабатывает эксабайты данных, работает с миллионами CPU и десятками тысяч GPU 🟢Масштабируется под конкретный сценарий — от логов и транзакций до ML-пайплайнов 🟢Подходит для построения корпоративных хранилищ и сложных ETL-систем 🟢При этом доступен как управляемый облачный сервис - без забот о поддержке и инфраструктуре Ранее платформу использовали только в технологических продуктах Яндекса, теперь - можно подключить к своей инфраструктуре и работать как с готовым дата-движком. Интерфейс, API, масштаб - всё заточено под производственные задачи. Это ещё один шаг к доступной ML-инфраструктуре уровня hyperscaler'ов - но с локальной экспертизой. @ai_machinelearning_big_data #YTsaurus #BigData #MLInfrastructure #YandexCloud #DataPlatform #AI

296 470

🖥 NVIDIA снова удивила рынок — результаты сильно превзошли ожидания аналитиков. 📈 За квартал общая выручка выросла на 69%, а продажи в дата-центрах (включая AI-чипы и инфраструктуру) — на 73%. 🔥 Главная причина? Очевидна: взрывной спрос на GPU для обучения и инференса ИИ. Мир строит LLM — и делает это на железе NVIDIA. 📌Финансовые итоги за квартал: ▪ Выручка: $44.1 млрд (+69% год к году) ▪ Earnings per share: $0.96 (прогноз был $0.93) ▪ Доход от дата-центров: $39 млрд (+73% YoY) ▪ Доход от гейминга: $3.8 млрд (+48% по сравнению с прошлым кварталом) 📌 Прибыль vs Прогноз Фактический показатель прибыли на акцию (EPS) у NVIDIA составил $0.96, что на 3,23% выше прогнозируемых $0.93. Также выручка превысила ожидания на $800 млн, что подчёркивает способность компании точно попадать в рыночные тренды и сохранять уверенное финансовое здоровье. 🔥 Комментарии излишни — рынок ИИ буквально катапультирует NVIDIA на новый уровень. GPU стали не просто новым золотом, а инфраструктурой будущего. Пока другие корпорации режут бюджеты и занижают прогнозы, NVIDIA штампует рекорды — квартал за кварталом. @ai_machinelearning_big_data #NVIDIA

296 470

💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования. Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты. На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи. ➡️ Записывайтесь в группу прямо сейчас: https://tglink.io/ff8f84b04b2a?erid=2W5zFGaq6LG Чтобы успеть воспользоваться 🏷10% скидкой на курс «Специализация Machine Learning» и 🎁 бонусным промокодом ML5 и учиться весь год по ценам мая. Скидка на курс действует по 31.05 включительно! #реклама О рекламодателе

296 470

✔️ Релзиз DeepSeek R1-0528 Главное в обновлении DeepSeek R1-0528: • Глубокое рассуждение — на уровне моделей Google • Улучшена генерация текста — более естественно, структурировано и аккуратно • Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно • Может работать над одной задачей 30–60 минут, удерживая контекст Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench. https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 @ai_machinelearning_big_data #DeepSeek #opensource

296 470

✔️ xAI и Telegram планируют партнерство по внедрению Grok. По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы. Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом. Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд. Pavel Durov ✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей. Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи. Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4. support.anthropic ✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов. OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro). Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны. techcrunch ✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса. К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9. "Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года. arstechnica ✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса. ✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize. С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей. Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами. Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью. habr.com @ai_machinelearning_big_data #news #ai #ml

296 470

🤖 Boston Dynamics показали, как их гуманоид Atlas «видит» мир и взаимодействует с ним В новом видео команда ИИ-инженеров показала, как устроена система восприятия Atlas — и это уже не просто «робот с камерами», а почти полноценный агент с чувством пространства и контекста. 🧠 Что умеет Atlas: 🔹 Понимает форму и назначение объектов в реальной среде 🔹 Объединяет 2D и 3D восприятие 🔹 Использует ключевые точки для ориентации в пространстве 🔹 Отслеживает позы объектов с учётом их движения и перекрытия 🔹 Сливает визуальные данные, кинематику и знания об объектах в одну систему 🔹 Имеет сверхточную калибровку для координации «глаз–рука» Atlas может не просто находить предмет, но понимать, *что это*, *зачем оно нужно* и *как его лучше схватить*, даже если оно наполовину скрыто. Команда инженеров работает над единой моделью, которая объединяет восприятие и управление. Это шаг от просто «пространственного ИИ» к настоящему физическому интеллекту. Их робот выглядит на данный момент самым передовым, как вы считаете? #Atlas #BostonDynamics #AI #Robotics #Перцепция #ИскусственныйИнтеллект @ai_machinelearning_big_data

296 470

🌀 Opera Neon — браузер-агент нового поколения Opera представила Neon — браузер со встроенным ИИ-агентом, который продолжает выполнять задачи даже тогда, когда пользователь спит. 🌐 Что умеет Opera Neon? 🔹 Понимает намерения пользователя 🔹 Помогает с задачами — от поиска до бронирования 🔹 Самостоятельно действует: анализирует, предлагает и выполняет 🔹 Работает как агент, а не просто интерфейс Это инфраструктура для агентного интернета, где ИИ помогает тебе в реальном времени. 🚀 Доступ только по инвайтам. Сейчас Opera открывает доступ первым участникам сообщества, чтобы сформировать будущее вместе. Подать заявку: https://www.operaneon.com/ @ai_machinelearning_big_data #OperaNeon #AgenticWeb #AI #БраузерБудущего

296 470

🤖 Стивен Бартлетт — предприниматель, инвестор и ведущий подкаста *The Diary of a CEO* — поделился тревожной деталью о закулисье ИИ-индустрии: Один из топ-CEO компаний, работающих с искусственным интеллектом, публично заявляет: > «Всё под контролем. Нам нечего бояться». Но в приватной беседе — совсем другое: > «Нас ожидает нечто по-настоящему ужасающее». > «То, что он говорит мне наедине — полностью противоположно публичным заявлениям», — добавил источник. 📉 Выходит, даже те, кто стоит у руля ИИ-революции, не до конца уверены, чем она обернётся. ❓А если они боятся — стоит ли нам просто наблюдать? 👉 Полное видео @ai_machinelearning_big_data #AI #Ethics #ИИ #Будущее

296 470

Исследователи Яндекса выложили в опенсорс датасет для RecSys почти на 5 млрд событий — YaMBDa YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов. Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий. ⚙️ Что внутри YaMBDa: – 3 объёма данных: 50M, 500M и полный сет на 4,79B событий – Эмбеддинги треков из аудио, полученные через CNN – Метаданные треков: длительность, альбом, исполнитель и др. – Метка is_organic: отличает органические действия в датасете от рекомендованных – Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark 🔗Доступно на HuggingFace

296 470

🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций. Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио. Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов: 🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными. 🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки. 🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку. По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD). При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1. ⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ. Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых. ▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах. 🟡Страница проекта 🟡Модели 🟡Arxiv 🟡Demo (китайский язык) 🖥GitHub @ai_machinelearning_big_data #AI #ML #HunyuanAvatar

296 470

🌟 V-Triune от MiniMax: RL для VLM. V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления. В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки. Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.

Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями. На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность. Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta: 🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B; 🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321; 🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct. ⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #RL #Framework #MiniMax

296 470

🚀 Хотите освоить одну из ключевых областей машинного обучения — кластеризацию данных? На открытом вебинаре вы узнаете, как работают популярные методы кластеризации, такие как k-means и DBSCAN. Мы не только разберем их теоретические основы, но и покажем, как применять эти алгоритмы на практике для обработки данных. 📊 Освоив методы кластеризации, вы сможете анализировать и группировать данные для дальнейшего использования в реальных проектах. Этот навык необходим в Data Science и востребован на рынке труда. 🗓️ Урок проходит в преддверие старта курса «Machine Learning. Professional». Пройдите регистрацию и получите скидку на обучение! Встречаемся 2 июня в 18:00 МСК. 🔗 Регистрация открыта: https://tglink.io/e29611f3626a?erid=2W5zFGJMpba Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

296 470

✔️ Mistral запустил Agents API. Mistral объявила о запуске Agents API — решения, которое превращает языковые модели в активных исполнителей задач. Новый API сочетает возможности LLM с выполнением действий: запуск кода, поиск в сети, генерацию изображений и операции с данными через инструменты MCP. Агенты сохраняют контекст диалога, а их оркестрация позволяет распределять задачи между несколькими «помощниками» для сложных сценариев. Встроенные коннекторы упрощают интеграцию с GitHub, Linear и другими сервисами. Платформа поддерживает потоковую передачу данных и ветвление диалогов. Для старта достаточно создать агента через SDK, настроив инструменты под свои нужды. Подробности в документации и примерах использования. mistral.ai ✔️ Spaitial создает новый тип моделей для реалистичных 3D-сред. Стартап Spaitial разрабатывает Spatial Foundation Models (SFM) — новый тип ИИ, который генерирует и анализирует сложные 3D-миры. В отличие от стандартных генеративных систем, работающих с пикселями или текстом, SFM оперируют геометрией, материалами и физическими свойствами объектов. Это позволяет моделям «понимать» пространство и время, что критично для симуляции реальных процессов или обучения автономных роботов. По словам разработчиков, SFM способны создавать фотореалистичные 3D-сцены из текста, изображения или короткого видео. Пользователи могут исследовать такие среды под любым углом, эта технология открывает новые возможности для игр, AR/VR, цифровых двойников и промышленного моделирования. Желающие попробовать SFM могут записаться в лист ожидания. spaitial.ai ✔️ Компания Марка Цукерберга перестраивает команды по разработке ИИ и AGI. Топ-менеджемент объявил о реорганизации подразделений, связанных с искусственным интеллектом, чтобы ускорить вывод новых продуктов на рынок. Изменения разделят ресурсы на 2 команды: одна займется разработкой пользовательских решений (ассистент, AI Studio, функции в соцсетях), а вторая сосредоточится на технологиях общего AGI: улучшение моделей Llama, мультимедийных возможностей и голосовых систем. При этом исследовательское подразделение FAIR останется независимым, хотя часть команды по мультимедиа перейдёт в AGI-направление. По словам Криса Кокса, главы продуктового отдела, новая структура уменьшит зависимости между командами и повысит гибкость. Никаких сокращений не планируется. axios.com ✔️ TSMC откроет центр разработки чипов в Мюнхене. TSMC анонсировал запуск дизайн-центра в Мюнхене к третьему кварталу 2025 года. Основная цель — помощь европейским клиентам в создании энергоэффективных и высокопроизводительных чипов для автомобилей, промышленности, IoT и ИИ. Центр будет сотрудничать с совместным предприятием ESMC в Дрездене, где TSMC вместе с Infineon, NXP и Bosch строит завод за €10 млрд. Проект ESMC позволит выпускать чипы по передовым техпроцессам, ранее недоступным европейским производителям. reuters.com ✔️ DreaMS: революция в анализе масс-спектров молекул. Ученые из Праги создали модель машинного обучения DreaMS, которая ускоряет расшифровку масс-спектров неизвестных молекул. Разработка команды IOCB и CIIRC CTU и лауреата премии Neuron Томаша Плюскаля, использует самообучение, как ChatGPT для текста, но вместо слов она анализирует «химические отпечатки». Обучаясь на миллионах спектров из растений, почвы и тканей, DreaMS выявляет скрытые связи, создавая подобие «интернета для спектров» — DreaMS Atlas. В ходе разработки модель неожиданно научилась определять фтор, критичный для трети лекарств, хотя раньше это было сложно. Она также обнаружила сходства между пестицидами, кожей человека и едой, предположив их связь с псориазом. Сейчас команда учит DreaMS предсказывать полные структуры молекул, и, возможно, это изменит поиск новых веществ: от лекарств до биохимии. phys.org @ai_machinelearning_big_data #news #ai #ml

296 470

🌟 HunyuanPortrait: код и веса. Спустя чуть больше двух месяцев, Tencent опубликовала веса и код инференса проекта HunyuanPortrait - системы на основе диффузионных моделей для создания реалистичных анимированных портретов. На вход подается видео, с которого движения переносятся на целевое изображение для "оживления". Режима "тext-to-motion", судя по всему - нет. Под капотом - набор моделей на основе SVD, DiNOv2, Arc2Face и YoloFace. Разработчики уверяют, что инференс заводится на 24 Гб VRAM и их метод лучше контролирует анимацию и делает более плавные переходы между кадрами, чем существующие аналоги. ⚠️ WebUI нет, адаптации под ComfyUI - пока тоже нет. ▶️Локальный инференс:

# Clone repo
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait

# Install requirements
pip3 install torch torchvision torchaudio
pip3 install -r requirements.txt

# Run
video_path="your_video.mp4"
image_path="your_image.png"

python inference.py \
    --config config/hunyuan-portrait.yaml \
    --video_path $video_path \
    --image_path $image_path

🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #HunyuanPortrait

296 470

✔️ OpenAI открывает офис в Сеуле. OpenAI объявила об открытии первого офиса в Сеуле, реагируя на стремительный рост спроса на ChatGPT в Южной Корее. Страна занимает 2 место по числу платных подписчиков сервиса после США. Уже начат набор команды для укрепления местных партнерств, а детали проектов обещают раскрыть в ближайшие месяцы. «От чипов до софта и от студентов до старшего поколения — корейская экосистема идеальна для внедрения ИИ», — отметил Джейсон Квон, директор по стратегии OpenAI. Ранее компания анонсировала сотрудничество с Kakao, разработчиком популярного мессенджера, для создания новых продуктов на базе ИИ. bloomberg.com ✔️ Компания Марка Цукерберга использует посты европейцев для обучения ИИ. С 27 мая техно-гигант начнет использовать публикации пользователей из Европы в своих соцсетях для обучения собственных ИИ-моделей. Пользователи могут попытаться ограничить доступ к своим данным, отправив запрос, но компания не гарантирует удовлетворение таких обращений — заявки будут рассматриваться «в соответствии с законами о защите данных». Регуляторы Бельгии, Франции и Нидерландов уже выразили обеспокоенность таким подходом на фоне глобальных споров о сборе онлайн-данных для ИИ. Создатели моделей ИИ, в свою очередь, настаивают, что весь открытый контент пригоден для обучения, однако это инициирует судебные иски из-за нарушений авторских прав и приватности. euronews.com ✔️ Модель о3 обнаружила уязвимость нулевого дня в ядре Linux. Модель o3 от OpenAI помогла выявить критическую уязвимость в модуле ksmbd ядра Linux, реализующем протокол SMB3. Речь идёт о CVE-2025-37899 — use-after-free в обработчике команды logoff, где освобождённый объект остаётся доступным для других потоков из-за отсутствия подсчета ссылок. Автор исследования, ранее находивший подобные баги вручную, использовал o3 для анализа ~12 тыс. строк кода, что в итоге привело к обнаружению проблемы, требующей понимания параллельных подключений. Хотя o3 выдает ложные срабатывания, ее способность анализировать код уже близка к человеческой. sean.heelan.io ✔️ Анонс CosyVoice 3: новый уровень синтеза речи. Команда SpeechLab (Alibaba Group) анонсировала CosyVoice 3 — новое поколение моделей для генерации речи, которое получило поддержку русского языка и улучшенную по сравнению с CosyVoice 2 передачу интонаций и эмоций. Согласно препринту техотчета, в семействе 2 модели, на 0.5 и 1.5 млрд параметров с новым токенизатором MinMo. Модели обучались методом оптимизации наград DiffRO на 1 млн. часов аудио с имитацией более 100 различных интонаций и эмоций. По тестам CosyVoice 3 снизил частоту ошибок (CER/WER) на 44% для китайского и 51% для английского по сравнению с CosyVoice 2, и обошел F5-TTS, Spark-TTS в кросс-языковых задачах. Кода и весов моделей пока нет. funaudiollm.github.io ✔️ Google расширил доступ к Veo 3 для 71 страны. Всего через несколько дней после запуска, Google расширил доступ к Veo 3, добавив 71 новую страну. Как сообщил вице-президент Gemini Джош Вудворд в сети Х, подписчики Gemini Pro получат пробный пакет из 10 генераций. А вот обладатели Ultra-подписки за $250 в месяц смогут создавать неограниченное количество роликов с ежедневным обновлением квот. Но есть нюансы: Veo 3 работает исключительно в веб-версии Gemini Pro, поддерживает только английскую аудиодорожку, а в Flow mode нельзя добавить голос поверх загруженных изображений. Похоже, Google повторяет успех NotebookLM, но теперь — на уровне визуального контента. Техническое комьюнити ждtт, когда модель научится мультиязычности и расширит функционал. Josh Woodward в сети Х @ai_machinelearning_big_data #news #ai #ml

296 470

✔️PyRoki (Python Robot Kinematics Toolkit) от Berkeley PyRoki — это open-source библиотека на Python для задач управления движением роботов. Она решает одну из главных задач в робототехнике — инверсную кинематику (IK), то есть определяет, как двигаться суставам робота, чтобы достичь нужной точки. ▶️ Что умеет PyRoki: ▪️ Инверсная кинематика ▪️ Оптимизация траектории ▪️ Перенос движений между разными роботами (motion retargeting) 🚀 Установка


git clone https://github.com/chungmin99/pyroki.git
cd pyroki
pip install -e .

Чем хороша: ✅ Быстрее на 1.7× по сравнению с cuRobo ✅ Работает на CPU, GPU и даже TPU ✅ Написана полностью на Python — легко внедряется, не требует C++ ✅ Подходит для промышленных роботов, симуляторов, гуманоидов Подходит для: — инженеров робототехники — разработчиков симуляций — ML-исследователей в motion planning ▪️ Репозиторий: https://github.com/chungmin99/pyroki ▪️ Сайт: http://pyroki-toolkit.github.io ▪️ Статья: https://arxiv.org/abs/2505.03728 @ai_machinelearning_big_data #ai #ml #robots

296 470

Как применять LLM в реальных продуктах? Расскажем на открытом уроке «Multimodal RAG: как LLM работают с текстами, картинками и документами» посвященный новому курсу от Otus — LLM Driven Development Разберёмся, как большие языковые модели можно дополнить внешними источниками знаний: базами данных, PDF-документами, изображениями, видео и прочим контентом. ✅Практика: работа мультимодального пайплайна Вы узнаете, как устроен мультимодальный RAG, почему это один из самых эффективных способов интеграции LLM в бизнес-процессы 👉Регистрация: https://otus.pw/WDR2/

296 470

🤖 CMG World Robot Competition – Mecha Fighting Series — прошел первый в мире турнир по боксу (и другим видам единоборств) среди гуманоидных роботов. Организатором выступает China Media Group (CMG), китайская государственная медиа-корпорация Соревнования: четыре команды операторов управляют роботами Unitree G1 в реальном времени. Формат — турнирные бои, где начисляют очки за удары разной степени (1 балл за руки, 3 за ноги. @ai_machinelearning_big_data #ai #robots #ml

296 470

✔️ OpenAI переводит агента Operator на модель o3. OpenAI объявила о переходе своего автономного агента Operator с кастомной версии GPT-4o на модель o3 — одну из последних в линейке, заточенных под логические задачи. Как отмечают разработчики, o3 заметно превосходит предшественников в математике и анализе, а ещё получила «прокачку» в безопасности. o3 Operator была обучена на дополнительных данных, которые учат модель четче определять границы допустимых действий (отказываться от поиска личной информации или выполнения сомнительных запросов). По данным технического отчета, система стала устойчивее к prompt-инъекциям, но доступ к терминалу или среде разработки у нее по-прежнему заблокирован. При этом API Operator останется на базе GPT-4o — изменения коснутся только облачного агента. openai ✔️ Nvidia опубликовала модель AceReason-Nemotron-14B. AceReason-Nemotron - модель с 14 млрд. параметров, которая фокусируется на решении задач по математике и программированию. Модель построена на базе DeepSeek-R1-Distill-Qwen-14B с помощью RL: сначала еe тренировали на математических задачах, затем — на коде. Такой подход позволил достичь высокой точности pass@1 в ключевых тестах (78,6 на AIME 2024 и 61,1 на LiveCodeBench v5). По заявлению разработчиков, многоуровневый подход к данным помог добиться прогресса в сложных бенчмарках типа Codeforces ELO (показатель 2024). Модель уже доступна на Hugging Face. NVIDIA ✔️ Microsoft добавит ИИ в Notepad, Paint и Snipping Tool для Windows 11. Для участников программ Canary и Dev Microsoft тестирует набор ИИ-инструментов в базовых приложениях. Notepad получил функцию Write: генерация текста по запросу и редактирование существующего контента с подсказками ИИ. В Paint добавили генератор стикеров — нейросеть создает их по текстовому промпту. Также появился ИИ-инструмент для точного выделения объектов, упрощающий работу с элементами изображений. В Snipping Tool теперь есть «Идеальный скриншот»: ИИ автоматически кадрирует выделенную область, учитывая её содержимое. Для доступа к Write в Notepad потребуется аккаунт Microsoft и кредитная система, как у других ИИ-фич системы. Пока компания не раскрыла детали тарификации, но тестирование уже доступно на Copilot Plus PC. blogs.windows.com ✔️ Apple планирует выпустить умные очки с ИИ к концу 2026 года. Apple ускорила разработку умных очков с ИИ, релиз которых запланирован на 2026 год. Устройства оснастят камерами, микрофонами и продвинутым ИИ, позволяющим делать фото, записывать видео, давать навигационные подсказки, отвечать на вопросы и анализировать окружение пользователя. Ключевой элемент — глубокая интеграция с Siri, чьи функции сейчас активно дорабатываются. Пока они не будут поддерживать дополненную реальность — это долгосрочная цель Apple. Однако уже сейчас команда фокусируется на базовых возможностях, схожих с Ray-Ban и Google Android XR. По словам сотрудника компании, качество исполнения превзойдет аналоги конкурентов. bloomberg ✔️ Китайские человекоподобные роботы прошли смотр перед первым в мире матчем по робо-боксу. В Ханчжоу прошла демонстрация роботов Unitree Robotics, которые отработали движения в рамках подготовки к первому в мире бою роботов 25 мая. На тестовой площадке машины показали прямые и боковые удары, прыжки с разворотами, а даже подъем после падения, вызвав восторг у учеников. Перед матчем роботы прошли «проверку на прочность» — 40-минутную пробежку на баскетбольной площадке. Управление осуществляется тремя способами: через простой контроллер и два новых метода, которые раскроют только на турнире. В рамках соревнований запланированы показательные выступления и турнирные бои: 1×1 и в группах. 4 команды операторов с разным техническим бэкграундом будут управлять роботами в реальном времени, а победителя определят по итогам серии схваток. interestingengineering ✔️ Valve делает мозговой чип! Гейб Ньюэлл и стартап Starfish Neuroscience представили имплант-конкурент Neuralink. Starfish — можно ставить сразу несколько чипов в разные зоны мозга для комплексного воздействия. ai_ml #news #ai #ml

296 470

✔️ Google представила Gemma 3n — лёгкую и быструю AI-модель для работы на девайсах Google выпустила Gemma 3n — это новая версия модели, которая запускается локально на мобильных устройствах. На 1ом видео Gemma 3n запущена локально на устройстве с 2 ГБ оперативной памяти! ➡️ Особенности: • Работает в 1.5 раза быстрее, чем предыдущая Gemma 3 4B • Поддерживает работу без интернета — всё локально и безопасно • Умеет понимать текст, речь и изображения • Можно использовать даже на устройствах с 2–3 ГБ RAM • Поддерживает мгожетсво языков, 💡 Gemma 3n использует гибкую архитектуру (MatFormer), которая может "переключаться" между лёгким и полным режимом (2B и 4B параметров) — модель подстраивается под задачу, не перегружая устройство. 🔧 Как начать пользоваться: • Через Google AI Studio — работает прямо в браузере • Или через SDK Google AI Edge — интеграция на Android, Chromebook и другие устройства 📊 Где это применимо: • Голосовые ассистенты • Приложения с ИИ, которые работают без интернета • Переводчики, чат-боты, анализ изображений на телефоне ➡️Релиз: https://developers.googleblog.com/en/introducing-gemma-3n/ ➡️ Документация: https://ai.google.dev/gemma/docs/gemma-3n#parameters #Gemma #Google #mobile #МультимодальныйИИ #МобильныйИИ #edgedevices