Machinelearning

الذهاب إلى القناة على Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

إظهار المزيد

الشبكة:Machinelearning روسيا1 275 التكنولوجيات والتطبيقات329...

📈 نظرة تحليلية على قناة تيليجرام Machinelearning

تُعد قناة Machinelearning (@ai_machinelearning_big_data) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 296 260 مشتركاً، محتلاً المرتبة 329 في فئة التكنولوجيات والتطبيقات والمرتبة 1 275 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 296 260 مشتركاً.

بحسب آخر البيانات بتاريخ 20 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -6 181، وفي آخر 24 ساعة بمقدار -161، مع بقاء الوصول العام مرتفعاً.

حالة التحقق: غير موثّقة
معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 8.10‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 5.73‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
وصول المنشورات: يحصل كل منشور على متوسط 24 014 مشاهدة. وخلال اليوم الأول يجمع عادةً 16 967 مشاهدة.
التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 187.
الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل openai, claude, api, gemini, контекст.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 21 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

296 260

المشتركون

-16124 ساعات

-1 4287 أيام

-6 18130 أيام

24 014

عرض المشاهدات

~ 16 96724 ساعات

~ 19 11248 ساعات

8.10%

معدل المشاركة

~ 5

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

296 260

📌 Набор датасетов по программированию от HF. HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода: 🟢Stack-Edu - 125 млрд. токенов образовательного кода на 15 языках программирования, отфильтрованных из The Stack v2 🟢GitHub Issues - 11 млрд. токенов из GitHub Issues 🟢Kaggle Notebooks - 2 млрд. токенов ноутбуков Kaggle по анализу данных 🟢CodeForces problems - 10 тыс. уникальных задач из сервиса CodeForces, 3 тыс из которых не были включены в массив обучения, использовавшийся DeepMind 🟢CodeForces problems DeepSeek-R1 - 8,69 Gb отфильтрованных трассировок рассуждений по задачам CodeForces 🟢International Olympiad in Informatics: Problem statements dataset (2020 - 2024) - уникальный набор из заданий Олимпиады по программированию, разбитый на подзадачи так, чтобы каждый запрос соответствовал решению этих подзадач 🟢International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) - 11 тыс трассировок рассуждений, выполненных DeepSeek-R1 в ходе решения заданий Олимпиады по программированию @ai_machinelearning_big_data #AI #ML #LLM #Dataset #HuggingFace

296 260

🌟 MWS запускает новый продукт — MWS Container Platform, которая объединяет в себе передовые технологии Kubernetes, DevOps и AI. Это корпоративное решение для централизованного управления Kubernetes-кластерами, предназначенное для работы в локальных, облачных и гибридных средах Основные моменты: ▶️ Автоматизация ключевых процессов: развертывание, обновление, масштабирование и контроль работы кластеров, что на 40% снижает нагрузку на ИТ-команды ▶️ Встроенные инструменты DevOps на 70% ускоряют выпуск новых приложений и упрощают их эксплуатацию ▶️ Service Mesh на базе Istio обеспечивает полную наблюдаемость за микросервисами ▶️ Поддержка работы с GPU, включая их виртуализацию и балансировку нагрузки, что позволяет повысить эффективность использования GPU на 75% ▶️ Набор готовых инструментов для построения конвейеров MLOps и LLMOps MWS Container Platform упрощает ежедневные задачи администрирования инфраструктуры, ускоряет выпуск новых продуктов и не дает погрязнуть в технической рутине. 🟡Посмотреть #devops #AI #Kubernetes

296 260

🌟 Sonata: алгоритм самообучения для получения надежных представлений точечных данных в 3D. Sonata — самообучающийся алгоритм для работы с облаками точек, опубликованный в рамках CVPR 2025, который решает проблему склонности моделей «цепляться» за простые геометрические подсказки, игнорируя семантику объектов. Это явление, названное «геометрическим сокращением», мешало 3D-решениям распознавать сложные сцены без тонкой настройки. В отличие от конкурентов, Sonata использует принципиально новую архитектуру: вместо U-Net с декодером здесь работает только энкодер Point Transformer V3. Это снижает риск «геометрических ловушек» и увеличивает каналы для анализа с 96 до 512, что критично для семантики. Алгоритм учится через самодистилляцию: модель-«студент» анализирует замаскированные фрагменты сцен, а модель-«учитель» стабилизирует обучение на целых сценах. Чтобы избежать шаблонного вывода, координаты замаскированных точек сильно искажают сильнее (σ=0.01), а сложность задач растёт постепенно — маски увеличиваются с 10 см до 40 см за первые 5% обучения.

Студент — основная модель, которая активно обучается. Она анализирует сложные виды данных: например, сцены с 70% замаскированных точек или крошечные фрагменты (5% от всей сцены). Её параметры обновляются через обратное распространение ошибки. Учитель — «замороженная» версия студента, чьи веса обновляются не через градиенты, а через экспоненциальное скользящее среднее (EMA). Он обрабатывает полные, немодифицированные сцены и служит стабильным ориентиром для студента.

Эти решения позволили собрать гигантский датасет из 140 тыс. 3D-сцен (в 86 раз больше существующих аналогов) и достичь рекордов: точность Sonata при линейном анализе на ScanNet выросла в 3,3 раза (с 21,8% до 72,5%), а с 1% данных метод почти вдвое обгоняет конкурентов. Интеграция с 2D-моделью DINOv2 добавила детализации — комбинированный подход достиг 75,9%. При этом Sonata тратит меньше ресурсов: даже на компактных архитектурах она достигает SOTA-показателей в семантической сегментации помещений и уличных сцен. Код проекта доступен на GitHub, а визуализации показывают, как алгоритм «видит» многоэтажные здания, различая комнаты и этажи без подсказок. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #3D #Robotics #Sonata

296 260

🧍 LHM: новая модель Alibaba для генерации 3D из единственного изображения. Этот ИИ может превратить ЛЮБОЕ изображение в полный рост в анимированных 3D-персонажей за считанные секунды. 🟢Основные моменты работы модели: Выделение признаков: Из входного изображения извлекаются токены, описывающие как общую структуру тела, так и детали лица (с помощью схемы многоуровневого кодирования для головы). 🟢Мультимодальный трансформер: С помощью архитектуры трансформера происходит объединение 3D-геометрических токенов тела с визуальными токенами изображения. Механизм внимания позволяет сохранять геометрию одежды и текстурные детали. 🟢Декодирование в 3D: После слияния токенов модель быстро (в режиме feed-forward) декодирует их в параметры 3D-гaуссового распределения, которые задают форму и внешний вид анимируемого 3D-аватара. ⚡️ Модель выдает очень приличные генерации, видео выглядит плавно и естественно, особенно анимация лица и рук. Установка:

git clone git@github.com:aigc3d/LHM.git
cd LHM

📌Лицензирование: Apache 2.0 License. 🟡Github 🟡Проект 🟡Демка (периодически отваливается из-за наплыва пользователей) 🟡Статья 🟡Видео @ai_machinelearning_big_data #ml #opensource #3dgenerator #Alibaba

296 260

⚡️ Цены на профессиональную линейку Nvidia RTX Pro Blackwell. Американский ритейлер Connections опубликовал цены на серию RTX Pro Blackwell от Nvidia. Флагманская модель RTX Pro 6000 стоит 8565 долларов, это на 26% дороже предыдущего поколения RTX 6000 Ada. В прайсе также перечислены еще невыпущенные модели RTX Pro 4000/4500/5000: 🟢RTX Pro 5000 — 4569 долларов; 🟢RTX Pro 4500 — 2623 доллара; 🟢RTX Pro 4000 — 1546 долларов. Цены, традиционно для американского ритейла, указаны до налогов, которые в каждом штате разные. @ai_machinelearning_big_data #news #ai #ml

296 260

📌Ученые обнаружили сходство между мозгом человека и нейросетями в принципах обработки языка. Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями. Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику. Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных. Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно. Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей. Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь. Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе. 🟡Статья 🟡Исследование @ai_machinelearning_big_data #AI #ML #Research #NLP

296 260

🤖 Modern Robotics Course: Открытый курс по современной робототехнике. Курс содержит лекции, учебные заметки, алгоритмы и практические задания, что позволяет последовательно изучать тему – от основ кинематики до сложных вопросов управления и планирования роботов. 🌟 Что внутри? ▪ Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям . ▪ Практика: Примеры кода на Python и C++ для управления роботами. ▪Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов. ▪Задания: Реальные практические задачи (например, управление манипулятором робота). 🌟 Для кого? ▪ Начинающие робототехники: Освоить кинематику, динамику, управление. ▪ Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++. ▪ Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы. ▪Технологические энтузиасты С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы). ✔️ Готовые решения: Внутри вы найдете библиотеки для работы с преобразованиями, датчиками, движением. ✔️Карьера в робототехнике: Курс даст возможность получить базовые навыки, востребованные в Bosch, Boston Dynamics, Tesla. ⭐️ Преимущества перед другими открытыми курсами 🟠 Акцент на практике: Минимум абстракций — максимум кода. 🟠Совместимость с ROS: Стандарт для промышленной робототехники. 🟠 Современные алгоритмы: Не только классика, но и нейросетевые подходы. ➡️ Cовет: Для погружения в курс, вам поможет книга Robotics, Vision and Control: Fundamental Algorithms in Python, Peter Corke, вот ее репозиторий с примерами кода. P.S. А для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡 ✔️ Github ✔️ Введение в курс ✔️Видео лекции #course #ai #ml #robots #education #курс #робототехника

296 260

✔️ Apple реорганизовывает подразделение ИИ. Создатель Vision Pro, Майк Роквелл возглавит разработку Siri, перейдя под управление Крэга Федериги, главы софтверного подразделения. Джон Джаннандреа, ранее курировавший Siri, сохранит контроль над исследованиями в области ИИ, но потеряет влияние на ключевой потребительский продукт. CEO APPLE Тим Кук очень недоволен динамикой выполнения планов ИИ. Некоторые функции, изначально запланированные на июнь 2024 года, еще не реализованы - полное обновление Siri станет возможным с выходом iOS 20 в 2027 году. bloomberg.com ✔️ Solidigm выпускает eSSD с жидкостным охлаждением. Solidigm представила первое в мире решение eSSD с жидкостным охлаждением для серверов — D7-PS1010 E1.S, которое открывает перспективу для будущих серверов с полностью жидкостным охлаждением. Традиционные решения прямого жидкостного охлаждения eSSD не могут адекватно охлаждать обе стороны накопителя и не поддерживают горячую замену. Разработка Solidigm преодолевает эти ограничения, устраняя необходимость в конструкциях стоек высотой 1U и сокращая расходы на кондиционирование и охлаждение воздуха в ЦОДах. Продукт будет выпущен во второй половине этого года. tomshardware.com ✔️ Cloudflare создала ИИ-лабиринт для борьбы с краулерами. Cloudflare представила новый инструмент «AI Labyrinth», нацеленный усложнить жизнь автоматизированным системам, сканирующим веб-ресурсы. Вместо традиционной блокировки нежелательных запросов "Лабиринт" генерирует с помощью ИИ правдоподобные, но бессмысленные для обучения модели страницы. В результате - краулеры тратят ресурсы на сбор «мусорных» данных, не нарушая при этом репутацию сайтов или их SEO-показатели. Новый функционал уже доступен клиентам платформы в панели управления. Эксперты отмечают, что подобные технологии могут спровоцировать «гонку вооружений» между защитниками и злоумышленниками, но Cloudflare намерена продолжать совершенствовать систему, делая её элементы незаметнее для алгоритмов. theregister.com ✔️ Oracle запускает AI Agent Studio для автоматизации бизнес-процессов. Oracle анонсировала AI Agent Studio — платформу для разработки, внедрения и управления ИИ-агентами в рамках облачного пакета Fusion Applications. Решение позволяет клиентам и партнерам создавать кастомных агентов, оптимизирующих бизнес-задачи: от обработки заказов до планирования ресурсов. Студия предлагает выбор языковых моделей (включая Llama и Cohere), инструменты тестирования и встроенную безопасность, для соответствие корпоративным стандартам. Агенты могут работать как автономно, так и в командах, с контролем этапов через утверждения. Подробности — на oracle.com/applications oracle.com ✔️ HART от MIT и NVIDIA: ускорение генерации изображений в 9 раз. Исследователи из MIT и NVIDIA представили HART - метод, объединяющий преимущества авторегрессионных и диффузионных моделей для генерации изображений. В отличие от медленных диффузионных систем (например, DALL-E), требующих 30+ итераций для денойза, и быстрых, но неточных авторегрессионных алгоритмов, HART использует гибридную архитектуру. Авторегрессионная модель формирует общую структуру изображения, а компактная диффузионная — дорабатывает детали за 8 шагов, компенсируя потери данных через остаточные токены. Благодаря этому, HART генерирует изображения, сопоставимые по качеству с моделями на 2 млрд. параметров, но в 9 раз быстрее и с экономией 31% ресурсов.. В будущем HART планируют адаптировать для видео, аудио и мультимодальных задач, усилив совместимость с LLM. Проект поддержаkb MIT-IBM Watson AI Lab, Amazon Science Hub и NSF. news.mit ✔️ Исходный код AlexNet опубликован в открытом доступе AlexNet — это ИИ для распознавания изображений, перевернувшая мир в 2012 году. Ее разработали Илья Суцкевер, Алекс Крижевский и лауреат Нобелевской премии Джеффри Хинтон. По данным Google Scholar, статья об архитектуре AlexNet была процитирована свыше 170 тысяч раз, что делает её одной из самых часто цитируемых работ в истории информатики. GitHub ✔️Sora стала безлимитной для всех, у кого есть подписка Сhatgpt @ai_machinelearning #news #ai #ml

296 260

🤖 Перед вами недавно снятое видео с "испытательных полигонов" Unitree, демонстрирует головокружительную скорость развития человекоподобных-роботов. Unitree постоянно совершенствуют алгоритмы управления, позволяя роботу обучаться и осваивать всё более сложные и точные движения. Модель G1 обладает 23 степенями свободы, это гарантирует исключительную устойчивость и координацию. Робот оснащён 3D-лидаром, камерой глубины и комплектом микрофонов с функцией шумоподавления для надёжного распознавания голосовых команд. Его «сердцем» является 8-ядерный процессор, обеспечивающий такую высокую манёвренность ❤️ G1 оборудован легко заменяемой батареей ёмкостью 9000 мА·ч, что позволяет ему работать до двух часов, с возможностью оперативной замены источника питания. Максимальная скорость робота достигает 7,2 км/ч. При росте 1,32 метра и весе 35 кг, гуманоидный робот может компактно складываться, занимая пространство в контейнере размером всего 69 × 44 × 30 см. На этапе первичного обучения G1 использует симулятор Isaac от Nvidia, который с помощью методов обучения с подкреплением помогает осваивать сложнейшие алгоритмы поведения в контролируемой цифровой среде. Затем отработанные действия плавно переносятся в физическую модель с использованием процесса Sim2Real, что обеспечивает высокую точность выполнения движений в реальном мире. Unitree выпустила открытый датаяет, предназначенный для повышения эффективности управления и координации движений человекоподобных роботов. Набор данных, созданный с применением технологии захвата движения LAFAN1, полностью совместим с гуманоидными системами Unitree. Он включает усовершенствованный алгоритм перенаправления, который оптимизирует планирование движений через интерактивную обработку и обратную кинематику с учётом ограничений позы, сочленений суставов и параметров скорости. Кстати, цена такого робота начинается от 16к$ https://www.unitree.com/g1 @ai_machinelearning_big_data #ai #robots #news #unitree #ArtificialIntelligence #HumanoidRobot

296 260

🌟 DAPO: алгоритм RL-обучения от ByteDance. ByteDance опубликовала техотчет и код проекта DAPO — RL-алгоритма для больших языковых моделей, который смог преодолеть ограничения классических методов: коллапс энтропии (PPO и GRPO), зашумление из-за отброса длинных ответов, "мертвые зоны" в данных (группы ответов с одинаковым вознаграждением) и жесткая привязка к KL-дивергенции (традиционный RLHF). DAPO включил в себя сразу 4 инновационных метода: 🟢Clip-Higher - решает проблему коллапса энтропии, разделяя диапазон клиппинга на нижний (low=0.2) и верхний (high=0.28). Это позволяет увеличивать вероятность маловероятных токенов, сохраняя разнообразие генерации, и предотвращает преждевременную фиксацию политики в локальном оптимуме. 🟢Dynamic Sampling - устраняет «мёртвые зоны» обучения, отфильтровывая группы ответов с одинаковой наградой (0 или 1), которые не генерируют полезные градиенты. Метод динамически дополняет батч примерами, где есть хотя бы один верный и один неверный ответ, сохраняя стабильность обновлений, что в результате сокращает время сходимости даже с учетом увеличения объема генерации на 20-30%. 🟢Token-Level Policy Gradient Loss - взвешивает вклад каждого токена в длинных цепочках рассуждений. Вместо усреднения по ответу градиенты рассчитываются для каждого токена, что предотвращает подавление значимых паттернов в длинных решениях. Например, 100-токенный ответ влияет на loss в 5 раз сильнее, чем 20-токенный, стимулируя целевую модель к структурированным рассуждениям. 🟢Overlong Reward Shaping - заменяет бинарное пенальти за превышение длины на постепенную штрафную функцию. Ответы длиной до 16К токенов получают полную награду, а в интервале 16-20К токенов штраф линейно растёт от 0 до -1. В итоге - снижается шум, позволяя модели учиться на частично корректных длинных решениях, вместо их полного отбрасывания. Экспериментально обученная с применением DAPO Qwen2.5-32B достигла рекордных 50 баллов на тесте AIME 2024, обойдя DeepSeek-R1-Zero-Qwen-32B (47 баллов) при 2х меньшем числе шагов обучения, а отказ от штрафа за расхождение Кульбака-Лейблера позволил целевой модели свободнее развивать сложные цепочки рассуждений. DAPO, помимо опенсорсной доступности а репозитории на Github, интегрирован в фреймворк verl, а мониторинг поможет отследать ключевые метрики — длину ответов, динамику наград и энтропию. Веса тестовой Qwen2.5-32B и, возможно, других базовых моделей, обученных с DAPO разработчики обещают опубликовать в ближайшем будущем. Попробовать обучение алгоритмом можно специально подготовленным скриптом, с опубликованными вместе датасетами DAPO-Math-17k и валидационным сетом AIME 2024. 🟡Страница проекта 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #RL #ByteDance #DAPO

296 260

Repost from ТЕХНО: Яндекс про технологии

😻 Как бы выглядели современные технологии 50 лет назад? Спросили у модели YandexART 2.5 Pro, которая сегодня появилась в Шедевруме. Подписывайтесь 👉 @techno_yandex

296 260

⚡️ Claude получила возможность веб-поиска. Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов. Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам anthropic.com ✔️ Hugging Face запустил приложение HuggingSnap: оффлайн-ИИ для анализа окружения через камеру iPhone. Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов. Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом. techcrunch.com ✔️ Google добавит Gemini AI в Chrome, повторяя опыт Copilot для Windows 11 Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome. Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты. windowslatest ✔️ AudioX: универсальная модель генерации звука и музыки через кросс-модальные преобразования. Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений. Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио. Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM. Веса и код - coming soon. zeyuet.github ✔️ Microsoft Research разработал Claimify: инструмент фактчекинга ИИ Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту. microsoft ✔️ RF-DETR: новая SOTA для обнаружения объектов в реальном времени с открытым исходным кодом. Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR. Github ✔️ Стивен Джонс, давний архитектор CUDA, выступит с отличной лекцией о том, как написать программу на CUDA! Nvidia @ai_machinelearning_big_data #news #ai #ml

296 260

Repost from Анализ данных (Data analysis)

💬 OPEN AI добавили API 3 новых SOTA аудио-модели. 🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper. 💬 1 Новая модель TTS - которой можно указать *как* ей говорить. Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта. 🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов. Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями. 📌 Потестить можно здесь: https://www.openai.fm/ @data_analysis_ml

296 260

Repost from Анализ данных (Data analysis)

💬 OPEN AI добавили API 3 новых SOTA аудио-модели. 🗣️ Две модели преобразования речи в текст, которые как заявляют разработчики превосходят Whisper. 💬 1 Новая модель TTS - который можно указать *как* ей говорить. Возможность задать интонацию, тон, тембр голоса и еще множество других параметров с помощью простого текстового промпта. 🤖 Еще OpenAi выпустили Agents SDK, который упрощает создание голосовых агентов. Через час состоится стрим, где покажут создание голосовых агентов с новыми аудиомоделями. 📌 Потестить можно здесь: https://www.openai.fm/ @data_analysis_ml

296 260

Repost from Анализ данных (Data analysis)

296 260

⚡️ Обновление семейства Nemotron: теперь с ризонингом. NVIDIA выпустила новые модели и датасет семейства Nemotron : 🟢Модель Llama-3.3-Nemotron-Super-49B-v1 🟢Модель Llama-3.1-Nemotron-Nano-8B-v1 🟠Датасет Llama-Nemotron-Post-Training-Dataset-v1 ▶️Llama-3.3-Nemotron-Super-49B-v1 — флагманская мультиязычная модель, созданная на базе Llama-3.3-70B-Instruct и оптимизированная для ризонинга, чат-взаимодействий и RAG-систем, с контекстным окном 128 тыс. токенов. Ключевая особенность — применение в процессе создания Neural Architecture Search (NAS), метода, который позволил сократить вычислительные затраты без значительной потери качества. Архитектура модели, впервые для семейства Nemotron, использует нестандартные блоки: в части слоев внимание заменено линейными преобразованиями, а параметры FFN-слоев варьируются между блоками. Это позволило адаптировать модель для работы на одном GPU H100-80GB. Обучение проходило в несколько этапов: от дистилляции знаний на 40 млрд. токенов до тонкой настройки с RL-алгоритмами (RPO и REINFORCE). Результаты тестов впечатляют: в режиме «рассуждений» модель демонстрирует 96,6% pass@1 на MATH500 и 58,4% на AIME25, превосходя базовые показатели. Модель умеет переключаться между ризонинг-режимом и типовым LLM-инференсом: для режима рассуждений рекомендуется свой системный промпт и параметры t=0,6 и Top-P=0,95. Модель ориентирована на создание ИИ-агентов, чат-ботов, систем с расширенным контекстом и доступна через API, в веб-демо на NVIDIA Build и веса для скачивания на HuggingFace. ▶️Llama-3.1-Nemotron-Nano-8B-v1 - младшая модель с 8 млрд. параметров, которая предлагает компромисс между точностью и эффективностью. Она создана на основе Llama 3.1 8B Instruct и предлагает улучшение точности базовой Llama 3.1, возможности в рассуждениях, как и флагманская. Модель подходит для запуска на одном GPU RTX и может использоваться локально. Nano-8B-v1 поддерживает длину контекста 128 тыс. токенов. ▶️Llama-Nemotron-Post-Training-Dataset-v1 - набор данных объемом 15.2 млн строк, который представляет собой компиляцию данных SFT и RL для улучшения математических, кодовых, общих рассуждений и возможностей следования инструкциям оригинальной модели Llama. 📌Лицензирование: NVIDIA Open Model License 🟡Статья 🟡Коллекция Nemotron на HF 🟡Arxiv @ai_machinelearning_big_data #AI #ML #LLM #NVIDIA #Nemotron

296 260

🔥 YandexART 2.5 и YandexART 2.5 Pro — релиз от Яндекса: новое поколение визуальной генеративной модели Разработчики уменьшили количество дефектов и улучшили генерацию текста на изображениях. Модели стали чётче следовать инструкциям в промтах. Впервые применили VLM для оценки качества работы нейросети. Визуально-лингвистическая модель проверяла множество изображений на соответствие заданным промтам. Например, действительно ли на картинке присутствовали все заданные пользователем элементы. 🌟 Архитектурные улучшения и технические инновации в YandexART 2.5 Pro: ▶️ Уникальный подход к файнтьюну: разработчики внедрили технологию "супирования" — метод, позволяющий комбинировать различные техники обучения в единый процесс. ▶️ Повышение разрешающей способности: автокодировщик VAE заменили с 4-канального на 16-канальный, увеличив в 4 раза размер латентного пространства, в котором работает диффузионная модель. ▶️ Масштабирование обучающего датасета: почти 1 млрд пар изображений и детализированных описаний. ▶️ Двухэтапная система оценки: специальная визуально-лингвистическая модель не только создаёт описания изображений, но и верифицирует соответствие сгенерированных артефактов исходному запросу. ▶️ Существенное улучшение текстовых возможностей: генерация надписей на латинице улучшена на 68%. ▶️ Контекстно-зависимая адаптация стиля: автоматический подбор визуальной эстетики в зависимости от задачи. Тесты показывают превосходство YandexART 2.5 над Midjourney 6.1 и паритет с другими SOTA-моделями. Доступ к базовой версии — бесплатно в Шедевруме. Для Pro-версии есть подписка за 100₽/месяц. 🟡Релиз: https://habr.com/ru/companies/yandex/news/892532/ @ai_machinelearning_big_data #ai #ml #release

296 260

🌟 KBLaM: новая архитектура интеграции знаний для языковых моделей от Microsoft Research. Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.

В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».

В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет. Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать. Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются. В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF: 🟢Llama-3-8B-Instruct; 🟢Llama-3.2-1B-Instruct; 🟢Phi-3-mini-4k-instruct. и эмбединги для генерации базы знаний: 🟠text-embedding-ada-002; 🟠all-MiniLM-L6-v2. ⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный llama_model.py в src/kblam/models. 📌Лицензирование: MIT License. 🟡Статья 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #MicrosoftResearch #KBLaM

296 260

✔️ Nvidia выпускает 2 персональных суперкомпьютера. На GTC 2025 NVIDIA представила новую серию «персональных суперкомпьютеров с ИИ», построенных на платформе Grace Blackwell - DGX Spark и DGX Station. На них пользователи смогут создавать прототипы, настраивать и запускать модели ИИ. DGX Spark использует GB10 Grace Blackwell с вычислительной мощностью до 100 трлн. операций в секунду. DGX Station получила чип GB300 Grace Blackwell и 784 ГБ памяти. Spark уже доступен к предзаказу, а Station, как ожидается, будет выпущена в течение этого года. nvidianews.nvidia.com ✔️ OpenAI выпустили o1-pro и сейчас это самая дорогая модель. Цена $150 за миллион токенов на вход и $600 на выход. Что примерно в 270 раз дороже DeepSeek-R1. ✔️ В Gemini добавили новые инструменты. В приложении Google Gemini появилась новая функция «Холст», которая предоставляет интерактивное пространство для редактирования текста в реальном времени, позволяя создавать черновики и экспортировать их в Google Docs. Он также может генерировать и просматривать код HTML/React для упрощения дизайна веб-сайта. Помимо "Холста" была запущена функция "текст-в-аудио", которая может обобщать загруженный текст из файлов в аудиоформате и имитировать обсуждение двух ИИ-ведущих так же, как это реализовано в NotebookLM. В настоящее время поддерживается только английский язык, но обещают, что в будущем появится мультиязычность. 9to5google.com ✔️ RTX PRO 6000 от NVIDIA NVIDIA анонсировала выпуск профессиональной серии видеокарт для ИИ, 3D и научных исследований. В линейке RTX PRO 6000 будет 3 версии: Workstation Edition в дизайне RTX 5090, Server Edition с пассивным радиатором охлаждения для ЦОДов и Max-Q Edition с системой воздушного охлаждения турбинного типа для мульти-GPU решений. Все три версии получат 96 ГБ G7 ECC VRAM, чипы GB202 и 24064 CUDA-ядер. Энергопотребление у Workstation Edition и Server Edition - 600 Вт, а у Max-Q Edition - 300 Вт. Дата начала продаж: апрель-май 2025 года, стоимость в анонсе не раскрывалась. theverge.com ✔️ xAI приобрела стартап Hotshot для развития генерации видео из текста. Компания Илона Маска совершила первую крупную сделку, поглотив стартап Hotshot, известный разработкой text-to-video моделей. Как заявил Маск в соцсети X, вскоре пользователей ждут «крутые ИИ-видео» — вероятно, благодаря интеграции технологий Hotshot в экосистему xAI. Hotshot был основан в 2017 году и изначально создавал инструменты для редактирования фото на базе ИИ, но позже переключился на генерацию видео. За 2 года команда разработала 3 фундаментальные модели: Hotshot-XL, Hotshot Act One и Hotshot, которые позволяют превращать текстовые описания в реалистичные ролики. Финансовые условия сделки не раскрыты, однако известно, что стартап получит доступ к кластеру Colossus — мощной инфраструктуре xAI с 200 000 GPU NVIDIA H100. analyticsindiamag.com ✔️ Deloitte запускает Zora AI: автономные агенты для бизнеса. Deloitte представила Zora AI — ИИ-платформу, которая объединяет агентов для автоматизации сложных бизнес-процессов. Решение, построенное на моделях Llama Nemotron с функциями анализа и рассуждений, способно автономно выполнять задачи в финансах, HR, логистике и других сферах. Платформа автоматизирует моделирование сценариев, анализ рынка и управление расходами, что подтверждает внутренний опыт Deloitte: автоматизация процессов снизила затраты на 25%, а продуктивность команды выросла на 40%. deloitte.com ✔️Orpheus 3B - новый высококачественный, генератор эмоциональной речи - лицензия Apache 2.0! 🔥 Обучена на 100 тыс. часов аудио. На выходе получается естественная и эмоциональная речь. HF @ai_machinelearning_big_data #news #ai #ml

296 260

✔️ OpenAI тестирует ChatGPT-коннектор к Google Drive и Slack. OpenAI планирует запустить новую функцию «Коннекторы ChatGPT», которая позволит подписчикам плана "Team" подключать учетные записи Google Диска и Slack к ChatGPT, позволяя отвечать на вопросы на основе файлов, презентаций, электронных таблиц на этих ресурсах. В будущем коннекторы ChatGPT планируется расширить на Microsoft SharePoint и Box. "Коннекторы" разрабатываются, чтобы дать возможность корпоративным пользователям получать доступ к внутренней информации так же легко, как при поиске в Интернете. Компаниям, участвующим в тестировании "коннекторов", необходимо предоставить OpenAI минимум 100 документов, таблиц, презентаций или диалогов в канале Slack. techcrunch.com ✔️ B300 от Nvidia поступит в опытное производство во 2 квартале 2025 года. Аналитик TF International Securities Минг-Чи Куо предположил, что новый чип B300 станет ключевым моментом пресс-конференции GTC 2025. HBM был значительно модернизирован с 192 ГБ до 288 ГБ, а вычислительная производительность была улучшена на 50% (FP4) по сравнению с B200. Ожидается, что B300 будет запущен в опытное производство во 2 квартале 2025 г., а массовое производство — в 3-м квартале 2025 г. jiemian.com ✔️ Гарвард отменит плату за обучение для семей с доходом до 200 000 долларов в год. Гарвардский университет объявил о расширении правил стипендий. Для студентов бакалавриата, чей доход семьи не превышает 200 000 долл. в год, плата за обучение будет отменена, а для студентов, чей доход семьи не превышает 100 000 долл. в год, обучение будет полностью бесплатным. Пенсильванский университет и Массачусетский технологический институт приняли аналогичные решения. В то время, когда плата за обучение во многих ведущих ВУЗах США превышает 90 000 долл. в год, эта политика сделают их более доступными. wsj.com ✔️ Llama скачали более 1 миллиарда раз. Марк Цукерберг написал в своем аккаунте на платформе Threads, что «открытое» семейство моделей Llama было загружено более 1 миллиарда раз. По сравнению с 650 миллионами загрузок в начале декабря 2024 года рост скачиваний составил примерно 53% всего за 3 месяца. Mark Zukerberg в Threads ✔️ NVIDIA, Alphabet и Google объединяют усилия для развития агентного и физического ИИ. Три ИТ-гиганта объявили о новом этапе давнего партнерства, направленном на продвижение ИИ, расширение доступа к ИИ-инструментам, ускорение разработки физического ИИ и трансформацию здравоохранения, производства и энергетики. Инженеры Alphabet тесно сотрудничают с техническими командами NVIDIA, используя AI и симуляцию для создания роботов с навыками захвата, переосмысления открытия лекарств и оптимизации энергосетей. Для поддержки этих исследований Google Cloud станет одним из первых, кто внедрит NVIDIA GB300 NVL72 и GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Совместно с Disney Research разрабатывается Newton, опенсорсный физический движок, ускоренный NVIDIA Warp, который значительно повысит скорость машинного обучения в робототехнике. nvidianews.nvidia.com @ai_machinelearning_big_data #news #ai #ml