ru
Feedback
Machinelearning

Machinelearning

Открыть в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Больше

📈 Аналитический обзор Telegram-канала Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 296 715 подписчиков, занимая 327 место в категории Технологии и приложения и 1 263 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 296 715 подписчиков.

Согласно последним данным от 17 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 411, а за последние 24 часа — -226, при этом общий охват остаётся высоким.

  • Статус верификации: Не верифицирован
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.11%. В первые 24 часа после публикации контент обычно набирает 5.61% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 24 075 просмотров. В течение первых суток публикация набирает 16 662 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 196.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Благодаря высокой частоте обновлений (последние данные получены 19 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

296 715
Подписчики
-22624 часа
-1 4057 дней
-6 41130 день
Архив постов
🌟 Google LangExtract: библиотека извлечения структуры из любого текста. LangExtract - опенсорсная python-библиотека с функци
+3
🌟 Google LangExtract: библиотека извлечения структуры из любого текста. LangExtract - опенсорсная python-библиотека с функцией легковесного интерфейса к LLM, которая превращает большие объемы текста в структурированные данные. 🟡 Ключевая особенность LangExtract на фоне других инструментов - точный фокус на источник. Каждая извлеченная сущность, будь то имя, дата или дозировка лекарства, привязывается к точным символьным смещениям в исходном тексте. Это дает полную прослеживаемость и верифицируемость результата, просто подсветив найденные данные в оригинальном документе. Больше никаких «откуда модель это взяла?». 🟡 Вторая сильная сторона - надежность выходных данных. Вы определяете желаемый формат вывода с помощью специального представления данных и даете модели несколько примеров . Используя эти примеры, LangExtract следует заданной схеме, задействуя механизм контролируемой генерации, который поддерживается в моделях Gemini. Это гарантирует, что на выходе вы всегда будете получать данные в консистентном, предсказуемом формате. 🟡LangExtract умеет работать с действительно большими объемами. Библиотека умеет бить текст на чанки, которые обрабатываются параллельно в несколько проходов, каждый из которых фокусируется на более узком контексте. Для наглядности библиотека умеет генерировать интерактивную и полностью автономную HTML-визуализацию. Это позволяет за считаные минуты перейти от сырого текста к визуальному представлению, где можно исследовать тысячи извлеченных аннотаций. При этом LangExtract не замыкается на экосистеме Google: он поддерживает гибкую смену LLM-бэкендов, позволяя работать как с облачными моделями, так и с опенсорсными решениями, развернутыми локально. 🟡LangExtract может задействовать "мировые знания" LLM для обогащения данных. Информация может быть как явной (извлеченной из текста), так и основанной на внутренних знаниях модели. Разумеется, точность таких выведенных данных сильно зависит от возможностей конкретной LLM и качества предоставленных примеров в промпте. Изначально идеи, заложенные в LangExtract, были применены для извлечения информации из медицинских текстов. Библиотека отлично справляется с идентификацией лекарств, их дозировок и других атрибутов в клинических записях. Чтобы продемонстрировать возможности инструмента в узкоспециализированной области, Google создал на Hugging Face интерактивное демо RadExtract. В нем показано, как LangExtract может обработать радиологический отчет, написанный свободным текстом, и автоматически преобразовать его ключевые выводы в структурированный формат, подсвечивая важные находки. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🖥Github @ai_machinelearning_big_data #AI #ML #LangExtract #Google

Тенденция в IT-образовании: университеты и бизнес создают совместные программы Современное технологическое образование все ча
Тенденция в IT-образовании: университеты и бизнес создают совместные программы Современное технологическое образование все чаще выходит за рамки академических аудиторий. Яркий пример — новая магистерская программа «Машинное обучение в цифровом продукте», разработанная ФКН ВШЭ совместно с Авито. Ключевые особенности программы: — акцент на практическом применении ML в разработке цифровых продуктов — работа с реальными кейсами Авито — сбалансированный учебный план: от фундаментальных дисциплин до узкоспециализированных курсов — совместное преподавание университетских экспертов и инженеров компании Условия поступления: — Требуемые навыки: Python, SQL, алгоритмы, высшая математика — Обязательное присутствие на очных занятиях в Москве — Многоэтапный отбор: тестирование и собеседование — 35 мест, 30 из которых оплачивает Авито Студенты программы получат возможность попасть на стажировку в Авито с перспективой дальнейшего трудоустройства. Заявки принимают до 8 августа в личном кабинете абитуриента в ВШЭ, дальше — несколько этапов отбора.

🌟 Mistral представила свой ответ GitHub Copilot: полноценную экосистему для разработки в энтерпрайзе. В основе технологическ
+4
🌟 Mistral представила свой ответ GitHub Copilot: полноценную экосистему для разработки в энтерпрайзе. В основе технологического стека - семейство моделей Codestral, с обновленной моделью Codestral 25.08. Эта версия показала измеримые улучшения, подтвержденные на реальных кодовых базах: на 30% увеличилось количество принятых автодополнений, на 10% вырос объем сохраняемого после подсказки кода, а число генераций, когда модель производит слишком длинный и некорректный код, сократилось на 50%. В режиме чата модель также стала лучше: ее способность следовать инструкциям выросла на 5% по метрике IF Eval v8, а общие возможности в программировании улучшились в среднем на 5% по тесту MultiplE. 🟡 Следующий уровень - семантический поиск и понимание кодовой базы в масштабе всего проекта. За это отвечает Codestral Embed, модель для создания векторных представлений, специально спроектированная для кода, а не для обычного текста. По заявлениям Mistral, она превосходит эмбеддинг-решения от OpenAI и Cohere в реальных задачах по извлечению кода. Ключевое преимущество - возможность настройки размерности эмбеддингов (до 256 измерений с квантованием до INT8), что позволяет балансировать между качеством поиска и хранением данных, сохраняя высокую производительность. 🟡Когда релевантный контекст найден, в дело вступают агентные воркфлоу. Они реализованные через Devstral - агентскую систему на базе фреймворка OpenHands. Система ориентирована на задачи рефакторинга, генерации тестов и создание pull-реквестов. На бенче SWE-Bench Verified модель Devstral Small 1.1 выбивает 53.6%, а Devstral Medium - 61.6%, значительно опережая Claude 3.5 и GPT-4.1-mini. Devstral Small (24 млрд параметров) может работать на одной Nvidia RTX 4090 или Mac с 32 ГБ ОЗУ, что идеально для локальных или изолированных сред. Все эти возможности объединяются в плагине Mistral Code для IDE от JetBrains и VS Code. Он автодополняет код с помощью Codestral 25.08 и автоматизирует рутину: написание коммитов или docstring’ов через Devstral, и семантический поиск на базе Codestral Embed. Плагин учитывает контекст из Git diffs, истории терминала и инструментов статического анализа. Для корпоративных клиентов предусмотрено развертывание в облаке, VPC или полностью on-prem, а также интеграция с SSO, ведение логов аудита и отсутствие обязательной телеметрии. @ai_machinelearning_big_data #news #ai #ml

✔️ Марк Цукерберг опубликовал открытое письмо: нас ждет "персональный сверхинтеллект". Глава техногиганта в своем обращении определил видение компании на ближайшее десятилетие. Центральное место в нем занимает концепция персонализированного ИИ-помощника, который будет доступен каждому. Цукерберг прямо противопоставил этот подход видению конкурентов, где сверхинтеллект централизованно автоматизирует всю работу, а человечество живет на его обеспечении. Сам Марк считает, что прогресс достигается через реализацию индивидуальных устремлений. Ключевым элементом этой экосистемы станут персональные устройства, в первую очередь очки, которые будут считывать контекст пользователя и станут основным вычислительным устройством. Цукерберг также отметил, что, несмотря на симпатию к open-source, компания будет более осмотрительно подходить к вопросам безопасности, решая, какие технологии можно делать открытыми. businessinsider.com ✔️ Google подпишет Кодекс по ИИ Евросоюза. Google объявила о своем намерении присоединиться к добровольному Кодексу по регулированию моделей ИИ общего назначения, предложенному Еврокомиссией. Таким образом, компания последует примеру других ключевых игроков рынка. Вместе с тем, в Google выразили обеспокоенность по поводу грядущего AI Act. По мнению компании, некоторые его положения, выходящие за рамки действующего законодательства об авторском праве, и потенциальные задержки в процессах утверждения могут замедлить развитие и внедрение ИИ в Европе. Компания также опасается, что ее могут вынудить раскрыть коммерческие тайны. blog.google ✔️ NEO: агентная система, которая полностью автоматизирует ML-разработку. Стартап WithNeo анонсировал NEO - мультиагентную ИИ-систему для автоматизации всего цикла разработки в машинном обучении. Платформа использует 11 специализированных агентов, которые без участия человека выполняют весь спектр задач: от очистки данных и выбора моделей до настройки гиперпараметров и вывода кода в продакшен. В WithNeo заявляют, что такой подход дает возможность просто описывать желаемый результат, а не писать код и связывать воедино разные компоненты. Инструмент позиционируется как следующий шаг в эволюции ИИ-ассистентов, превосходящий стандартные "копайлоты". В ходе ранних тестов система выбила медали в 34% соревнований на Kaggle. heyneo.so ✔️ DeepMind показала модель для создания цифрового двойника Земли. AlphaEarth Foundations, ИИ-модель от Google Deepmind, которая объединяет спутниковые данные (оптические, радарные, LiDAR) и климатическую информацию в единое цифровое представление планеты. По заявлению компании, система снижает количество ошибок на 23.9% и сжимает данные в 16 раз по сравнению с существующими методами, что удешевляет и ускоряет анализ массивов изображений. Модель генерирует поля эмбеддингов с разрешением 10 метров для каждого квадрата 10x10 метров на Земле. Это позволяет отслеживать вырубку лесов, состояние посевов и другие изменения почти в реальном времени. Набор данных Satellite Embedding доступен через платформу Google Earth Engine. Компания подчеркивает, что разрешение достаточно для экологического мониторинга, но не позволяет идентифицировать людей. deepmind.google ✔️ Ideogram научился генерировать персонажей с сохранением внешности. Ideogram AI выпустил модель Ideogram Character, решающую одну из главных проблем text-to-image систем - сохранение визуальной консистентности персонажа на разных изображениях. Новый инструмент позволяет поддерживать идентичность героя, используя всего одно референсное изображение. После этого пользователи могут генерировать того же персонажа в разных стилях, с разными эмоциями и при различном освещении без необходимости дообучения модели. Функция уже начала развертываться для всех пользователей. На бесплатном тарифе дают опробовать функцию 10 раз. Ideogram Character доступна как в веб-версии, так и в приложении для iOS. about.ideogram.ai @ai_machinelearning_big_data #news #ai #ml

📊 Stack Overflow Developer Survey 2025 — опрос 49 000 разработчиков из 177 стран Stack Overflow Developer Survey — это крупн
+9
📊 Stack Overflow Developer Survey 2025 — опрос 49 000 разработчиков из 177 стран Stack Overflow Developer Survey — это крупнейшее ежегодное исследование среди разработчиков по всему миру, которое проводит платформа Stack Overflow. В 15‑й год в опросе приняли участие более 49 000 разработчиков из 177 стран. Опрос охватил 62 вопроса по 314 технологиям 76 % респондентов — профессиональные разработчики, большинство из них (66 %) — в возрасте 25–44 лет 🔥 Главное: 🧠 AI используют почти все: - 80 % пишут код с помощью AI. - Но лишь 29 % доверяют результатам ИИ (в 2024 было 40 %). - 66 % тратят больше времени на отладку AI-кода, чем на его написание. 🏆 Claude Sonnet от Anthropic стала самой уважаемой LLM-моделью года — её отметили 67.5 % опрошенных. 💡 Но по желанию использовать на первом месте всё ещё OpenAI GPT51.2 % хотят с ней работать чаще всего. 👣 Rust и Cargo — фавориты: - Cargo признан самым уважаемым DevOps‑инструментом (обогнал даже Terraform). - Rust стабильно в топе любимых языков. 💡 Учёба и рост: - 69 % изучают новые технологии, 44 % — с помощью AI. - 36 % учат код ради AI-задач. 👨‍💻 VS Code лидирует, но Neovim — кумир: - VS Code — самый используемый редактор. - Neovim — самый «перспективный». 🧑‍🤝‍🧑 Сообщества & платформы - 84 % разработчиков активно использовали Stack Overflow ( верится с трудом) в течение года (GitHub 67 %, YouTube 61 %) - В опросе выяснилось: 35 % посещают SO из‑за проблем, связанных с AI‑кодом — ищут проверенную людьми информацию 📉 Меньше участников: - В 2025 — 49k респондентов (в 2023 было 90k). - Разработчики всё чаще критикуют перекос в сторону AI. 😕 Удовлетворённость работой & зарплаты - Предыдущий опрос показал, что 80 % разработчиков были либо неудовлетворены, либо в состоянии «разочарованности» на работе. Интересно, как изменились показатели в 2025 году. - В 2024 году выяснилось, что гибкость и зарплата перестали вносить равный вклад в удовлетворённость, теперь зарплата выше оказывает сильный эффект для топ‑25 % зарплатной шкалы .- К примеру, мобильные и back‑end разработчики в UK и Нидерландах стали более удоволетворены работой за счёт более высоких зарплат 📎 Отчёт целиком: https://survey.stackoverflow.co/2025 @ai_machinelearning_big_data #ai #stackoverflow

✔️ Сотрудники Миры Мурати отказались от офферов Цукерберга. Компания Марка Цукерберга предприняла агрессивную попытку переманить ключевых сотрудников из стартапа Thinking Machines Lab, основанного бывшим CTO OpenAI Мирой Мурати. По данным инсайдеров, компания сделала предложения более чем десятку специалистов. Одно из них превышало миллиард долларов за несколько лет, другие находились в диапазоне от 200 до 500 миллионов за 4 года. Несмотря на беспрецедентные суммы, все сотрудники отклонили предложения Meta. Причинами отказа называют и без того высокое состояние, значительные доли в собственном стартапе и нежелание работать под руководством Марка Цукерберга. wired.com ✔️ Skild Brain: единая модель для управления любыми роботами. Робототехнический стартап SkildAI анонсировал «Skild Brain», фундаментальную ИИ-модель, которая может служить универсальным программным "мозгом" для широкого спектра роботов: от гуманоидов до промышленных манипуляторов. На демонстрациях роботы успешно ориентировались в незнакомой среде и выполняли сложные многоэтапные действия. По словам основателей, новая технология сокращает разрыв между достижениями в области генеративного ИИ и их практическим применением в физической робототехнике. SkildAI , вышедшая из стелс-режима в июле 2024 года, уже привлекла инвестиции от Amazon, SoftBank и Sequoia Capital. skild.ai ✔️ NotebookLM научился создавать видеообзоры по загруженным документам. Google расширил возможности NotebookLM, добавив функцию Video Overviews. Она автоматически генерирует видеоролики с озвучкой, которые наглядно объясняют содержимое загруженных файлов. Система сама подбирает изображения, цитаты, диаграммы и цифры из исходных материалов и представляет их в виде пошаговых слайдов. Новая функция, дополняющая уже существующие аудиообзоры, позволяет гибко настраивать результат. Пользователи могут указать целевую аудиторию, задать учебные цели или выделить конкретные темы для фокуса. Кроме того, Google обновила интерфейс Studio, разрешив сохранять несколько результатов одного типа (например, несколько майнд-карт) в одном блокноте. Обновление уже доступно для англоязычных пользователей, в будущем планируется поддержка других языков. blog.google ✔️ Adobe добавила в Photoshop новые ИИ-инструменты. Adobe выпустила в бета-версии Photoshop новые функции на базе модели Firefly. Одной из самых ожидаемых стала Generative Upscale, она увеличивает разрешение изображений до 8 мегапикселей без потери качества. Инструмент Remove был обновлен, чтобы более реалистично и чисто убирать с фотографий лишние объекты, оставляя меньше артефактов. Появилась и совершенно новая функция Harmonize. Она автоматически анализирует контекст изображения и подгоняет цвет, свет и тени добавленных объектов, чтобы создать цельную композицию без долгой ручной коррекции. Кроме того, Adobe анонсировала функцию Projects для более удобного управления файлами. Все нововведения уже доступны для тестирования в десктопной и веб-версиях Photoshop. blog.adobe.com ✔️ ChatGPT Agent научился проходить капчу Cloudflare. ChatGPT Agent, способный выполнять многошаговые задачи, продемонстрировал неожиданную способность: он может проходить проверку "Я не робот" от Cloudflare. Пользователь Reddit опубликовал скриншоты, на которых агент в рамках задачи по конвертации видео самостоятельно нажимает на галочку "Подтвердите, что вы человек", комментируя свои действия. Этот случай наглядно демонстрирует, насколько продвинулись ИИ-агенты. Они способны анализировать визуальный контекст, распознавая элементы веб-страниц и взаимодействуя с ними, как человек. В данном случае система поняла необходимость верификации и успешно ее прошла. Прохождение CAPTCHA - лишь один из примеров возможностей нового агента. Другие пользователи уже показывают, как агент по их поручению заказывает продукты в супермаркете, самостоятельно составляя список покупок по общим критериям и укладываясь в заданный бюджет. arstechnica.com @ai_machinelearning_big_data #news #ai #ml

🚀 Qwen3-30B-A3B — маленькое обновление, большое ускорение ✨ Что нового: ✅ Улучшены навыки рассуждений, программирования и ма
🚀 Qwen3-30B-A3B — маленькое обновление, большое ускорение ✨ Что нового: ✅ Улучшены навыки рассуждений, программирования и математики ✅ Расширенные знания на разных языках ✅ Понимает контексты до 256 000 токенов ✅ Точнее выполняет команды ✅ Для этой модель Qweb полностью отказались от <think> — теперь только быстрый "non-thinking" режим ⚙️ С 3B активных параметров Qwen3-30B-A3B уже приближается к уровню GPT-4o и Qwen3-235B-A22B NT, при этом модель доступна для локального запуска. 🟡Попробовать https://chat.qwen.ai/?model=Qwen3-30B-A3B-2507 🟡HF: https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8 🟡ModelScope: https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507 @ai_machinelearning_big_data #AI #ML #qwen #opensource

🌟 GLM-4.5 и GLM-4.5-Air: релиз гибридных моделей, заточенных под агентные задачи. В новом семействе GLM, Z.AI объединили в о
+2
🌟 GLM-4.5 и GLM-4.5-Air: релиз гибридных моделей, заточенных под агентные задачи. В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах: thinking mode для сложных задач с использованием инструментов и non-thinking mode для быстрых ответов. 🟡В релиз вошли: 🟢GLM-4.5 с 355 млрд. общих параметров (32 млрд активных) и ее облегченная версия; 🟠GLM-4.5-Air, облегченная версия со 106 млрд. общих параметров (12 млрд активных). Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями. 🟡 Для эффективного RL таких крупных моделей был разработан и открыт собственный фреймворк slime. Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе. 🟡Главный акцент GLM-4.5 - агентные возможности. Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2). На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами. Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3). Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты. На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6). В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно. На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9). В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие. А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%. Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%). 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Набор моделей 🟡Demo 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #GLM #MoE #ZAI

Разработчики нейросетей — новые звезды. Они решают фундаментальные научные задачи, приближают создание AGI, зарабатывают огро
+5
Разработчики нейросетей — новые звезды. Они решают фундаментальные научные задачи, приближают создание AGI, зарабатывают огромные деньги и даже провоцируют HR-войны: например, недавно выяснилось, что Meta (признана экстремистской организацией и запрещена в РФ) переманивает к себе сотрудников Open AI, обещая бонусы в размере $100 млн. Собрали в карточках несколько интересных фигур из сферы ИИ. Подписывайтесь 👉 @techno_yandex

✔️ Microsoft добавила новый режим Copilot для Edge. Обновленный интерфейс Copilot теперь расположен в левом верхнем углу окна бразуера. Он получил оптимизированный дизайн, голосовое управление и улучшенное понимание контекста. Copilot способен анализировать содержимое нескольких открытых вкладок одновременно. Это позволяет, например, сравнивать варианты путешествий или выбирать ресторан, не переключаясь между страницами. Система автоматически распознает URL-адреса, поисковые запросы и команды в чате. Новый режим уже доступен бесплатно. В будущем Microsoft планирует добавить функции сортировки истории по проектам и контекстные рекомендации. Mustafa Suleyman (CEO Microsoft AI) в сети X ✔️ Runway анонсировала модель для редактирования видео с помощью текста. Runway представила свою новую модель Aleph. Она может вносить точечные изменения в уже существующие видеоролики с помощью текстовых команд. Пользователи могут добавлять и удалять объекты, изменять время суток, убирать дым или отражения. Одной из самых заметных функций стала генерация совершенно новых ракурсов камеры. Модель также способна изменять возраст персонажей, перекрашивать объекты, создавать эффект зеленого экрана и переносить движение с видео на статичные изображения. Сейчас Aleph доступна только для корпоративных и креативных партнеров, среди которых уже есть голливудская студия Lionsgate. Широкий доступ планируется в будущем. runwayml.com ✔️ Huawei показала ИИ-систему, способную конкурировать с флагманом Nvidia. На Всемирной конференции по искусственному интеллекту в Шанхае Huawei впервые публично продемонстрировала свою новую вычислительную систему CloudMatrix 384. Эксперты рассматривают ее как прямого конкурента самой продвинутой на сегодня системы от Nvidia - GB200 NVL72. CloudMatrix состоит из 384 новейших чипов 910C и, по некоторым метрикам, превосходит решение Nvidia, которое использует 72 чипа B200. Как отмечают аналитики из SemiAnalysis, Huawei компенсирует более слабую производительность отдельных чипов за счет их большего количества и инноваций на системном уровне. Система уже эксплуатируется на облачной платформе Huawei. reuters.com ✔️ Alibaba презентовала умные очки Quark. Alibaba анонсировала свои первые умные очки Quark. Устройство, которое выйдет на рынок Китая к концу 2025 года, позиционируется как конкурент умным очкам от Ray-Ban. По капотом у Quark большая языковая модель Qwen и ИИ-ассистент Quark, которые управляют функциями звонков, прослушивания музыки, перевода в реальном времени и покупок. Очки тесно интегрированы с экосистемой Alibaba: платежным сервисом Alipay, торговой площадкой Taobao и картографическим сервисом Amap. Технологически устройство работает на чипе Qualcomm AR1 и, по заявлению компании, получилось на 40% тоньше существующих аналогов на рынке. scmp.com ✔️ Лейбл Hallwood подписал контракт с самым популярным ИИ-музыкантом платформы Suno. Независимый лейбл Hallwood заключил сделку с Imoliver - самым прослушиваемым автором, создающим музыку с помощью нейросети. Imoliver уже набрал более 3 миллионов прослушиваний своей песни "Stone" на платформе Suno. Теперь трек выйдет на всех основных стриминговых сервисах 8 августа, а полноценный альбом запланирован на октябрь. Глава Suno Майки Шульман назвал это событие "ключевой вехой для будущего музыки". hollywoodreporter.com @ai_machinelearning_big_data #news #ai #ml

🎬 Alibaba снова радуют нас и выпускают Wan2.2 Это первая в мире open-source модель генерации видео с архитектурой MoE и полным кинематографическим контролем! 🚀 Что внутри: 🔸 Первая MoE‑модель для видео — масштабируется без лишней нагрузки. Разные эксперты отвечают за этапы диффузии, работая в команде. 🔸 Кинематографический контроль — управляем светом, цветом, движением камеры и композицией прямо из prompt’а. 🔸 Полная open-source линейка: - Wan2.2-T2V-A14B — текст → видео - Wan2.2-I2V-A14B — изображение → видео - Wan2.2-TI2V-5B — объединённая генерация 📈 Умеет лучше всех генерировать *сложные движения* и выглядит уже почти как кино 🎥 🟢GitHub: https://github.com/Wan-Video/Wan2.2 🟢Hugging Face: https://huggingface.co/Wan-AI 🟢ModelScope: https://modelscope.cn/organization/Wan-AI @ai_machinelearning_big_data #AI #VideoAI #GenerativeAI #OpenSource #Wan

🖥 Как выжать максимум из маленькой LLM? Ответ — долго и грамотно учить . NVIDIA показала, как 1.5B-модель можно раскачать до
🖥 Как выжать максимум из маленькой LLM? Ответ — долго и грамотно учить . NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели. 📈 Результат после месяцев обучения: +55% к логическим задачам +14.7% к математике +13.9% к коду +25.1% к сложным STEM-вопросам 🛠 Как они это сделали: – Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию – Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат – Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков: 🟢 Decoupled clipping — обычно модель "обрезает" редкие и неожиданные токены, чтобы не уходить слишком в сторону от главного. Но здесь этот механизм ослаблен: модель может чаще выбирать нестандартные слова, что помогает ей находить неожиданные, но правильные решения. 🟢 Dynamic sampling — модель *не тратит время* на лишком лёгкие задачи. Она пропускает такие примеры и фокусируется на тех, где действительно можно чему-то научиться. 🟢 Маленький KL-штраф (0.0001) — KL показывает, насколько поведение модели отклоняется от старой версии (эталона). Здесь штраф почти нулевой, чтобы не мешать экспериментам, но всё ещё предотвращать полное "сумасшествие" модели. 🟢 Сброс каждые 400 шагов — модель регулярно сбрасывает и policy (поведение), и оптимизатор. Это как регулярная перезагрузка — модель забывает вредные привычки, но сохраняет полезные навыки. 🟢 Температура 1.2 и длинный контекст (8K → 16K) — высокая температура делает поведение модели более разнообразным. А длинный контекст помогает учитывать больше информации при генерации ответа. Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам. Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры. 📄 Почитать статью полностью : arxiv.org/abs/2507.12507 @ai_machinelearning_big_data #ml #ai #nvidia

Хочешь знать, что происходит внутри ИТ крупного банка? Команда ПСБ рассказывает о работе и жизни в блоке ИТ! 🔹 Знакомься с к
Хочешь знать, что происходит внутри ИТ крупного банка? Команда ПСБ рассказывает о работе и жизни в блоке ИТ!   🔹 Знакомься с командой, их проектами и хобби 🔹 Участвуй в активностях: митапы, конференции, спорт 🔹 Читай и комментируй экспертные статьи   Подписывайся на канал  ИТ ПСБ !

🔥 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения! Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы? Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов. Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами. Проект демонстрирует, как можно использовать синтетические датасеты для: 🟠 Предсказания глубины изображения (Depth Prediction) 🟠 Оценки поверхностей (Normal Estimation) 🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation) Почему это круто: 🟢 Синтетические данные = пиксельная точность разметки 🟢 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз 🟢 Прекрасно масштабируются для обучения моделей с нуля или дообучения Самое приятное, что Microsoft выложили всё в опенсорс: ✔️ 300 000 сэмплов ✔️ Предобученные модели ✔️ Исходный код фремйворка 🟢Проект: https://microsoft.github.io/DAViD/ 🟢Статья: https://arxiv.org/abs/2507.15365 🟢Github: https://github.com/microsoft/DAViD @ai_machinelearning_big_data Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных. #cv #microsoft #opensource

📌 ИИ, который сам создает ИИ: ASI-ARCH нашел 106 новых SOTA-архитектур. ASI-ARCH - экспериментальная демонстрация искусствен
+3
📌 ИИ, который сам создает ИИ: ASI-ARCH нашел 106 новых SOTA-архитектур. ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур. Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания. 🟡Весь процесс разделен на 2 этапа: поиск гипотез и их проверка. На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов. Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках. Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей. Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня. Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet. 🟡 Анализ предпочтений системы показал интересные закономерности. ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами. Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей. 🟡Результаты. Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34. Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10). И так практически во всем, улучшения наблюдаются по всему спектру задач. 🟡И самое интересное — откуда система черпает идеи? Источников всего 3: 🟢Cognition - знания, извлеченные из научной литературы; 🟢Analysis - выводы, сделанные на основе собственных прошлых экспериментов; 🟢Originality - абсолютно новые идеи. Для всех 1773 сгенерированных архитектур распределение источников было таким: 🟠51.7% идей приходило из человеческой литературы; 🟠38.2% - из собственного анализа; 🟠10.1% были оригинальными. Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%. Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Research #ASIARCH

🌍 Hunyuan3D World Model 1.0 — первая в индустрии open-source модель для генерации интерактивных 3D‑миров Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению. 🧠 Что умеет: — Генерация 3D-сред из текста или картинки — Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal) — Подходит для игр, VR, цифрового контента и прототипирования живых миров Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением. Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров. 📌 Полностью открытая модель: 🟢 Проект: https://3d-models.hunyuan.tencent.com/world 🟢 Онлайн-демо: https://3d.hunyuan.tencent.com/sceneTo3D 🟢 GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0 🟢 Hugging Face: https://huggingface.co/tencent/HunyuanWorld-1 @ai_machinelearning_big_data #3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality

✔️ В Шанхае стартует масштабная конференция по ИИ. В эти выходные в Шанхае откроется Всемирная конференция по искусственному интеллекту, которая соберет как китайских технологических гигантов, Huawei и Alibaba, так и западные компании: Tesla, Google и Amazon. Более 800 компаний представят свыше 3000 высокотехнологичных продуктов. Ожидается показ 40 больших языковых моделей, 50 ИИ-устройств и 60 интеллектуальных роботов. reuters.com ✔️ Samsung ведет переговоры с OpenAI и Perplexity о внедрении их ИИ-сервисов в смартфоны Galaxy. Южнокорейский техногигант хочет предложить пользователям больше опций выбора в ИИ-сервисах на своих устройствах, помимо уже интегрированной Google Gemini. По словам Чхве Вон-Джуна, операционного директора мобильного подразделения, начиная с линейки Galaxy S26, компания планирует предоставить клиентам выбор из нескольких ИИ-сервисов. bloomberg.com ✔️ Copilot получит персонализацию. Мустафа Сулейман, CEO Microsoft AI, поделился своим видением будущего ассистента Copilot. По его мнению, он станет настолько персонализированным, что обретет постоянную идентичность, будет стареть и даже жить в своей комнате. Первым шагом к этой концепции стала новая функция Copilot Appearance. Это эксперимент по созданию виртуального персонажа, который в реальном времени реагирует на диалог с помощью мимики и голоса и обладает памятью о предыдущих разговорах. Аватар может улыбаться, кивать и даже выражать удивление. Функция уже доступна в режиме раннего доступа в Copilot Labs для ограниченного числа пользователей в США, Великобритании и Канаде. theverge.com ✔️ В MIT научили роботов изучать собственную физику по видео. MIT CSAIL представил Neural Jacobian Fields (NJF) - систему, которая кардинально меняет подход к управлению роботами. Вместо создания сложных математических моделей для жестких и дорогих конструкций, NJF позволяет роботу самостоятельно изучить свое тело и его реакции на команды, используя только зрение. В процессе обучения робот совершает случайные движения, а система, в это время, наблюдает за ним с нескольких камер, выстраивая внутреннюю модель его физики м связывая управляющие сигналы с фактическим движением. В основе лежит развитие технологии NeRF.Ценность разработки в том, что после обучения, для управления в реальном времени роботу достаточно одной обычной камеры. Технология уже успешно протестирована на различных устройствах, от мягких пневматических манипуляторов до стандартных 3D-печатных конструкций. Хотя система пока не обладает тактильной обратной связью, она открывает путь к созданию более дешевых и гибких роботов, способных адаптироваться к своей собственной, даже нестандартной, физической форме. news.mit.edu ✔️ Leena AI представила «ИИ-коллег» с голосовым интерфейсом для совместной работы. Leena AI, разработчик корпоративных ассистентов, анонсировала запуск "ИИ-коллег" - агентов нового поколения, которые могут общаться с сотрудниками голосом. По мнению CEO компании, голосовое общение станет следующим этапом в развитии рабочих инструментов. Оно позволяет сотрудникам решать задачи на ходу, например, за рулем или в очереди. Так, пользователь может голосом попросить ассистента завести новую сделку в Salesforce и одновременно подготовить запрос в технический отдел по итогам встречи. Агент самостоятельно заполнит формы и составит черновик письма, запросив подтверждение перед отправкой. У агентов есть личностные черты и даже есть любимая спортивная команда. Утром "ИИ-коллега" может "проснуться", просмотреть заметки и продолжить работу над задачами, как обычный сотрудник. В Leena AI прогнозируют, что технология может повысить продуктивность команд до 50%. siliconangle.com @ai_machinelearning_big_data #news #ai #ml

+3
🌟 NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов. Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью. Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды. 🟡И вот, похоже, NVIDIA предложила решение этой проблемы. GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению. В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием. Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные. И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель. Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь. 🟡Подкреплено все это работой с данными. Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски. 🟡На практике, в тестах, цифры говорят сами за себя. В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%. На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно. Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%. 🟡NVIDIA выложила в открытый доступ весь инструментарий. Код, веса моделей и датасет уже доступны на GitHub и Hugging Face. Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд. Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD. 🟡В планах на будущее Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных. 📌Лицензирование кода: NVIDIA Research Licensing. 📌Лицензирование датасета : CC-BY-4.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI #ML #Robotics #GraspGen #NVIDIA

Андрей Рыбинцев, возглавлявший ИИ-направление более 10 лет, стал управляющим директором по искусственному интеллекту и вошел
Андрей Рыбинцев, возглавлявший ИИ-направление более 10 лет, стал управляющим директором по искусственному интеллекту и вошел в правление компании. AI становится частью управленческой вертикали Авито. Под его руководством окажется объединенная команда из ключевых подразделений, связанных с ИИ. Также в планах новый кластер AI Experience,который будет фокусироваться на развитии AI-ассистентов. На счету Рыбинцева — запуск семейства моделей A-Vibe и A-Vision, антифрод, IMV и масштабирование Data Science в Авито. По прогнозам компании, GenAI может привнести более 21 млрд ₽ дополнительной выручки к 2028 году.

✔️ Google запустила Opal, визуальный конструктор для создания и публикации ИИ-приложений. Google Labs запустила публичную бета-версию инструмента Opal, в котором можно создавать простые ИИ-приложения без написания кода. Flowrise, make.com и n8n напряглись Пользователь описывает желаемую цель тестом, после чего система автоматически генерирует визуальную блок-схему рабочего процесса, объединяя в цепочку промпты, ИИ-модели и внешние инструменты. Схему можно гибко редактировать в drag-and-drop интерфейсе или с помощью дальнейших текстовых команд. Готовые проекты публикуются как самостоятельные веб-приложения, привязанные к аккаунту Google, и ими можно сразу поделиться по ссылке. В основе Opal лежат модели Gemini. Инструмент доступен пока только для пользователей в США. @ai_machinelearning_big_data #news #ai #ml