Machinelearning

Open in Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Network:Machinelearning Russia1 272 Technologies & Applications329...

📈 Analytical overview of Telegram channel Machinelearning

Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 296 427 subscribers, ranking 329 in the Technologies & Applications category and 1 272 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 296 427 subscribers.

According to the latest data from 19 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -6 252 over the last 30 days and by -213 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.08%. Within the first 24 hours after publication, content typically collects 5.74% reactions from the total number of subscribers.
Post reach: On average, each post receives 23 972 views. Within the first day, a publication typically gains 17 005 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 185.
Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Thanks to the high frequency of updates (latest data received on 20 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

296 427

Subscribers

-21324 hours

-1 4247 days

-6 25230 days

23 972

Post views

~ 17 00524 hours

~ 19 20848 hours

8.08%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

296 416

📌nanoVLM: простой и мощный инструмент для экспериментов с VLM. nanoVLM - проект, вдохновленный подходом nanoGPT от Andrej Karpathy, который предлагает минималистичную реализацию VLM на чистом PyTorch. Код проекта настолько прост, что даже новичок быстро поймет, как устроены компоненты: Vision Backbone (150 строк), Language Decoder (250 строк), проекция модальностей (50 строк) и сама модель (100 строк). Все вместе с тренировочным циклом умещается в 750 строк — идеально для модификаций. Созданная с помощью nanoVLM модель не претендует на звание прорывной, но дает отличную базу для экспериментов. Комбинация SigLIP-B/16-224-85M (визуальная часть) и SmolLM2-135M (языковая) создает компактную VLM на 222 млн. параметров. После 6 часов обучения на одном H100 GPU и 1.7 млн. примеров из датасета The Cauldron она показывает 35.3% точности на MMStar. Начать работу можно 3 способами: клонировать репозиторий, запустить готовый Colab-ноутбук или использовать интерактивный туториал в формате ipynb. Даже если у вас нет доступа к топовому железу, эксперименты на Google Colab на бесплатном тиере вполне реальны. Установка максимально облегчена: зависимости минимальны, а логирование и загрузка параметров уже встроены. nanoVLM отлично подойдет как образовательный проект или тренажер чтобы изучать VLM. В нем есть все для старта — от понятного кода до рабочих примеров. Если вы хотите создать свою мультимодальную модель, но боитесь сложностей, nanoVLM станет отличной песочницей для экспериментов. 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #NanoVLM #Github

296 416

🔥 Первый взгляд на Video Overviews — видеоролики, сгенерированные той же моделью, которая в ближайшее время будет использоваться в NotebookLM. Google готовится представить новую функцию — AI-сгенерированные видеообзоры (Video Overviews), которая станет частью проекта Illuminate. Эта технология позволяет преобразовывать текстовые запросы в короткие видеоролики продолжительностью от 1 до 3 минут, полностью созданные искусственным интеллектом. Была показана серия видео, называемых "Sparks", каждое из которых демонстрирует различные стили и темы. Эти видео генерируются единой моделью, способной синхронизировать видео и аудио без необходимости в отдельных процессах для каждого компонента. Хотя точная модель, лежащая в основе этой технологии, не раскрывается, предполагается, что она связана с Veo 3 или мультимодальной версией Gemini Ultra. @ai_machinelearning_big_data #google #ai #ml #videogeneration

296 416

Дженсен Хуанг CEO NVIDIA: ИИ, способный к рассуждению, открыл путь к совершенно новому классу агентных систем. 🚀 Будущее — за гибридными командами, где один человек работает вместе с тысячей интеллектуальных агентов. 🧬 Один биоинженер становится суперинженером, опираясь на целую армию ИИ-помощников, способных не просто выполнять команды, а анализировать, думать и принимать решения. Это не просто автоматизация — это новый уровень сотрудничества между человеком и разумными машинами. @ai_machinelearning_big_data #NVIDIA #future #ai

296 416

🦙 Ollama запускает поддержку мультимодальных моделей Платформа Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями. Уже доступны: • LLaMA 4, • Gemma 3, • Qwen 2.5 VL, • Mistral Small 3.1 и другие модели. 🔥 Что нового: • Каждая модель теперь полностью автономна — это упрощает обновления и интеграцию • Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений • Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее ✔️ Это делает Ollama одной из первых платформ с локальной поддержкой мультимодальных моделей с открытым исходным кодом. 🔜 Подробнее @ai_machinelearning_big_data #olama #opensource #ai #ml

296 416

🤖 Agibot и новый взгляд на форму робота Проект Agibot предлагает переосмыслить привычный подход к дизайну роботов. Традиционно роботы создаются по образу человека — с двумя руками, двумя ногами, направленным вперёд зрением. Это объясняется тем, что окружающий мир спроектирован под человеческие потребности: лестницы, двери, инструменты. Однако возникает вопрос: обязательно ли ограничиваться человеческой анатомией, а что если: • Робот с тремя руками может выполнять больше задач одновременно • Три ноги обеспечивают лучшую устойчивость на неровной поверхности • Круговой обзор с помощью камер по периметру эффективнее человеческого зрения 🔧 Agibot демонстрирует первые шаги к объединению биомеханики и инженерного прагматизма. Вместо слепого копирования человека — попытка создать оптимальную форму для задач, стоящих перед роботами. 🚀 Будущее робототехники, возможно, лежит не в имитации, а в эволюции — с новыми решениями, выходящими за рамки антонимии человеческого тела. @ai_machinelearning_big_data #ai #robots #ml

296 416

🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся. Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат. Как он это сделал: 1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG». 2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик. 3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма. Посты про конвертер (ч.1, ч.2) Что из этого получилось: — Доход $500 в месяц с тенденцией роста. — Более $10K заработано на конвертере. — $0 на рекламу, всего $40 в месяц на сервер. Выводы: — Люди платят за удобство, даже если есть бесплатные аналоги. — Продукт функционирует автоматически с минимальной поддержкой. — Быстрая и экономичная проверка идеи может быть успешной. Результаты из комьюнити билдеров: — Более 400 запусков по этой методике. — Некоторые продукты уже набрали от 50К до 100К+ пользователей. Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах. Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqxfVgF6

296 416

Repost from Machine learning Interview

🧠 Бесплатный курс от Hugging Face: Model Context Protocol (MCP) Hugging Face запустили обучающий курс по Model Context Protocol (MCP) — это современный стандарт для взаимодействия между ИИ-моделями, внешними API, пользовательским вводом и контекстом. Курс идеально подойдёт разработчикам, ML-инженерам и всем, кто хочет строить мощные, интерактивные LLM-приложения. 🔍 Что ты узнаешь: • 🧩 Как работает архитектура MCP • 🧰 Как использовать официальные MCP SDK на Python и TypeScript • 🛠 Как собрать своё MCP-приложение с Gradio и Hugging Face Spaces • 🎯 Как пройти сертификацию и получить подтверждение своих навыков 📚 Содержание курса: 1. Введение в MCP и структуру курса 2. Архитектура и ключевые компоненты MCP 3. Создание первого MCP-приложения 4. Продвинутые фичи и интеграции 5. Бонусы: дополнительные примеры, кейсы, best practices 💡 Что нужно для старта: • Опыт с Python или TypeScript • Понимание API, LLM и разработки • Аккаунт на Hugging Face • Желание строить умные и гибкие AI-интерфейсы 👥 Комьюнити: Присоединяйся к Discord-серверу Hugging Face, чтобы общаться с разработчиками и проходить курс в компании других участников. ➡️ Перейти к курсу @machinelearning_interview - вопросы с собеседований

296 416

✔️ MIT отзывает спорный препринт об ИИ из-за подозрений в фальсификации данных. MIT попросил arXiv отозвать работу о влиянии ИИ на научные открытия и инновации, опубликованную в ноябре 2024 года. Внутренняя проверка выявила сомнения в достоверности данных и методах исследования. Хотя автор, бывший аспирант экономического факультета MIT, не подал заявку на отзыв, институт настаивает на удалении работы из открытого доступа. Профессора MIT, упомянутые в работе, заявили, что не доверяют источникам и выводам исследования. Теперь эксперты ждут реакции arXiv, который, согласно своим правилам, может отозвать работу только по инициативе автора или администратора. economics.mit.edu ✔️ С Дартом Вейдером можно початиться в Fortnite. Epic Games представила интерактивного персонажа Дарта Вейдера, который отвечает на вопросы о Звездах смерти, тактике боя и Силе голосом Джеймса Ирла Джонса, озвучивавшего персонажа в "Звездных войнах". Эта функция является частью текущего сезона Fortnite, посвященной популярной медиафраншизе. Разработчики использовали Google Gemini и технологии ElevenLabs, чтобы оживить легенду. Правда, игроки быстро начали тестировать ИИ на прочность, заставляя его повторять мат и оскорбления — студия оперативно выпустила патч для фильтрации контента. fortnite.com ✔️ Google One достиг отметку в 150 миллионов подписчиков. Сервис преодолел отметку в 150 млн пользователей — рост на 50% с февраля 2024 года. Ключевым драйвером стало внедрение тарифа за $19,99 в месяц с доступом к ИИ - возможностям, недоступным для бесплатных аккаунтов. По словам представителя Google, новый ИИ-тариф принес «миллионы» подписок. Рост сервиса важен для Alphabet, стремящегося сократить зависимость от рекламы (75% дохода в 2024 году). Как отметил CEO Google, привлечение платных пользователей - это стратегия, которая будет развиваться «по мере времени». reuters.com ✔️ Cohere приобретает платформу Ottogrid. Cohere объявил о покупке Ottogrid - платформы для автоматизации анализа рыночных данных. Основатели Ottogrid присоединятся к Cohere, чтобы усилить возможности своего продукта North, ориентированного на обработку документов и задач корпоративных пользователей. Ottogrid, ранее называвшийся Cognosys, прекратит самостоятельную работу, а инструменты платформы, включая извлечение данных с сайтов и интеграцию с таблицами, будут встроены в решения Cohere. Покупка происходит на фоне реструктуризации Cohere: после провала по доходам в 2023 году компания сместила фокус на продажи в секторах здравоохранения и финансов, после чего собрала $2 млн. инвестиций от GV и частных венчурных фондов. techcrunch.com ✔️ Релиз Llama Behemoth откладывается на неопределенный срок. Компания-разработчик Llama столкнулась проблемами , отложив релиз флагманской модели Behemoth на неопределенный срок. Инженеры не смогли добиться заметных улучшений по сравнению с предыдущими версиями, что вызвало критику внутри компании. Некоторые сотрудники опасаются, что модель не оправдает ожиданий руководства в конкуренции с продуктами OpenAI, Google и Anthropic. Топ-менеджмент компании разочарован задержками и планирует перестановки в группе, отвечающей за Llama 4. Ранее выпущенные модели, представленные в апреле, показали хорошие результаты в тестах, но позже выяснилось, что для бенчмарков использовалась доработанная версия, а не публичная. Марк Цукерберг признал оптимизацию под конкретные задачи. wsj.com @ai_machinelearning_big_data #news #ai #ml

296 416

OpenAI представляет Codex — облачного агента для генерации кода, способного выполнять множество задач параллельно. В основе — модель codex-1. 🧠 Ключевые особенности: • Codex работает прямо в браузере • Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами • Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI • Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями 🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика. 📅 Запуск ожидается уже сегодня. https://openai.com/index/introducing-codex/ @ai_machinelearning_big_data #OpenAI #Codex #AI #CodeAutomation #DevTools

296 416

🌟 BLIP3-o: универсальная модель для анализа и генерации изображений. Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения. Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения). В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE. CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный. Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок. На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B. В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту. В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация. 🟡Модель 🟡Arxiv 🟡Demo 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #BLIP3o #Salesforce

296 416

7–8 июня проводим Weekend Offer Analytics Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме. Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер. Узнать подробности и зарегистрироваться. Реклама. ООО "Яндекс". ИНН 7736207543

296 416

✔️ YouTube начинает использовать Gemini для размещения рекламы. YouTube анонсировал новую технологию вставки рекламы с помощью Gemini. Система анализирует видео, выявляя «пиковые моменты» — фрагменты, где зритель максимально вовлечен. Реклама будет показываться сразу после этих отрезков, чтобы не мешать важным сюжетным поворотам, но при этом ловить внимание аудитории. Пока нет информации о дате запуска, но изменения, скорее всего, внедрят быстро. Для разработчиков это интересный кейс применения AI в медиасфере: алгоритм учится распознавать эмоциональные точки входа и адаптировать рекламу под контент без его разрыва. Технология обещает изменить стратегию монетизации видео, сделав ее менее навязчивой. 9to5google.com ✔️ Google возглавляет гонку патентов в сфере генеративного и агентного ИИ. По данным IFI Claims, Google обогнал IBM и стал лидером по заявкам на патенты в области генеративного ИИ, а также доминирует в новом направлении — агентном ИИ. В США число заявок на патенты, связанных с генеративным ИИ, выросло на 56% за год. В списке крупнейших держателей: Nvidia, Microsoft, IBM и Intel, но за пределами США первые места занимают китайские компании и университеты. OpenAI и компания Марка Цукерберга не вошли в топ-10, так как последняя делает ставку на open-source, а OpenAI использует патенты «только в защитных целях». Эксперты отмечают: рост заявок говорит о стремлении компаний защищать разработки, но в итоге формирует барьер для новых игроков. axios.com ✔️ Microsoft запускает голосовой вызов для Copilot. Microsoft начала тестирование функции голосовой активации помощника «Эй, Copilot» для пользователей Windows Insider. Функция доступна в приложении Copilot через Microsoft Store (версия 1.25051.10.0 и выше) и активируется в настройках — пока только опционально. Чтобы использовать команду, ПК должен быть разблокирован. После фразы «Эй, Copilot» аудиозапись последующих 10 секунд отправляется для обработки в облако. Функция пока поддерживает только английский язык и работает при подключении к интернету. Microsoft заверяет, что данные не сохраняются до срабатывания триггера, а индикатор в трее уведомляет о прослушивании. Релиз планируется постепенным для всех каналов тестирования. blogs.windows.com ✔️ Google Deepmind представил AlphaEvolve: ИИ-агент, создающий алгоритмы. AlphaEvolve - система, которая использует модели Gemini и автоматические оценки для разработки эффективных алгоритмов. Вместо ручного поиска решений ИИ развивает код, проверяя идеи на лету. AlphaEvolve уже улучшил распределение нагрузки в дата-центрах Borg, экономя 0.7% вычислительных ресурсов компании. Он также оптимизировал чипы TPU, убрав лишние операции в математических схемах, и ускорил обучение моделей Gemini на 1%, переписав ключевые фрагменты кода. Систему потестили и в математике: алгоритм для умножения матриц 4x4 теперь требует 48 операций вместо 64, а в задаче о «контактного числа» ИИ нашел конфигурацию из 593 сфер в 11-мерном пространстве. Сейчас Google тестирует AlphaEvolve внутри инфраструктуры и обещает скоро откыть доступ исследователям. deepmind.google ✔️ Компания Марка Цукерберга представила ИИ-инструменты для химических исследований. Подразделение FAIR выпустила крупнейший открытый набор данных OMol25 для работы с молекулами и универсальную модель UMA, способную предсказывать свойства веществ. OMol25 включает данные о 100 млн. молекул — от органических соединений до металлических комплексов, с учетом зарядов, конформаций и реакций. Создание потребовало 6 млрд. часов супервычислений, а теперь поможет в поиске лекарств, катализаторов и материалов для батарей. UMA, обученная на OMol25, работает быстрее традиционных методов, прогнозируя параметры на атомарном уровне. С помощью MOE-архитектуры модель совмещает точность и скорость: расчеты, занимавшие дни, теперь занимают секунды. Вместе с этим предложен метод Adjoint Sampling, позволяющий генерировать новые структуры без примеров из реальности. Все эти инструменты уже доступны на Hugging Face. phys.org @ai_machinelearning_big_data #news #ai #ml

296 416

🖥 ChatGPT обогнал Википедию по количеству пользователей. Раньше Википедия была главным инструментом для тех, кто хотел узнать что-то знания. Всего за несколько лет ИИ стал главным средством для обучения. И пути назад уже нет. https://www.reddit.com/r/wikipedia/comments/1kn8cms/oc_chatgpt_now_has_more_monthly_users_than/?rdt=59790 #chatgpt #ai

296 416

Repost from Technodeus

⚡️ 🔥Розыгрыш iPhone 16 и Apple Watch SE 2🔥⚡️ Technodeus, Machine Learning и StopGame собрались и решили запустить крутой розыгрыш новых гаджетов Apple! Условия максимально просты: 1. Подписаться на Technodeus, Machine Learning и StopGame 2. Нажать кнопку «Участвую!» под этим постом Итоги подведем уже 11 июня случайным образом при помощи бота. Приз бесплатно доставим по СНГ, где есть СДЭК. Лайфхак от редакции: возможность выиграть повышается если дать буст на канал Участвуем и пересылаем друзьям 😎

296 416

🌟 MetaShuffling от PyTorch: ускоряем вывод Llama 4 MoE без лишних вычислений и задержек. PyTorch представил MetaShuffling — решение для ускорения вывода в Llama 4 MoE, которое решает проблемы динамизма и разреженности моделей, связанных с маршрутизацией токенов. Вместо традиционных методов padding или slicing, MetaShuffling использует переупорядочивание токенов по экспертам, избавляясь от ненужных операций и синхронизации между CPU и GPU. Это снижает использование памяти и устраняет задержки, связанные с обработкой «пустышек» или множественными запусками ядер. В основе решения - идея группировки токенов, назначенных одному эксперту, в непрерывные блоки. Такой подход позволяет использовать dense tensors вместо разреженных структур, сохраняя статичные формы данных. Благодаря этому MetaShuffling совместим с механизмами графов (CUDAGraph, torch.compile), которые ускоряют исполнение, избегая повторных синхронизаций. Решение особенно эффективно для Llama 4, где каждый MoE-слой активирует лишь часть экспертов, что на практике создает динамические нагрузки. ▶️Ключевыми инновациями стали оптимизация ядер GroupedGEMM и IndexShuffling: 🟢GroupedGEMM, написанный на Triton, обрабатывает несколько матриц в одном вызове, используя статические и динамические разбиения размеров, позволяя пропускать неактивных экспертов и «лишние» токены без дополнительных затрат. 🟢IndexShuffling, в свою очередь, выполняет сортировку токенов и подсчет их количества на каждом эксперте за один проход, что по тестам оказалось в 5–13 раз быстрее, чем стандартные реализации PyTorch. Результаты экспериментов на H100 80GB выглядят многообещающими. Prefill Llama 4 Maverick с FP8 GroupedGEMM достигает 1,197 TFlops при 286 мкс, что близко к теоретическому пределу GPU. В задачах декодирования метрики также демонстрируют высокую эффективность: 44,88 TFlops за 59 мкс. Даже при малом количестве токенов (128) MetaShuffling показывает 80% использования пропускной способности памяти. Для multi-host сценариев MetaShuffling предлагает гибкость между «динамическими» и «статичными» формами данных. В режиме eager (без графов) используется минимальное заполнение без синхронизации CPU-GPU. В graph mode — статичные формы с минимальным паддингом, что сокращает сетевой трафик и память. Также реализована дедупликация коммуникаций, которая распределяет нагрузку между узлами, снижая задержки в распределенных вычислениях. MetaShuffling поддерживает интеграцию с FBGEMM Generative AI Kernel Library, позволяя применять оптимизации для vLLM и SGLang. 📌 Полная статья в блоге Pytorch @ai_machinelearning_big_data #AI #ML #MetaShuffling #Pytorch

296 416

Если вы размышляете, как усилить своё резюме, наш совет — освойте SQL. Это язык, который помогает извлекать ценную информацию из массивов данных. Познакомиться с инструментом можно на бесплатном курсе «Введение в SQL и работу с базой данных». За 5 занятий вы научитесь создавать, редактировать и обновлять базы данных, сделаете свои первые запросы и отчёты. Курс будет полезен даже тем, кто пока не собирается становиться аналитиком. Научитесь применять SQL в своих задачах — с ним вы сможете больше – https://netolo.gy Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5xuh4tg

296 416

✔️ OpenAI выпустила GPT-4.1 и GPT-4.1 mini. Новые модели, по заявлениям компании, лучше справляются с написанием и отладкой кода, а также работают быстрее предыдущих версий. Подписчики ChatGPT Plus, Pro и Team получат доступ к GPT-4.1 бесплатно или по тарифам, а GPT-4.1 mini станет доступен всем пользователям, даже бесплатным. GPT-4.0 mini исключили из сервиса. Ранее GPT-4.1 вышла через API, но тогда OpenAI критиковали за отсутствие отчетов о безопасности. В ответ компания подчеркнула, что модель не является «передовой» и не требует тех же проверок, что и более мощные системы. Теперь OpenAI пообещал публиковать результаты тестов на безопасность чаще. OpenAi в сети Х (ex-Twitter) ✔️ Google временно прекратит бесплатный доступ к API Gemini 2.5 Pro из-за чрезмерного спроса. Логан Килпатрик из Google сообщил, что из-за чрезвычайно высокого спроса на Gemini 2.5 Pro, Google временно приостановит доступ к бесплатному уровню Gemini 2.5 Pro в API. Тем не менее, пользователи по-прежнему могут получить бесплатный доступ к модели через Google AI Studio. Разработчики, желающие продолжить использование API, могут запросить более высокий уровень API. Новые клиенты Google, которые зарегистрируют платную учетную запись, получат 300 долларов в виде бесплатных API-кредитов. Уровни лимитов можно посмотреть в документации к API Gemini. Logan Kilpatrick (Lead product for Google AI Studio) в сети X (ex-Twitter) ✔️ Stability AI выпустила компактную модель Stable Audio Open Small для генерации звука на смартфонах. Stability AI совместно Arm представили в опенсорс Stable Audio Open Small — уменьшенную версию Stable Audio для создания аудио по текстовым запросам. Она оптимизирована для работы на мобильных устройствах с процессорами Arm и использует библиотеки KleidiAI, которые ускоряют вычисления и снижают энергопотребление. Stable Audio Open Small содержит 341 млн параметров и генерирует стереофонический звук за 8 секунд. Решение ориентировано на создание коротких звуковых эффектов, драм-ликов или амбиентных текстур. Она подходит для разработчиков игр, контентмейкеров и приложений, где важна скорость и экономия ресурсов. Модель доступна бесплатно на Hugging Face, а ее код на GitHub. stability.ai ✔️ CodeRabbit запускает бесплатный код-ревью в VS Code и ее форках. CodeRabbit представили бесплатное ИИ-ревью кода прямо в редакторах VS Code, Cursor и Windsurf. Это решение позволяет находить ошибки до создания pull request. Инструмент анализирует каждый коммит, проверяет изменения в реальном времени и предлагает исправления за один клик. Поддерживаются популярные языки (Python, JavaScript, Java и др.), а также режим «Fix with AI» для автоматического применения правок. Бесплатная версия в IDE работает быстрее, чем ревью в PR, но с более низкими лимитами. Для расширенного функционала есть подписка lite (12 долл./мес.) и Pro (24 долл./мес). Плагин уже доступен в магазине расширений VS Code. coderabbit.ai ✔️ Baidu готовит запуск беспилотных такси в Европе и Турции. Baidu готовится впервые протестировать в Европе свой сервис беспилотного заказа такси Apollo Go. Китайский гигант ведет переговоры со швейцарским поставщиком общественного транспорта PostAuto о запуске сервиса роботакси в Швейцарии и планирует вывести Apollo Go на турецкий рынок. В настоящее время Apollo Go от Baidu работает во многих городах Китая, а крупнейший парк из более чем 400 транспортных средств находится в Ухане. reuters.com @ai_machinelearning_big_data #news #ai #ml

296 416

🌟 Matrix-Game: модель для создания интерактивных игровых миров. Skywork AI опубликовала Matrix-Game - модель с 17 млрд. параметров для генерации интерактивных игровых миров, способная создавать динамические сцены в Minecraft по заданным изображениям и пользовательским действиям. Проект сочетает предобучение на неразмеченных данных с финальным этапом, где модель учится реагировать на клавиатурные команды и движения мыши. В основе паплайна - диффузионный метод, позволяющий контролировать движения персонажа, повороты камеры и физику объектов с высокой точностью. На этапе предобучения использовался уникальный датасет Matrix-Game-MC, собранный из 2700 часов игровых видео без разметки и 1000 часов с детальными аннотациями действий, почищенный от нерелевантного контента, в него вошли только качественные сцены с четким освещением, стабильной камерой и активными действиями. На втором этапе модель обучалась на записях движений в Unreal Engine и симуляциями в Minecraft через агентов VPT. Под капотом Matrix-Game - 3D-VAE для кодирования видео и DiT для генерации. При автозавершении длинных видео (до 65 кадров) применяется архитектура с обратной связью: последние кадры служат контекстом для следующих сегментов. Чтобы оценить возможности модели в генерации игровых миров, Skywork AI создали собственный комплексный бенчмарк GameWorld Score. Он учитывает визуальное качество, плавность переходов, управляемость и понимание физических законов. Matrix-Game показала 95% точности в распознавании клавиатурных команд и 98% для движений мышью, превзойдя аналогичные модели Oasis и MineWorld. По другим критериям бенчмарка Matrix-Game корректно обрабатывает повороты камеры на 8 направлений и сохраняет 3D-консистентность объектов, избегая артефактов вроде «летающих» блоков. Несмотря на высокие показатели в тестах, есть слабые места. В редких биомах (например, грибных ландшафтах) модель иногда теряет точность из-за недостатка данных. Также требует улучшений имитация физических взаимодействий. В планах у разработчиков расширить датасеты обучения, внедрить долгосрочную память для последовательностей и адаптировать методику под другие игры: Black Myth: Wukong и CS:GO. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Бенчмарк 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #GameAI #MatrixGame #SkyworkAI

296 416

sticker.webp0.18 KB