Machinelearning

رفتن به کانال در Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

نمایش بیشتر

شبکه:Machinelearning روسيا1 272 فناوری و برنامه‌ها329...

📈 تحلیل کانال تلگرام Machinelearning

کانال Machinelearning (@ai_machinelearning_big_data) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 296 427 مشترک است و جایگاه 329 را در دسته فناوری و برنامه‌ها و رتبه 1 272 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 296 427 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 19 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -6 252 و در ۲۴ ساعت گذشته برابر -213 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 8.08% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 5.74% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 23 972 بازدید دریافت می‌کند. در اولین روز معمولاً 17 005 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 185 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند openai, claude, api, gemini, контекст تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 20 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

296 427

مشترکین

-21324 ساعت

-1 4247 روز

-6 25230 روز

23 972

نمایش های پست

~ 17 00524 ساعت

~ 19 20848 ساعت

8.08%

نرخ مشارکت

~ 5

پست های در روز

Ads index

beta

آرشیو پست ها

296 416

📌nanoVLM: простой и мощный инструмент для экспериментов с VLM. nanoVLM - проект, вдохновленный подходом nanoGPT от Andrej Karpathy, который предлагает минималистичную реализацию VLM на чистом PyTorch. Код проекта настолько прост, что даже новичок быстро поймет, как устроены компоненты: Vision Backbone (150 строк), Language Decoder (250 строк), проекция модальностей (50 строк) и сама модель (100 строк). Все вместе с тренировочным циклом умещается в 750 строк — идеально для модификаций. Созданная с помощью nanoVLM модель не претендует на звание прорывной, но дает отличную базу для экспериментов. Комбинация SigLIP-B/16-224-85M (визуальная часть) и SmolLM2-135M (языковая) создает компактную VLM на 222 млн. параметров. После 6 часов обучения на одном H100 GPU и 1.7 млн. примеров из датасета The Cauldron она показывает 35.3% точности на MMStar. Начать работу можно 3 способами: клонировать репозиторий, запустить готовый Colab-ноутбук или использовать интерактивный туториал в формате ipynb. Даже если у вас нет доступа к топовому железу, эксперименты на Google Colab на бесплатном тиере вполне реальны. Установка максимально облегчена: зависимости минимальны, а логирование и загрузка параметров уже встроены. nanoVLM отлично подойдет как образовательный проект или тренажер чтобы изучать VLM. В нем есть все для старта — от понятного кода до рабочих примеров. Если вы хотите создать свою мультимодальную модель, но боитесь сложностей, nanoVLM станет отличной песочницей для экспериментов. 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #NanoVLM #Github

296 416

🔥 Первый взгляд на Video Overviews — видеоролики, сгенерированные той же моделью, которая в ближайшее время будет использоваться в NotebookLM. Google готовится представить новую функцию — AI-сгенерированные видеообзоры (Video Overviews), которая станет частью проекта Illuminate. Эта технология позволяет преобразовывать текстовые запросы в короткие видеоролики продолжительностью от 1 до 3 минут, полностью созданные искусственным интеллектом. Была показана серия видео, называемых "Sparks", каждое из которых демонстрирует различные стили и темы. Эти видео генерируются единой моделью, способной синхронизировать видео и аудио без необходимости в отдельных процессах для каждого компонента. Хотя точная модель, лежащая в основе этой технологии, не раскрывается, предполагается, что она связана с Veo 3 или мультимодальной версией Gemini Ultra. @ai_machinelearning_big_data #google #ai #ml #videogeneration

296 416

Дженсен Хуанг CEO NVIDIA: ИИ, способный к рассуждению, открыл путь к совершенно новому классу агентных систем. 🚀 Будущее — за гибридными командами, где один человек работает вместе с тысячей интеллектуальных агентов. 🧬 Один биоинженер становится суперинженером, опираясь на целую армию ИИ-помощников, способных не просто выполнять команды, а анализировать, думать и принимать решения. Это не просто автоматизация — это новый уровень сотрудничества между человеком и разумными машинами. @ai_machinelearning_big_data #NVIDIA #future #ai

296 416

🦙 Ollama запускает поддержку мультимодальных моделей Платформа Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями. Уже доступны: • LLaMA 4, • Gemma 3, • Qwen 2.5 VL, • Mistral Small 3.1 и другие модели. 🔥 Что нового: • Каждая модель теперь полностью автономна — это упрощает обновления и интеграцию • Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений • Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее ✔️ Это делает Ollama одной из первых платформ с локальной поддержкой мультимодальных моделей с открытым исходным кодом. 🔜 Подробнее @ai_machinelearning_big_data #olama #opensource #ai #ml

296 416

🤖 Agibot и новый взгляд на форму робота Проект Agibot предлагает переосмыслить привычный подход к дизайну роботов. Традиционно роботы создаются по образу человека — с двумя руками, двумя ногами, направленным вперёд зрением. Это объясняется тем, что окружающий мир спроектирован под человеческие потребности: лестницы, двери, инструменты. Однако возникает вопрос: обязательно ли ограничиваться человеческой анатомией, а что если: • Робот с тремя руками может выполнять больше задач одновременно • Три ноги обеспечивают лучшую устойчивость на неровной поверхности • Круговой обзор с помощью камер по периметру эффективнее человеческого зрения 🔧 Agibot демонстрирует первые шаги к объединению биомеханики и инженерного прагматизма. Вместо слепого копирования человека — попытка создать оптимальную форму для задач, стоящих перед роботами. 🚀 Будущее робототехники, возможно, лежит не в имитации, а в эволюции — с новыми решениями, выходящими за рамки антонимии человеческого тела. @ai_machinelearning_big_data #ai #robots #ml

296 416

🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся. Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат. Как он это сделал: 1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG». 2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик. 3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма. Посты про конвертер (ч.1, ч.2) Что из этого получилось: — Доход $500 в месяц с тенденцией роста. — Более $10K заработано на конвертере. — $0 на рекламу, всего $40 в месяц на сервер. Выводы: — Люди платят за удобство, даже если есть бесплатные аналоги. — Продукт функционирует автоматически с минимальной поддержкой. — Быстрая и экономичная проверка идеи может быть успешной. Результаты из комьюнити билдеров: — Более 400 запусков по этой методике. — Некоторые продукты уже набрали от 50К до 100К+ пользователей. Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах. Реклама: ИП Зуев Игорь Владимирович, ИНН: 360408359441, Erid: 2VtzqxfVgF6

296 416

Repost from Machine learning Interview

🧠 Бесплатный курс от Hugging Face: Model Context Protocol (MCP) Hugging Face запустили обучающий курс по Model Context Protocol (MCP) — это современный стандарт для взаимодействия между ИИ-моделями, внешними API, пользовательским вводом и контекстом. Курс идеально подойдёт разработчикам, ML-инженерам и всем, кто хочет строить мощные, интерактивные LLM-приложения. 🔍 Что ты узнаешь: • 🧩 Как работает архитектура MCP • 🧰 Как использовать официальные MCP SDK на Python и TypeScript • 🛠 Как собрать своё MCP-приложение с Gradio и Hugging Face Spaces • 🎯 Как пройти сертификацию и получить подтверждение своих навыков 📚 Содержание курса: 1. Введение в MCP и структуру курса 2. Архитектура и ключевые компоненты MCP 3. Создание первого MCP-приложения 4. Продвинутые фичи и интеграции 5. Бонусы: дополнительные примеры, кейсы, best practices 💡 Что нужно для старта: • Опыт с Python или TypeScript • Понимание API, LLM и разработки • Аккаунт на Hugging Face • Желание строить умные и гибкие AI-интерфейсы 👥 Комьюнити: Присоединяйся к Discord-серверу Hugging Face, чтобы общаться с разработчиками и проходить курс в компании других участников. ➡️ Перейти к курсу @machinelearning_interview - вопросы с собеседований

296 416

✔️ MIT отзывает спорный препринт об ИИ из-за подозрений в фальсификации данных. MIT попросил arXiv отозвать работу о влиянии ИИ на научные открытия и инновации, опубликованную в ноябре 2024 года. Внутренняя проверка выявила сомнения в достоверности данных и методах исследования. Хотя автор, бывший аспирант экономического факультета MIT, не подал заявку на отзыв, институт настаивает на удалении работы из открытого доступа. Профессора MIT, упомянутые в работе, заявили, что не доверяют источникам и выводам исследования. Теперь эксперты ждут реакции arXiv, который, согласно своим правилам, может отозвать работу только по инициативе автора или администратора. economics.mit.edu ✔️ С Дартом Вейдером можно початиться в Fortnite. Epic Games представила интерактивного персонажа Дарта Вейдера, который отвечает на вопросы о Звездах смерти, тактике боя и Силе голосом Джеймса Ирла Джонса, озвучивавшего персонажа в "Звездных войнах". Эта функция является частью текущего сезона Fortnite, посвященной популярной медиафраншизе. Разработчики использовали Google Gemini и технологии ElevenLabs, чтобы оживить легенду. Правда, игроки быстро начали тестировать ИИ на прочность, заставляя его повторять мат и оскорбления — студия оперативно выпустила патч для фильтрации контента. fortnite.com ✔️ Google One достиг отметку в 150 миллионов подписчиков. Сервис преодолел отметку в 150 млн пользователей — рост на 50% с февраля 2024 года. Ключевым драйвером стало внедрение тарифа за $19,99 в месяц с доступом к ИИ - возможностям, недоступным для бесплатных аккаунтов. По словам представителя Google, новый ИИ-тариф принес «миллионы» подписок. Рост сервиса важен для Alphabet, стремящегося сократить зависимость от рекламы (75% дохода в 2024 году). Как отметил CEO Google, привлечение платных пользователей - это стратегия, которая будет развиваться «по мере времени». reuters.com ✔️ Cohere приобретает платформу Ottogrid. Cohere объявил о покупке Ottogrid - платформы для автоматизации анализа рыночных данных. Основатели Ottogrid присоединятся к Cohere, чтобы усилить возможности своего продукта North, ориентированного на обработку документов и задач корпоративных пользователей. Ottogrid, ранее называвшийся Cognosys, прекратит самостоятельную работу, а инструменты платформы, включая извлечение данных с сайтов и интеграцию с таблицами, будут встроены в решения Cohere. Покупка происходит на фоне реструктуризации Cohere: после провала по доходам в 2023 году компания сместила фокус на продажи в секторах здравоохранения и финансов, после чего собрала $2 млн. инвестиций от GV и частных венчурных фондов. techcrunch.com ✔️ Релиз Llama Behemoth откладывается на неопределенный срок. Компания-разработчик Llama столкнулась проблемами , отложив релиз флагманской модели Behemoth на неопределенный срок. Инженеры не смогли добиться заметных улучшений по сравнению с предыдущими версиями, что вызвало критику внутри компании. Некоторые сотрудники опасаются, что модель не оправдает ожиданий руководства в конкуренции с продуктами OpenAI, Google и Anthropic. Топ-менеджмент компании разочарован задержками и планирует перестановки в группе, отвечающей за Llama 4. Ранее выпущенные модели, представленные в апреле, показали хорошие результаты в тестах, но позже выяснилось, что для бенчмарков использовалась доработанная версия, а не публичная. Марк Цукерберг признал оптимизацию под конкретные задачи. wsj.com @ai_machinelearning_big_data #news #ai #ml

296 416

OpenAI представляет Codex — облачного агента для генерации кода, способного выполнять множество задач параллельно. В основе — модель codex-1. 🧠 Ключевые особенности: • Codex работает прямо в браузере • Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами • Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI • Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями 🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика. 📅 Запуск ожидается уже сегодня. https://openai.com/index/introducing-codex/ @ai_machinelearning_big_data #OpenAI #Codex #AI #CodeAutomation #DevTools

296 416

🌟 BLIP3-o: универсальная модель для анализа и генерации изображений. Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения. Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения). В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE. CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный. Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок. На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B. В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту. В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация. 🟡Модель 🟡Arxiv 🟡Demo 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #BLIP3o #Salesforce

296 416

7–8 июня проводим Weekend Offer Analytics Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме. Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер. Узнать подробности и зарегистрироваться. Реклама. ООО "Яндекс". ИНН 7736207543

296 416

✔️ YouTube начинает использовать Gemini для размещения рекламы. YouTube анонсировал новую технологию вставки рекламы с помощью Gemini. Система анализирует видео, выявляя «пиковые моменты» — фрагменты, где зритель максимально вовлечен. Реклама будет показываться сразу после этих отрезков, чтобы не мешать важным сюжетным поворотам, но при этом ловить внимание аудитории. Пока нет информации о дате запуска, но изменения, скорее всего, внедрят быстро. Для разработчиков это интересный кейс применения AI в медиасфере: алгоритм учится распознавать эмоциональные точки входа и адаптировать рекламу под контент без его разрыва. Технология обещает изменить стратегию монетизации видео, сделав ее менее навязчивой. 9to5google.com ✔️ Google возглавляет гонку патентов в сфере генеративного и агентного ИИ. По данным IFI Claims, Google обогнал IBM и стал лидером по заявкам на патенты в области генеративного ИИ, а также доминирует в новом направлении — агентном ИИ. В США число заявок на патенты, связанных с генеративным ИИ, выросло на 56% за год. В списке крупнейших держателей: Nvidia, Microsoft, IBM и Intel, но за пределами США первые места занимают китайские компании и университеты. OpenAI и компания Марка Цукерберга не вошли в топ-10, так как последняя делает ставку на open-source, а OpenAI использует патенты «только в защитных целях». Эксперты отмечают: рост заявок говорит о стремлении компаний защищать разработки, но в итоге формирует барьер для новых игроков. axios.com ✔️ Microsoft запускает голосовой вызов для Copilot. Microsoft начала тестирование функции голосовой активации помощника «Эй, Copilot» для пользователей Windows Insider. Функция доступна в приложении Copilot через Microsoft Store (версия 1.25051.10.0 и выше) и активируется в настройках — пока только опционально. Чтобы использовать команду, ПК должен быть разблокирован. После фразы «Эй, Copilot» аудиозапись последующих 10 секунд отправляется для обработки в облако. Функция пока поддерживает только английский язык и работает при подключении к интернету. Microsoft заверяет, что данные не сохраняются до срабатывания триггера, а индикатор в трее уведомляет о прослушивании. Релиз планируется постепенным для всех каналов тестирования. blogs.windows.com ✔️ Google Deepmind представил AlphaEvolve: ИИ-агент, создающий алгоритмы. AlphaEvolve - система, которая использует модели Gemini и автоматические оценки для разработки эффективных алгоритмов. Вместо ручного поиска решений ИИ развивает код, проверяя идеи на лету. AlphaEvolve уже улучшил распределение нагрузки в дата-центрах Borg, экономя 0.7% вычислительных ресурсов компании. Он также оптимизировал чипы TPU, убрав лишние операции в математических схемах, и ускорил обучение моделей Gemini на 1%, переписав ключевые фрагменты кода. Систему потестили и в математике: алгоритм для умножения матриц 4x4 теперь требует 48 операций вместо 64, а в задаче о «контактного числа» ИИ нашел конфигурацию из 593 сфер в 11-мерном пространстве. Сейчас Google тестирует AlphaEvolve внутри инфраструктуры и обещает скоро откыть доступ исследователям. deepmind.google ✔️ Компания Марка Цукерберга представила ИИ-инструменты для химических исследований. Подразделение FAIR выпустила крупнейший открытый набор данных OMol25 для работы с молекулами и универсальную модель UMA, способную предсказывать свойства веществ. OMol25 включает данные о 100 млн. молекул — от органических соединений до металлических комплексов, с учетом зарядов, конформаций и реакций. Создание потребовало 6 млрд. часов супервычислений, а теперь поможет в поиске лекарств, катализаторов и материалов для батарей. UMA, обученная на OMol25, работает быстрее традиционных методов, прогнозируя параметры на атомарном уровне. С помощью MOE-архитектуры модель совмещает точность и скорость: расчеты, занимавшие дни, теперь занимают секунды. Вместе с этим предложен метод Adjoint Sampling, позволяющий генерировать новые структуры без примеров из реальности. Все эти инструменты уже доступны на Hugging Face. phys.org @ai_machinelearning_big_data #news #ai #ml

296 416

🖥 ChatGPT обогнал Википедию по количеству пользователей. Раньше Википедия была главным инструментом для тех, кто хотел узнать что-то знания. Всего за несколько лет ИИ стал главным средством для обучения. И пути назад уже нет. https://www.reddit.com/r/wikipedia/comments/1kn8cms/oc_chatgpt_now_has_more_monthly_users_than/?rdt=59790 #chatgpt #ai

296 416

Repost from Technodeus

⚡️ 🔥Розыгрыш iPhone 16 и Apple Watch SE 2🔥⚡️ Technodeus, Machine Learning и StopGame собрались и решили запустить крутой розыгрыш новых гаджетов Apple! Условия максимально просты: 1. Подписаться на Technodeus, Machine Learning и StopGame 2. Нажать кнопку «Участвую!» под этим постом Итоги подведем уже 11 июня случайным образом при помощи бота. Приз бесплатно доставим по СНГ, где есть СДЭК. Лайфхак от редакции: возможность выиграть повышается если дать буст на канал Участвуем и пересылаем друзьям 😎

296 416

🌟 MetaShuffling от PyTorch: ускоряем вывод Llama 4 MoE без лишних вычислений и задержек. PyTorch представил MetaShuffling — решение для ускорения вывода в Llama 4 MoE, которое решает проблемы динамизма и разреженности моделей, связанных с маршрутизацией токенов. Вместо традиционных методов padding или slicing, MetaShuffling использует переупорядочивание токенов по экспертам, избавляясь от ненужных операций и синхронизации между CPU и GPU. Это снижает использование памяти и устраняет задержки, связанные с обработкой «пустышек» или множественными запусками ядер. В основе решения - идея группировки токенов, назначенных одному эксперту, в непрерывные блоки. Такой подход позволяет использовать dense tensors вместо разреженных структур, сохраняя статичные формы данных. Благодаря этому MetaShuffling совместим с механизмами графов (CUDAGraph, torch.compile), которые ускоряют исполнение, избегая повторных синхронизаций. Решение особенно эффективно для Llama 4, где каждый MoE-слой активирует лишь часть экспертов, что на практике создает динамические нагрузки. ▶️Ключевыми инновациями стали оптимизация ядер GroupedGEMM и IndexShuffling: 🟢GroupedGEMM, написанный на Triton, обрабатывает несколько матриц в одном вызове, используя статические и динамические разбиения размеров, позволяя пропускать неактивных экспертов и «лишние» токены без дополнительных затрат. 🟢IndexShuffling, в свою очередь, выполняет сортировку токенов и подсчет их количества на каждом эксперте за один проход, что по тестам оказалось в 5–13 раз быстрее, чем стандартные реализации PyTorch. Результаты экспериментов на H100 80GB выглядят многообещающими. Prefill Llama 4 Maverick с FP8 GroupedGEMM достигает 1,197 TFlops при 286 мкс, что близко к теоретическому пределу GPU. В задачах декодирования метрики также демонстрируют высокую эффективность: 44,88 TFlops за 59 мкс. Даже при малом количестве токенов (128) MetaShuffling показывает 80% использования пропускной способности памяти. Для multi-host сценариев MetaShuffling предлагает гибкость между «динамическими» и «статичными» формами данных. В режиме eager (без графов) используется минимальное заполнение без синхронизации CPU-GPU. В graph mode — статичные формы с минимальным паддингом, что сокращает сетевой трафик и память. Также реализована дедупликация коммуникаций, которая распределяет нагрузку между узлами, снижая задержки в распределенных вычислениях. MetaShuffling поддерживает интеграцию с FBGEMM Generative AI Kernel Library, позволяя применять оптимизации для vLLM и SGLang. 📌 Полная статья в блоге Pytorch @ai_machinelearning_big_data #AI #ML #MetaShuffling #Pytorch

296 416

Если вы размышляете, как усилить своё резюме, наш совет — освойте SQL. Это язык, который помогает извлекать ценную информацию из массивов данных. Познакомиться с инструментом можно на бесплатном курсе «Введение в SQL и работу с базой данных». За 5 занятий вы научитесь создавать, редактировать и обновлять базы данных, сделаете свои первые запросы и отчёты. Курс будет полезен даже тем, кто пока не собирается становиться аналитиком. Научитесь применять SQL в своих задачах — с ним вы сможете больше – https://netolo.gy Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5xuh4tg

296 416

✔️ OpenAI выпустила GPT-4.1 и GPT-4.1 mini. Новые модели, по заявлениям компании, лучше справляются с написанием и отладкой кода, а также работают быстрее предыдущих версий. Подписчики ChatGPT Plus, Pro и Team получат доступ к GPT-4.1 бесплатно или по тарифам, а GPT-4.1 mini станет доступен всем пользователям, даже бесплатным. GPT-4.0 mini исключили из сервиса. Ранее GPT-4.1 вышла через API, но тогда OpenAI критиковали за отсутствие отчетов о безопасности. В ответ компания подчеркнула, что модель не является «передовой» и не требует тех же проверок, что и более мощные системы. Теперь OpenAI пообещал публиковать результаты тестов на безопасность чаще. OpenAi в сети Х (ex-Twitter) ✔️ Google временно прекратит бесплатный доступ к API Gemini 2.5 Pro из-за чрезмерного спроса. Логан Килпатрик из Google сообщил, что из-за чрезвычайно высокого спроса на Gemini 2.5 Pro, Google временно приостановит доступ к бесплатному уровню Gemini 2.5 Pro в API. Тем не менее, пользователи по-прежнему могут получить бесплатный доступ к модели через Google AI Studio. Разработчики, желающие продолжить использование API, могут запросить более высокий уровень API. Новые клиенты Google, которые зарегистрируют платную учетную запись, получат 300 долларов в виде бесплатных API-кредитов. Уровни лимитов можно посмотреть в документации к API Gemini. Logan Kilpatrick (Lead product for Google AI Studio) в сети X (ex-Twitter) ✔️ Stability AI выпустила компактную модель Stable Audio Open Small для генерации звука на смартфонах. Stability AI совместно Arm представили в опенсорс Stable Audio Open Small — уменьшенную версию Stable Audio для создания аудио по текстовым запросам. Она оптимизирована для работы на мобильных устройствах с процессорами Arm и использует библиотеки KleidiAI, которые ускоряют вычисления и снижают энергопотребление. Stable Audio Open Small содержит 341 млн параметров и генерирует стереофонический звук за 8 секунд. Решение ориентировано на создание коротких звуковых эффектов, драм-ликов или амбиентных текстур. Она подходит для разработчиков игр, контентмейкеров и приложений, где важна скорость и экономия ресурсов. Модель доступна бесплатно на Hugging Face, а ее код на GitHub. stability.ai ✔️ CodeRabbit запускает бесплатный код-ревью в VS Code и ее форках. CodeRabbit представили бесплатное ИИ-ревью кода прямо в редакторах VS Code, Cursor и Windsurf. Это решение позволяет находить ошибки до создания pull request. Инструмент анализирует каждый коммит, проверяет изменения в реальном времени и предлагает исправления за один клик. Поддерживаются популярные языки (Python, JavaScript, Java и др.), а также режим «Fix with AI» для автоматического применения правок. Бесплатная версия в IDE работает быстрее, чем ревью в PR, но с более низкими лимитами. Для расширенного функционала есть подписка lite (12 долл./мес.) и Pro (24 долл./мес). Плагин уже доступен в магазине расширений VS Code. coderabbit.ai ✔️ Baidu готовит запуск беспилотных такси в Европе и Турции. Baidu готовится впервые протестировать в Европе свой сервис беспилотного заказа такси Apollo Go. Китайский гигант ведет переговоры со швейцарским поставщиком общественного транспорта PostAuto о запуске сервиса роботакси в Швейцарии и планирует вывести Apollo Go на турецкий рынок. В настоящее время Apollo Go от Baidu работает во многих городах Китая, а крупнейший парк из более чем 400 транспортных средств находится в Ухане. reuters.com @ai_machinelearning_big_data #news #ai #ml

296 416

🌟 Matrix-Game: модель для создания интерактивных игровых миров. Skywork AI опубликовала Matrix-Game - модель с 17 млрд. параметров для генерации интерактивных игровых миров, способная создавать динамические сцены в Minecraft по заданным изображениям и пользовательским действиям. Проект сочетает предобучение на неразмеченных данных с финальным этапом, где модель учится реагировать на клавиатурные команды и движения мыши. В основе паплайна - диффузионный метод, позволяющий контролировать движения персонажа, повороты камеры и физику объектов с высокой точностью. На этапе предобучения использовался уникальный датасет Matrix-Game-MC, собранный из 2700 часов игровых видео без разметки и 1000 часов с детальными аннотациями действий, почищенный от нерелевантного контента, в него вошли только качественные сцены с четким освещением, стабильной камерой и активными действиями. На втором этапе модель обучалась на записях движений в Unreal Engine и симуляциями в Minecraft через агентов VPT. Под капотом Matrix-Game - 3D-VAE для кодирования видео и DiT для генерации. При автозавершении длинных видео (до 65 кадров) применяется архитектура с обратной связью: последние кадры служат контекстом для следующих сегментов. Чтобы оценить возможности модели в генерации игровых миров, Skywork AI создали собственный комплексный бенчмарк GameWorld Score. Он учитывает визуальное качество, плавность переходов, управляемость и понимание физических законов. Matrix-Game показала 95% точности в распознавании клавиатурных команд и 98% для движений мышью, превзойдя аналогичные модели Oasis и MineWorld. По другим критериям бенчмарка Matrix-Game корректно обрабатывает повороты камеры на 8 направлений и сохраняет 3D-консистентность объектов, избегая артефактов вроде «летающих» блоков. Несмотря на высокие показатели в тестах, есть слабые места. В редких биомах (например, грибных ландшафтах) модель иногда теряет точность из-за недостатка данных. Также требует улучшений имитация физических взаимодействий. В планах у разработчиков расширить датасеты обучения, внедрить долгосрочную память для последовательностей и адаптировать методику под другие игры: Black Myth: Wukong и CS:GO. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Бенчмарк 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #GameAI #MatrixGame #SkyworkAI

296 416

sticker.webp0.18 KB