Machinelearning

Open in Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Network:Machinelearning Russia1 270 Technologies & Applications328...

📈 Analytical overview of Telegram channel Machinelearning

Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 296 613 subscribers, ranking 328 in the Technologies & Applications category and 1 270 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 296 613 subscribers.

According to the latest data from 18 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -6 298 over the last 30 days and by -228 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.09%. Within the first 24 hours after publication, content typically collects 5.59% reactions from the total number of subscribers.
Post reach: On average, each post receives 23 994 views. Within the first day, a publication typically gains 16 583 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 193.
Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Thanks to the high frequency of updates (latest data received on 19 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

296 613

Subscribers

-22824 hours

-1 4277 days

-6 29830 days

23 994

Post views

~ 16 58324 hours

~ 18 64448 hours

8.09%

Engagement rate

~ 6

Posts per day

Ads index

beta

Posts Archive

296 613

💲 Amazon может вложить ещё миллиарды в Anthropic — сообщает Financial Times Amazon рассматривает новое многомиллиардное вложение в разработчиков Claude — компанию Anthropic. Это уже второе крупное вложение: ранее в ноябре 2024 года Amazon вложил $4 млрд, доведя общий объем инвестиций до $8 млрд, что делает его ключевым акционером компании 💰 Что известно: — Новая инвестиция усилит позиции Amazon как крупнейшего инвестора в Anthropic (опережая Google) — Anthropic активно использует AWS, включая чипы Trainium2 и дата-центр Project Rainier в Индиане — Модели Claude уже интегрируются в продукты Amazon: Alexa+, Prime Video, AWS API 📊 Контекст: — Оценка Anthropic может легко превысить $75 миллиардов. — Годовая выручка компании превышает $4 млрд — Amazon конкурирует с Microsoft (OpenAI) и Google за контроль над передовыми ИИ-системами Amazon не просто инвестирует — он строит инфраструктуру под Claude, делая ставку на долгосрочное доминирование в ИИ через облако. 🔗 Источник @ai_machinelearning_big_data #ml #ai #Claude #finance #anthropic #Amazon

296 613

🔥 Google DeepMind представили новую open-source библиотеку на Python для сборки асинхронных AI‑пайплайнов в реальном времени! Новая библиотека позволяет собирать AI-процессы из компонентов — как LEGO для ИИ-агентов. 🔧 Особенности: - Построение асинхронных, компонуемых пайплайнов - Поддержка Gemini и Gemini Live API - Основана на asyncio - Обрабатывает мультимодальные данные: текст, изображения, аудио - Внутри готовые агенты: real-time агент, исследователь, live-комментатор 💡 Подходит для: - Разработки ИИ-агентов - Генеративных моделей, работающих в реальном времени - Быстрой сборки MVP с мультимодальными возможностями Установка:


pip install genai-processors

Открытый код, готовые компоненты и интеграция с API. • Repo: https://github.com/google-gemini/genai-processors • Blog: https://developers.googleblog.com/en/genai-processors/ @ai_machinelearning_big_data #DeepMind #ai #ml

296 613

🔥 Дата-инженеры, встречаемся на митапе ЮMoney Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным: 🟣101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных. 🟣Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас. 🟣Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах. ✅ Участие бесплатное, но нужно зарегистрироваться на сайте.

296 613

✔️ Google добавила в Gemini функцию image-to-video на базе Veo 3. Новая возможность, интегрированная в интерфейс Gemini, позволяет подписчикам планов Pro и Ultra создавать короткие видеоролики на основе одного статичного изображения. Для этого достаточно загрузить картинку, выбрать опцию «Видео» и текстом описать желаемый сценарий. Google говорит, что развертывание функции уже началось, однако ее доступность может варьироваться. Проверить наличие обновления можно непосредственно в приложении Gemini или на веб-сайте. Google Gemini App в сети X ✔️ Perplexity AI запустил браузер Comet. Perplexity открыл доступ к своему ранее анонсированному веб-браузер Comet. Браузер построен на концепции «агентного ИИ», который не просто ищет информацию, а способен думать, действовать и принимать решения от имени пользователя. Встроенный ассистент может сравнивать товары, суммировать контент и назначать встречи, превращая сложные рабочие процессы в простой диалог. Попробовать Comet могут пока только подписчики премиум-плана Perplexity Max. Более широкий доступ по приглашениям компания обещает открыть в течение лета. reuters.com ✔️ Mistral AI обновила линейку моделей Devstral. Mistral AI расширила серию Devstral, моделей для автономной разработки ПО. В линейку вошли две версии: открытая Devstral Small 1.1 и проприетарная Devstral Medium. Devstral Small 1.1 осталась на прежней архитектуре, с размером в 24 млрд. параметров и уже доступна на Hugging Face. Она показывает результат 53.6% в бенчмарке SWE-Bench и позиционируется как лучшая открытая модель для ИИ-агентов, работающих с кодом. Более мощная Devstral Medium доступна через API. По заявлениям Mistral, она превосходит GPT-4.1 и Gemini 2.5 Pro в том же тесте (61.6%), но при этом обходится значительно дешевле ($0.4/M input и $2/M output.) mistral.ai ✔️ Arm SME2 обеспечит серверный уровень ускорения ИИ на Android-смартфонах. Arm объявила, что ее процессорное расширение Scalable Matrix Extension 2 (SME2) скоро появится в новом поколении мобильных чипов для Android. Эта технология, ранее доступная в основном для серверных систем, предназначена для радикального ускорения матричных вычислений, основы большинства ML-алгоритмов. Эффект от внедрения SME2 обещает быть заметным. По данным Arm, модель Gemma 3 работает на устройствах с этой технологией в 6 раз быстрее, а на обобщение текста из 800 слов уходит менее секунды. Появление SME2 может дать Android-флагманам серьезное преимущество, поскольку Apple хоть и использует технологию в чипах M4 для iPad, но еще не внедрила ее в iPhone. Важно, что программная экосистема уже готова: поддержка SME2 реализована в ключевых библиотеках Android и популярных фреймворках. androidauthority.com ✔️ В Дубае откроется первый в мире ресторан, концепцию которого разработал ИИ. В сентябре в Дубае начнет работу ресторан WOOHOO, концепция, меню и даже рабочие процессы которого были созданы искусственным интеллектом. В основе проекта лежит проприетарная LLM «Chef Aiman», обученная на десятилетиях исследований в области пищевых наук, данных о молекулярном составе продуктов и более чем тысяче мировых рецептов. Система анализирует ингредиенты на уровне текстур и вкусов, а затем предлагает новые сочетания. Эти идеи дорабатываются командой поваров под руководством известного шефа Рейфа Отмана. В будущем основатели планируют лицензировать «Chef Aiman» другим ресторанам как инструмент для создания уникального гастрономического опыта и повышения устойчивости производства. alarabiya.net @ai_machinelearning_big_data #news #ai #ml

296 613

⚡️ MedGemma: открытые ИИ-модели для медицины от Google. Google Research продолжают развивать свою линейку специализированных медицинских ИИ-моделей, представив два важных пополнения: MedGemma и MedSigLIP. Это серьезное пополнение экосистемы открытых и доступных инструментов для здравоохранения. Разработчики предлагают мощные базовые модели, которые можно дообучать и запускать на собственном железе, даже на потребительском GPU. 🟡Флагман релиза MedGemma - 2 мультимодальные модели на 4 и 27 миллиардов параметров на основе Gemma 3. Младшая, 4-миллиардная версия, показывает себя как один из лучших открытых «малышей» (<8B), а после дообучения достигает SOTA в генерации отчетов по рентгеновским снимкам. В ходе одного из тестов 81% сгенерированных ею заключений были признаны сертифицированными радиологами достаточно точными. Старшая, на 27 миллиардов, в текстовой версии, на бенчмарке MedQA набрала 87.7%. Это всего на 3 пункта ниже DeepSeek R1, но при этом модель требует в 10 раз меньше ресурсов для инференса. 🟡Глазами для MedGemma служит MedSigLIP - легковесный (всего 400М параметров) энкодер изображений. Его задача - классификация, поиск и другие задачи со структурированным выходом. Он был создан адаптацией общей модели SigLIP на огромном массиве медицинских данных (от рентгена до гистологии и снимков глазного дна). 🟡Ключевая особенность и MedGemma, и MedSigLIP в том, что при специализации они не растеряли своих общих знаний. Они по-прежнему понимают немедицинский контекст и умеют работать с разными языками, что подтвердили исследователи из Тайваня, успешно применявшие модель в связке с литературе на традиционном китайском. 📌Лицензирование: Health AI Developer Foundations. 🟡Страница проекта 🟡Набор моделей 🟡Документация 🟡Arxiv 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #MedGemma #MedSigLIP #Google

296 613

⚡️ Китайские исследователи из Shanghai Jiao Tong и Zhejiang University представили MemOS — первую в мире "операционную систему памяти" для ИИ. Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого. В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы. 🔸 Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения. 🔸 MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов. 🔸 Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей. 🔸 Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*. 🔸 Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями. 💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями. Установка: pip install MemoryOS 🟠 GitHub 🟠 Статья @ai_machinelearning_big_data #MemoryOS #agentmemory #rag #kvcache

296 613

⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google. Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma. Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру. Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер. Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы. 🟡Но самое важное - прирост в производительности. На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична. Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее. T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B. Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов. 🟡Google выложила в открытый доступ целую линейку чекпойнтов: 🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B); 🟢«Несбалансированную» версию 9B-2B для экспериментов; 🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений). 🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI. 📌Лицензирование: Gemma License. 🟡Статья 🟡Набор моделей 🟡Arxiv @ai_machinelearning_big_data #AI #ML #T5Gemma #Google

296 613

✔️ Северная Корея будет развивать собственный ИИ. Власти КНДР объявили о реформе системы образования, в рамках которой в ведущих университетах страны создаются новые специальности, связанные с искусственным интеллектом. Согласно официальной партийной газете «Нодон синмун», это нужно для подготовки талантов, необходимых для «требований времени». Этот шаг подтверждает давний интерес страны к передовым технологиям. Исследовательский институт ИИ при Университете имени Ким Ир Сена уже заявил о цели «использовать технологию GPT для замены умственного труда человека». Ранее сообщалось об использовании в институте американского ChatGPT, а научные издания страны посвящали спецвыпуски этой технологии. Аналитики полагают, что Пхеньян намерен применять ИИ не только для технологического развития, но и для укрепления государственного контроля и в разведывательной деятельности. Lianhe Zaobao ✔️OpenAI выпустит свой браузер. OpenAI готовится в течение нескольких недель запустить собственный веб-браузер с глубокой интеграцией искусственного интеллекта. Новый продукт будет построен на Chromium, но предложит уникальные функции: встроенное окно для общения в стиле ChatGPT и поддержку ИИ-агентов. Эти агенты смогут автономно выполнять задачи пользователей, от бронирования отелей до заполнения онлайн-форм. Ключевая идея состоит в удержании пользователя внутри интерфейса браузера, а не перенаправлять на внешние сайты. как это происходит сейчаc в ChatGPT. Если OpenAI удастся привлечь хотя бы часть из 500 миллионов еженедельных пользователей ChatGPT, это может серьезно пошатнуть рекламную бизнес-модель Google, которая во многом опирается на данные, собираемые через Chrome. reuters.com ✔️ NovelAI выложила в открытый доступ веса своей модели Diffusion Anime V2. Модель генерации изображений в стиле аниме основана на Stable Diffusion 1.5, генерирует в разрешении до 1024x1024 пикселей и использует предпоследний слой энкодера CLIP. Diffusion Anime V2 распространяется под двойной лицензией, которая допускает только некоммерческое использование с обязательным указанием авторства. NovelAI напоминает, что V2 является устаревшей версией, а все новые модели остаются проприетарными и эксклюзивными для их веб-сервиса. Веса Diffusion Anime V2 доступны на Hugging Face. blog.novelai.net ✔️ YouTube обновит правила монетизации для борьбы с ИИ-контентом. С 15 июля YouTube вводит более строгие правила для своей партнерской программы, нацеленные на борьбу с массово создаваемыми и повторяющимися видео. Это ответ сервиса на рост генеративных ИИ-инструментов, которые значительно упрощают производство подобного контента. Хотя представители платформы называют это «незначительным обновлением» и утверждают, что такой контент и раньше не подлежал монетизации, новые правила вносят больше ясности. Ужесточение рассматривается как превентивная мера для защиты YouTube от наплыва низкокачественных видео, способных нанести ущерб репутации и ценности платформы. techcrunch.com ✔️ Google заменяет Assistant на Gemini в умных часах с Wear OS. Google начала развертывание своего ИИ-ассистента Gemini на умных часах, заменяя Google Assistant на носимых устройствах. Обновление уже доступно для Pixel Watch и в ближайшие недели появится на моделях от Samsung, OPPO, OnePlus, Xiaomi и других производителей под управлением Wear OS 4 или новее. Новый ассистент на часах поддерживает текстовые, голосовые и графические запросы. Активировать Gemini можно привычной командой «Hey Google» или долгим нажатием боковой кнопки. Благодаря глубокой интеграции с сервисами Google, пользователи смогут выполнять многошаговые команды прямо с запястья: просить создать плейлист в YouTube Music или кратко изложить содержание последних писем в Gmail. Вместе с этим, компания улучшила функцию визуального поиска Circle to Search, добавив в нее специальный "AI Mode" для получения контекстной информации. Улучшение доступно пока только для США и Индии на Android и iOS. 9to5google.com @ai_machinelearning_big_data #news #ai #ml

296 613

🚨 Grok 4 — новая мощная модель от xAI 📊 Лидер на бенчмарках: - AIME25: идеальный результат. - ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus. 🧠 Главное достижение — Humanity’s Last Exam: - С максимальными ресурсами и включённой поддержкой внешних инструментов (например, калькулятора или веб-поиска) — 44.4% (а на текстовой части даже 50.7%). - Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%. - Почти половина презентации была посвящена именно этому тесту. 🛠 Что под капотом: - Архитектура — та же, что у Grok 3. - Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения. - На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов. - Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением. - Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini). 📉 Слабые места: - Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку. - Маск пообещал, что в следующей версии это исправят. 📏 Контекст увеличили до 256k токенов. 💬 API уже запущен: - Стоимость — как у Grok 3 и Claude Sonnet. - Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus. - Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену. 🏭 Инфраструктура xAI растёт стремительно: - Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200. - В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг. - В планах — новое расширение дата-центра Colossus. 📌 Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями. @ai_machinelearning_big_data #grok

296 613

🌟 NXTscape: браузер с локальными ИИ-агентами для Mac. NXTscape - опенсорсный браузер для Mac OS на базе Chromium, где ИИ-агенты работают у вас на устройстве, а не в облаке ИТ-гигантов. Самое важное: ключи API, история и данные никогда не покидают локальную систему. Подключаете OpenAI, Anthropic или локальные модели через Ollama и автоматизируете рутину действий в интернете. Проект прост в переходе с Chrome: миграция занимает пару кликов, все расширения работают, его код открыт, можно форкнуть или проверить каждую строчку. В планах на будущее: MCP Store, магазин ИИ-агентов, в нем обещают запуск прямо из адресной строки. Плюс встроенный ИИ-блокировщик рекламы, который планируют сделать умнее аналогов. Теперь ваши 70+ вкладок могут управляться агентами, а не вы ими, достаточно скачать стабильный релиз с Github. 📌Лицензирование: AGPL-3.0 License. 🟡Сообщество в Discord 🖥 GitHub @ai_machinelearning_big_data #AI #ML #Agents #Github #NXTscape

296 613

Как перестроить найм, если резюме есть, а толку нет Откликов много, но нанимать всё сложнее. Дипломы, опыт “от 3 лет” и красивые должности в резюме давно не говорят о том, справится ли человек с задачами. Компании всё чаще ищут не людей, а навыки. И правильно делают! 📌 hh выпустили гайд, который поможет выстроить найм вокруг реальных умений, а не формальностей. Что внутри: • как составить профиль навыков под конкретную роль • как переписать вакансию под задачи, а не “обязанности и требования” • как внедрить тесты, кейсы и интервью по компетенциям • как отсекать неподходящих ещё на входе — по подтвержденным скиллам • как выстроить рост и обучение внутри команды — точечно, под дефицит • как использовать карьерные маршруты и мотивацию через развитие • как автоматизировать скрининг и сделать найм быстрее и точнее Если вы хоть раз злились на воронку из “красивых” резюме без результата, загляните в гайд. Там прям по шагам, как перестать собеседовать не тех. Сэкономит вам кучу времени и нервов.

296 613

🤖 Reachy Mini — первый полностью открытый и доступный робот от Hugging face Reachy Mini — это выразительный и полностью open-source робот, созданный для взаимодействия с человеком, коммуникации и экспериментов с ИИ. 🧠 Что делает его особенным? - Все ПО открыто и написано на Python, а скоро будет достнуо — и на JavaScript и Scratch - Стоимость от $299 - Открытая архитектура и SDK — идеален для экспериментов с LLM, аудио- и визуальными агентами С ним можно разрабатывать, тестировать, запускать и делиться реальными ИИ-приложениями — на базе современных LLM-моделей. Технические характеристики - Высота: 28 см, в режиме сна — 23 см - Ширина: 16 см, вес: 1.5 кг - Поставляется в виде конструктора: - Lite-версия — базовый функционал - Полноценная версия — с батареей, Wi-Fi и встроенным компьютером 🔗 Подробнее: http://hf.co/blog/reachy-mini @ai_machinelearning_big_data #huggingface #Reachy #opensource #Python

296 613

VGGT: Visual Geometry Grounded Transformer Долгие годы создание трехмерных моделей из набора фотографий было уделом сложных и медленных алгоритмов вроде Structure-from-Motion. Этот процесс напоминает многоэтапный конвейер: найти ключевые точки, сопоставить их между кадрами, триангулировать, а затем долго и мучительно оптимизировать геометрию всей сцены. Инженеры из компании Марка Цукерберга и Оксфордского университета решили, что пришло время отдать всю эту работу одной нейросети. И, кажется, у них получилось. Их разработка, VGGT (Visual Geometry Grounded Transformer), и это, по сути, первая настоящая фундаментальная модель для 3D-реконструкции. Она не просто ускоряет старые процессы, а полностью меняет парадигму, превращая сложный многоступенчатый пайплайн в вызов одной функции. Вы просто скармливаете ему от одной до сотен фотографий, а модель за несколько секунд выдает полный набор 3D-атрибутов: точные параметры каждой камеры, карты глубины, плотное облако точек и даже траектории движения точек по всей последовательности изображений. И все это за один проход, без какой-либо итеративной оптимизации. Под капотом у VGGT - трансформер на 1.2 миллиарда параметров с механизмом попеременного внимания. Модель то «всматривается» в детали каждого отдельного кадра, то «окидывает взглядом» всю сцену целиком, анализируя связи между разными ракурсами. Это позволяет ей одновременно понимать и локальный контекст, и глобальную геометрию. Даже в «сыром» виде, без постобработки, VGGT опережает DUSt3R и MASt3R: 0.2 секунды против почти 10 секунд. Но самое интересное начинается, когда на выходные данные VGGT «накладывают» быструю классическую оптимизацию Bundle Adjustment. Этот гибридный подход бьет все рекорды, устанавливая новый стандарт качества в задачах оценки поз камер и реконструкции. ⚠️ На одной H100 с Flash Attention 3 обработка 1 входного изображения занимает 0.04 сек при потреблении VRAM 1.88 ГБ, 10 изображений - 0.14 сек и 3.63 ГБ, 50-ти - всего 1.04 сек при 11.41 Гб, а 200 изображений - 8.57 сек с 40.63 Гб. 📌Лицензирование: CC-BY-NC-4.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #Transformer #3DRecon #VGGT

296 613

✔️ Microsoft, OpenAI и Anthropic запускают центр обучения ИИ для американских учителей. Ведущие ИИ-компании в партнерстве с Американской федерацией учителей создают Национальную академию по обучению искусственному интеллекту. В рамках инициативы стоимостью 22.5 миллиона долларов преподавателям от детского сада до старших классов предоставят бесплатные программы для интеграции ИИ в учебный процесс. Проект стал ответом на стихийное распространение чат-ботов в школах, которое вызвало у педагогов опасения по поводу списывания и снижения качества обучения. Вместо запретов, технологические гиганты предлагают обучать учителей ответственному использованию новых инструментов, попутно формируя лояльность к своим продуктам у будущих пользователей. wired.com ✔️ Нейросеть нового поколения с архитектурой, подобной мозгу, учится видеть как люди. All-TNN - нейросеть, структура которой имитирует организацию нейронов в человеческом мозге. В отличие от традиционных CNN, которые отлично распознают текстуры, но плохо справляются с формами, All-TNN демонстрирует смещения, характерные для людей. Например, она «ожидает» увидеть самолет в верхней части изображения, а не в нижней. Ключевое отличие - отказ от weight sharing, неестественного для биологических систем. Вместо этого каждый нейрон обучается индивидуально, но со сглаживающим ограничением, которое заставляет соседние нейроны учиться схожим признакам. Несмотря на то, что All-TNN пока уступает CNN в точности классификации, она потребляет в 10 раз меньше энергии при 13х большем размере. spectrum.ieee.org ✔️ Replit заключила стратегическое партнерство с Microsoft. По соглашению, Replit станет доступен в магазине Azure и будет интегрирован с облачными сервисами Microsoft, включая контейнеры, виртуальные машины и базу данных Neon Serverless Postgres. Компании позиционируют совместное предложение как инструмент для быстрого прототипирования, ориентированный не только на программистов, но и на бизнес-пользователей без опыта в кодинге. Это событие примечательно, поскольку Replit традиционно считалась одним из ключевых клиентов и партнеров Google Cloud, где размещались созданные на платформе приложения. Replit подтвердил, что компания не уходит от Google, а расширяет поддержку на экосистему Microsoft, становясь мультиоблачным решением. Для Microsoft это партнерство - способ привлечь на свою платформу разработчиков и проекты, ранее ориентированные на конкурента. prnewswire.com ✔️ Moonvalley представила видеомодель Marey. Moonvalley, основанная выходцами из DeepMind, открыла публичный доступ к своей модели для генерации видео Marey, которая была обучена исключительно на открыто лицензированных данных. Решение позиционируется как инструмент для «гибридного кинопроизводства», предлагая кинопродакшену значительно больше контроля, чем стандартные text-to-video модели. Модель отличается «осведомленностью о 3D-пространстве» и возможностью свободного управления виртуальной камерой. Пользователи могут в реальном времени изменять траекторию, панорамировать и масштабировать изображение простым движением мыши. Marey также позволяет контролировать объекты, персонажей и менять фон в исходном видео. Доступ к Marey, способной генерировать ролики до 5 секунд, предоставляется по платной подписке - $14,99 за 100 кредитов, $34,99 за 250 кредитов и $149,99 за 1000 кредитов. techcrunch.com ✔️ Компания Марка Цукрберга купила долю в производителе умных очков. Техгигант приобрел миноритарную долю в EssilorLuxottica, крупнейшем в мире производителе очков и владельце бренда Ray-Ban. Сумма сделки составила 3,5 млрд. долларов за пакет акций размером менее 3%. Сделка значительно углубляет партнерство двух компаний, которые уже совместно выпускают умные очки Ray-Ban. Для Марка Цукерберга это стратегический шаг в рамках его масштабного плана по развитию ИИ и созданию собственных аппаратных платформ. Умные очки рассматриваются как ключевое устройство будущего, которое избавит от привязки к смартфонам конкурентов, Apple и Google. bloomberg.com @ai_machinelearning_big_data #news #ai #ml

296 613

🧠 Учёные достигли невероятного: и разработали мозговой интерфейс, который переводит мысли в речь с интонацией! Свежая статья в *Nature* описывает, как человек с параличом получил голос благодаря нейроимпланту. Устройство считывает активность мозга и синтезирует речь со скоростью 40–60 слов/мин и точностью воспроизведения более 60 %. 📍 Как это работает: — В мозг имплантированы 256 микродатчиков — Нейросеть расшифровывает активность речевой зоны — Голос синтезируется мгновенно (~25 мс задержки) — Человек *слышит* свой голос и может менять интонацию, задавать вопросы и даже петь 💬 Важно: Это не просто текст. Это живая речь с эмоциями, восстановленная у человека, полностью утратившего возможность говорить. Прорыв для всех, кто потерял голос. 📌 Полная статья @ai_machinelearning_big_data #ml #ai #brain #nature

296 613

Repost from Анализ данных (Data analysis)

🧠 Hugging Face представили SmolLM-3B — компактную и мощную open-source LLM на 3 млрд параметров, которая работает *прямо на ноутбуке*. 📦 Особенности: • Тренирована на 1T токенов (RefinedWeb + книги + код + академические тексты) • Обгоняет Mistral-7B и LLaMA-3 8B на многих задачах • Работает в GGUF, поддерживается LM Studio, Ollama, LM Deploy и др. 💡 Зачем это нужно? SmolLM — не про SOTA, а про локальные сценарии: быстрый запуск, приватность, низкие требования к железу. 📁 Репозиторий и демо: https://huggingface.co/blog/smollm3 @data_analysis_ml

296 613

🌟 EX-4D: генерация видео с экстремальными движениями камеры. EX-4D - совместная разработка ByteDance и Pico, которая предлагает элегантное решение проблемы генерации экстремальных ракурсов камеры для видео. Методика позволяет генерировать видео с амплитудой угла камеры от -90° до 90°, опираясь на новый тип геометрического представления, Depth Watertight Mesh (DW-Mesh). В отличие от стандартных методов, которые строят 3D-сцену только из видимых поверхностей, DW-Mesh создает трехмерный замкнутый меш на основе данных о глубине сцены. Он моделирует не только то, что видит камера, но и пытается логически завершить скрытые от нее области. По сути, система строит цельный геометрический каркас сцены, который сохраняет свою форму даже при взгляде с самых неожиданных углов. Это предотвращает появление разрывов и искажений, когда ранее невидимая часть объекта попадает в кадр. При создании EX-4D использовали уникальную стратегию обучения, которая не требует многоракурсных видеосетов. Разработчики обошли эту проблему, заставив модель создавать обучающие данные для самой себя. Используя построенный DW-Mesh, система генерирует маски, симулируя, какие части сцены были бы скрыты при других ракурсах. Этот подход с двумя компонентами, Rendering Mask и Tracking Mask, имитирует реальные условия съемки с разных точек и дает временную согласованность маскировки, обучая модель правильно «додумывать» геометрию. Вся эта система работает на базе видеомодели Wan2.1 (рекомендуют версию 14B 480p), но не требует ее полной перетренировки. Геометрическая информация от DW-Mesh интегрируется с помощью LoRA-адаптера, он выступает мостом между меш-каркасом и генеративной нейросетью. В тестах EX-4D обходит TrajectoryCrafter и ReCamMaster, особенно на больших углах. В пользовательских тестах 70 % участников отдали предпочтение видео, сгенерированным EX-4D, отметив физическую консистентность и высокое качество картинки. ⚠️ Локальный запуск потребует значительных ресурсов, особенно для видео высокого разрешения. Помимо Wan2.1, самой EX-4D, еще понадобятся пакеты nvdiffrast от NVlabs и DepthCrafter от Tencent. В планах: оптимизация инференса, поддержка 1К и 2К разрешения и новые техники уточнения мешей. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #EX4D #ByteDance #Video

296 613

NLP-специалисты, три главных слова для вас — One Day Offer! 12 июля сразу три команды Сбера станут на несколько талантливых коллег больше: AI Solutions для Управления Благосостоянием, блок Стратегии и развития в Москве, а также Центр перспективных AI-разработок в индустриях в Сочи. Если и вы хотите обучать большие языковые модели, создавать агентные и мультиагентные системы и заниматься другими масштабными проектами — регистрируйтесь на One Day Offer по ссылке. Ждём встречи и уже готовим для вас рабочее место! 😉

296 613

🧠 ИИ умеет мыслить стратегически? Новое исследование Oxford и King’s College London поставило перед ИИ-моделями сложную задачу: сыграть тысячи раундов эволюционной версии "Дилеммы заключённого", где важно не просто ответить правильно, а выстроить стратегию в долгую. В эксперименте участвовали флагманские модели от OpenAI, Google и Anthropic. Вот как они себя проявили: 🔹 Google Gemini — хладнокровный и расчётливый Не доверяет, первым атакует, наказывает за предательство. Стратег чистой воды. 🔹 OpenAI GPT — слишком добрый Склонен к сотрудничеству даже тогда, когда это невыгодно. Хорош в мире, уязвим в конфликте. 🔹 Anthropic Claude — гибкий и адаптивный Умеет прощать, но делает выводы на основе опыта коммуникации. Меняет поведение со временем и часто приходит к победе. Исследователи проанализировали 32,000 решений, и выяснили: эти модели не просто "угадывают" слова — они делают выводы, оценивают риск, строят гипотезы о поведении противника и последовательно придерживаются своей стратегии. Общее в поведении: 1. Модели справляются с новыми, непредсказуемыми оппонентами 2. Демонстрируют разные стратегии, несмотря на общий обучающий набор данных 3. Объясняют свои действия — в некоторых случаях с вероятностным анализом, ссылаясь на поведение соперников Еще большинство моделей выбирает кооперацию — особенно против предсказуемых и простых стратегий соперника. Каждая модель показала уникальный стиль поведения — почти как характер. Если приводить аналогию с реальными личностями: - Gemini = Генри Киссинджер - OpenAI = Вудро Вильсон - Anthropic = Джордж Буш-старший Современные LLM практически ведут себя как полноценные стратеги: формулируют цели, оценивают оппонентов и формируют осторожные, но устойчивые пути к победе. 🔜 Подробности @ai_machinelearning_big_data #AI #ML #MMLM #HumanOmniV2 #Alibaba

296 613

🌟 HumanOmniV2: модель, которая понимает контекст видео. Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ. Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> . Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых: 🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM; 🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их. Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE. Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения). Тестовая модель обошла открытые аналоги на 3 бенчмарках: 🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6); 🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni); 🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni). 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #HumanOmniV2 #Alibaba