Machinelearning

Відкрити в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Сітка:Machinelearning Росія1 258 Технології та додатки323...

📈 Аналітичний огляд Telegram-каналу Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 297 740 підписників, посідаючи 323 місце в категорії Технології та додатки та 1 258 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 297 740 підписників.

За останніми даними від 13 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -7 002, а за останні 24 години на -157, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 8.06%. Протягом перших 24 годин після публікації контент зазвичай збирає 5.70% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 24 001 переглядів. Протягом першої доби публікація в середньому набирає 16 986 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 182.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як openai, claude, api, gemini, контекст.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Завдяки високій частоті оновлень (останні дані отримано 14 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

297 740

Підписники

-15724 години

-1 5127 днів

-7 00230 день

24 001

Перегляди допису

~ 16 98624 години

~ 19 16148 годин

8.06%

Коефіцієнт залучення

~ 6

Дописів на день

Ads index

beta

Архів дописів

297 701

🔵 Reinforcement Learning — ключевая стратегия для создания автономных систем. Создайте агента, который думает как живой! 🔥Записывайтесь на бесплатные вебинары курса «Reinforcement Learning» 🌀№1: Классические алгоритмы RL - SARSA и Q-learning ⏰23 декабря в 20:00 Вы узнаете: •Что такое обучение с подкреплением и чем оно отличается от других подходов •Как работают алгоритмы SARSA и Q-learning и в чем их отличия •Как настроить окружение и запустить RL-агента на реальных задачах 🌀№2: Построение собственного окружения на примере биржевой торговли ⏰13 января в 20:00 Вы узнаете: •Структуру RL-окружений на примере OpenAI Gym: состояния, действия, награды, шаги среды •Как строить окружение для биржевой торговли, используя данные Yahoo Finance, MOEX 🌀№3: FinRL - фреймворк RL для построения торговых агентов ⏰22 января в 20:00 Вы узнаете: Как построить торгового агента с помощью фреймворка FinRL Записывайтесь ➡️ OTUS.RU #реклама О рекламодателе

297 701

💀 NeuroSploit v2 - продвинутый AI-фреймворк для тестирования на проникновение (пентеста). NeuroSploit v2 использует большие языковые модели, чтобы автоматизировать и усилить offensive security. Фреймворк помогает анализировать цели, находить уязвимости, планировать эксплуатацию и поддерживать защитные меры, сохраняя фокус на этике и операционной безопасности. Основные возможности: • Агентная архитектура Специализированные AI-агенты под разные роли: Red Team, Blue Team, Bug Bounty Hunter, Malware Analyst. • Гибкая интеграция LLM Поддержка Gemini, Claude, GPT (OpenAI) и Ollama с настройкой через профили. • Тонкая настройка моделей Отдельные LLM-профили для каждой роли: выбор модели, температура, лимиты токенов, кэш и контекст. • Markdown-промпты Динамические шаблоны промптов, адаптирующиеся под задачу и контекст. • Расширяемые инструменты Интеграция Nmap, Metasploit, Subfinder, Nuclei и других security-инструментов через конфигурацию. • Структурированные отчёты JSON-результаты кампаний и удобные HTML-отчёты. • Интерактивный CLI Командная строка для прямого управления агентами и сценариями. NeuroSploit v2 - пример того, как agentic AI превращает пентест из ручной работы в управляемую автоматизацию.


git clone https://github.com/CyberSecurityUP/NeuroSploitv2.git
cd NeuroSploitv2

▪ Github: https://github.com/CyberSecurityUP/NeuroSploit @ai_machinelearning_big_data #python #Penetrationtesting #llm #mlops #Cybersecurity

297 701

📌Итоги года от Андрея Карпаты.

2025 год был захватывающим годом для языковых моделей. Они проявились как новый вид интеллекта, одновременно гораздо более умный и гораздо более глупый, чем я ожидал. Я думаю, что индустрия не реализовала хотя бы 10% их потенциала даже при нынешних возможностях. Я одновременно верю и в то, что мы увидим быстрый и непрерывный прогресс, и в то, что впереди еще очень много работы. Пристегнитесь.

🟡Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) В 2025-м стек обучения LLM дополнился новой ключевой стадией оптимизации по объективным наградам. Он заставляет модели самостоятельно находить стратегии рассуждения. Прогресс года в том, что создание моделей стало не про увеличение размера модели, а про более длительные RLVR-прогоны. Это также дало новый рычаг управления: "время размышления" на инференсе. Первопроходец - OpenAI o1, а переломный момент - o3. 🟡Интеллект современных LLM принципиально отличен от человеческого Интеллект LLM формируется под давлением специфических оптимизаций и на выходе мы имеем резкие всплески способностей в рядом с грубыми ошибками. Из-за этого бенчмарки теряют смысл: под них напрямую оптимизируются, что не ведёт к созданию AGI. 🟡Cursor - это новый слой LLM-приложений Это не просто интерфейс к условной модели, а сложная оркестрация работы LLM под конкретные вертикали, c управляемым контекстом, вызовами и интерфейсом. Cursor создаёт отдельную ценностную прослойку между LLM-лабораториями и конечными пользователями. 🟡Claude Code В отличие от облачных агентов, он использует ваши данные, контекст и инструменты для ризонинга и вызова инструментов. Его фишка - в низкой задержке, приватности и глубокой интеграции в рабочее окружение. Это сдвиг от ИИ как «сайта» к напарнику-помощнику в вашей системе.

Я думаю, OpenAI допустили ошибку, сосредоточив свои усилия по созданию агентов в облаке и управляемых из ChatGPT, вместо localhost.

🟡Вайб-кодинг В 2025 году ИИ преодолел порог, позволяющий через текстовые инструкции создавать работающие программы. Это демократизирует программирование, позволяя непрофессионалам писать код, а экспертам - быстро прототипировать без глубокого погружения. Код становится эфемерным, гибким и бесплатным ресурсом.

Забавно, что я придумал термин «вайб-кодинг» в этом твите с мыслями из душа, совершенно не представляя, как далеко это зайдет :)

🟡LLM GUI и Nano banana Взаимодействие с ИИ через чат - это аналог командной строки 80-х, неудобный для человека. Будущее за LLM GUI интерфейсом, где ИИ общается визуально (инфографика, анимации, веб-приложения). Nano banana - ранний пример такого взаимодействия, в ней объединены генерация текста, изображений и общие знания.

Google Gemini Nano banana — одна из самых невероятных, меняющих парадигму моделей 2025 года.

🔜 Читать статью полностью @ai_machinelearning_big_data

297 701

✔️ Higgsfield запустил сервис профессионального ИИ-кинопроизводства. Cinema Studio — специализированная среда генерации со структурой съемочного процесса. Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро. Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней. higgsfield.ai ✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои. Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью. Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга. Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope. qwen.ai ✔️ Cursor покупает платформу код-ревью Graphite. Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы. В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей. Несмотря на смену владельца, Graphite продолжит функционировать автономно. cursor.com ✔️ NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000. Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт. Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года. blogs.nvidia.com ✔️Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM. Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом. Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам. Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia. deepmind.google @ai_machinelearning_big_data #news #ai #ml

297 701

🌟 Minimax VTP: гибридный токенизатор для диффузии на стероидах. В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.

Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.

MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP). Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения. Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса: 🟢Стандартный pixel reconstruction loss; 🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2); 🟢Image-text contrastive loss (как в CLIP). Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна. 🟡Теоретические выкладки подтвердились на практике. Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза. 🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1. Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно. 🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров: 🟠VTP-Large - 0.7B; 🟠VTP-Base - 0.3B; 🟠VTP-Small - 0.2B. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Diffusion #Tokenizer #Minimax

297 701

Вышел YaC 2025 AI Edition. Внутри ИИ-ассистенты, ИИ-агенты, ИИ-наушники, ИИ-диктофон, новые LLM- и VLM-модели, роботы и автономные грузовики — всё, что начинается с ИИ. Часть фичей уже открыта на всех, часть ограниченно на тех, кто ранее записывался на раннее тестирование. Всё показано в демках или через личные кейсы пользователей. Интересно, что делают особую ставку на развитие направления Physical AI. Самый яркий пример ИИ в реальном мире — роботы-доставщики, число которых к концу 2027 года достигнет 20 тысяч (они появятся во многих крупных городах), для чего наладили автоматизированное конвейерное производство (где также трудятся роботы). Помимо роверов прогресс есть и в более мощных железках — один из автономных грузовиков Яндекса уже прошёл более 500 000 км, все вычисления на борту. В фильме продемонстрировали живые демо агентных систем, on-device вычислений и реальных сценариев применения LLM и VLM. Смотреть можно на любой платформе — Кинопоиск, VK Видео или YouTube.

297 701

✔️ GPT-5.2-Codex. OpenAI представила GPT-5.2-Codex, которую называет самым продвинутым инструментом для реальной программной инженерии на сегодняшний день. Модель получила нативную поддержку сжатия контекста, улучшенную интеграцию с терминалом Windows и способность проводить глубокий рефакторинг крупных репозиториев без потери логической нити. Ключевой апдейт коснулся сферы безопасности - Codex резко прибавил способностей в анализе защищенности кода. Модель уже доступна платным пользователям ChatGPT, а API будет открыт в ближайшие недели. openai.com ✔️ xAI представила Grok Voice Agent API. Компания Илона Маска открыла публичный доступ к Grok Voice Agent API — нативному интерфейсу speech-to-speech для создания голосовых ассистентов. Решение построено на полностью собственной архитектуре, что позволило достичь задержки ответа менее 1 секунды. API поддерживает вызов внешних инструментов, веб-поиск, прямую интеграцию с телефонией через SIP и понимает более 100 языков. В бенчмарке Big Bench Audio модель заняла 1 место с точностью 92,3%, опередив Gemini 2.5 Flash и GPT Realtime. Главной фишкой стала ценовая политика: единый тариф составляет $0.05 за минуту. Это значительно дешевле, чем у OpenAI и ElevenLabs. x.ai ✔️ VS Code получил поддержку стандарта Agent Skills. В VS Code Insiders появилась поддержка Agent Skills - открытого протокола, разработанного Anthropic. Технология позволяет упаковывать инструкции, скрипты и вспомогательные ресурсы в модули, которыми можно пользоваться в разных ИИ-инструментах. Главное отличие Agent Skills от привычных кастомных инструкций в функциональности: это не текстовые гайдлайны по стилю кода, а полноценные наборы инструментов для автоматизации задач, которые подгружаются в контекст модели динамически и только при необходимости. Стандарт дает кросс-платформенность: созданный один раз скилл будет работать одинаково как в интерфейсе редактора, так и в CLI-агентах. code.visualstudio.com ✔️ Google выпустила T5Gemma 2. T5Gemma 2 получила серьезные архитектурные изменения по сравнению с первой версией. Чтобы снизить потребление памяти, инженеры внедрили tied word embeddings для энкодера и декодера, а также объединили механизмы self-attention и cross-attention в единый слой. Модели доступны в компактных конфигурациях на 270M, 1B и 4B параметров. Новинка поддерживает контекстное окно до 128 тыс. токенов и умеет обрабатывать не только текст на 140 языках, но и изображения. В бенчмарках T5Gemma 2 обошла базовую Gemma 3 в задачах на длинный контекст, кодинг и мультимодальное понимание. Модели доступны на Hugging Face и Kaggle для исследовательских целей. blog.google ✔️ ИИ-подразделение Марка Цукерберга открыло аудио-визуальный энкодер PE-AV. Perception Encoder Audiovisual (PE-AV) - техническое ядро, лежащее в основе SAM Audio. Это мультимодальная модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV умеет извлекать векторы признаков из аудио или видеокадров и формировать совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков и глубокого понимания сцен, где важен синхронный контекст изображения и звука. В открытом доступе - 6 чекпоинтов модели разного размера (от Small до Large) с вариациями по количеству обрабатываемых кадров. Код опубликован на GitHub, а веса - на Hugging Face. huggingface.co @ai_machinelearning_big_data #news #ai #ml

297 701

🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов. Ключевое: - Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF - Уверенно работает со сканами, рукописным текстом и нестандартной версткой - Возвращает структурированный результат, а не просто сырой текст - Подходит для автоматизации Document AI и downstream-аналитики - Доступен через API и готов к продакшен-использованию Главное - На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом. - Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения. - Используется в Document AI Playground: В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON. https://mistral.ai/news/mistral-ocr-3 @ai_machinelearning_big_data #ocr #mistal #llm

297 701

🌟 TurboDiffusion: ускорение генерации видео в 100+ раз. Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.

Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.

Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу. 🟡Архитектура держится на 3-х китах оптимизации: 🟢Заменили стандартное внимание на гибрид из SageAttention2++ и Sparse-Linear Attention (SLA), который превратил квадратичную сложность в линейную. чтобы модель фокусировалась только на важных токенах. 🟢Дистиллировали сэмплинг через rCM - вместо стандартных 50–100 шагов модель приходит к результату всего за 3-4 шага без потери сути изображения. 🟢Перевели и веса и активации линейных слоев в INT8 используя блочное квантование, чтобы не потерять точность. В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов. 🟡Результаты бенчмарков выглядят как опечатка, но это не она. На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды. Это ускорение больше чем в 100 раз. При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала. 📌Лицензирование: Apache 2.0 License. 🟡Набор моделей 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #I2V #T2V #TurboDiffusion

297 701

✔️ HY World 1.5: модель для генерации 3D-миров в реальном времени. Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS. В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом. Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры). 3d-models.hunyuan.tencent.com ✔️ Microsoft обновила 3D-модель TRELLIS. TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией. В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты. microsoft.github.io ✔️ Adobe добавил видеоредактор в Firefly. Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном. Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео. Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января. blog.adobe.com ✔️ Google Labs делает экспериментального ИИ-агента для автоматизации рутины. Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами. Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре. Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания. blog.google ✔️ Perplexity обновила свое приложение для iPad. Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования. Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности. В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе. bloomberg.com @ai_machinelearning_big_data #news #ai #ml

297 701

⚡ Gemini 3 Flash - быстрый ИИ нового поколения от Google Gemini 3 Flash: - это очень быстрая модель с минимальной задержкой - при этом она сохраняет сильные способности к рассуждению - Frontier-уровень на GPQA Diamond - рассуждения уровня PhD - Хорошие результаты на Humanity’s Last Exam - State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными - В целом, качество сопоставимо с Gemini 3 Pro По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость. https://blog.google/products/gemini/gemini-3-flash/ @ai_machinelearning_big_data #AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning

297 701

📌 Андрей Карпаты написал ИИ-пайплайн для проверки IT-прогнозов десятилетней давности. Андрей опубликовал разбор своего нового пет-проекта. Он создал систему, которая анализирует архивные треды Hacker News и с помощью LLM проверяет, сбылись ли предсказания пользователей спустя 10 лет. Проект использует так называемые «послезнание» (hindsight), чтобы сравнивать старые комментарии с реальностью, выявлять визионеров и находить самые громкие ошибки. Технически решение представляет собой пайплайн, который собирает данные через API Algolia и обрабатывает их с помощью структурированного промпта. Тестовый прогон на 930 обсуждениях (месячный архив статей Hacker News) занял около часа и обошелся всего в 58 долларов. На выходе система генерирует статический сайт с «Залом славы» аналитиков и рейтингом точность прогнозов. Исходный вайб-код проекта, по традиции - в открытом доступе. @ai_machinelearning_big_data #AI #ML #LLM #Tutorial #Karpaty

297 701

✔️ Black Forest Labs релизнула FLUX.2 max. FLUX.2 max — флагманская модель для генерации изображений кинематографического качества. Модель получила функцию "grounded generation": она использует данные из интернета в реальном времени, что позволяет точно отражать в генерациях актуальные события или текущую погоду. Инструмент ориентирован на профессиональную работу со стилем: модель поддерживает загрузку до 10 референсных изображений. В бенчмарках новинка сразу заняла вторую строчку по качеству text-to-image и редактирования, уступив только Nano Banana Pro. Воспользоваться FLUX.2 max можно исключительно через API. bfl.ai ✔️ SAM Audio: модель для изоляции любых звуков по тексту, таймкоду или клику на видео. ИИ-команда Марка Цукерберга расширила линейку Segment Anything: новая модель SAM Audio способна извлекать звуковые дорожки из сложных аудио-визуальных миксов с помощью мультимодальной системы промптов. Выделить голос, музыкальный инструмент или фоновый шум можно 3 способами: текстовым описанием, выделением временного отрезка или визуально - просто кликнув на объект в кадре видео. Код для инференса и веса модели в 3-х вариантах (small, base и large) уже опубликованы на GitHub и Hugging Face под лицензией SAM, а протестировать возможности можно в официальном Playground. github.com ✔️ OpenAI сделала бенчмарк для проверки научного мышления ИИ. OpenAI запустила "Frontier Science" - стандарт оценки компетенций ИИ в физике, химии и биологии. Бенчмарк разработан при участии 42 победителей международных олимпиад и 45 ученых. Он разделен на два направления: трек «Олимпиада» включает теоретические задачи экстра-класса, а трек «Исследования» состоит из тестов уровня PhD, с которыми сталкиваются реальные научные сотрудники. Ответы в бенчмарке проверяет верифицированный авто-грейдер на базе GPT-5. Первые прогоны тестов показали расстановку сил среди моделей 2025 года. Лидером стала GPT-5.2 (x-high), решившая 77% олимпиадных задач и 25% исследовательских кейсов. Ближайший конкурент, Gemini 3 Pro, показал практически идентичный результат в теоретической части - 76%. openai.com ✔️ Nvidia купила SchedMD. Nvidia объявила о приобретении компании SchedMD, которая развивает и поддерживает Slurm - инструмент для оркестрации вычислений в дата-центрах. Именно этот планировщик управляет нагрузкой на более чем половине суперкомпьютеров из рейтинга TOP-500. Для Nvidia это стратегический шаг: Slurm эффективно утилизирует ресурсы кластеров, выстраивая очереди на обучение нейросетей и симуляции так, чтобы GPU и CPU не простаивали. Nvidia пообещала, что Slurm останется open-source проектом и сохранит нейтральность к вендорам, продолжая работать на любом оборудовании. blogs.nvidia.com ✔️ Власти США открыли набор 1000 инженеров и ИИ-специалистов на госслужбу. Администрация президента США объявила о запуске программы экстренной цифровизации госсектора - "US Tech Force". В рамках инициативы запланирован найм 1000 технических специалистов, в первую очередь - экспертов в области ИИ. Им предстоит решать задачи национального масштаба: от управления критической инфраструктурой Минфина до разработки передовых оборонных технологий. Условия для кандидатов приближены к рыночным: двухлетний контракт с годовым окладом от $150 000 до $200 000. Курирует набор Управление по кадрам, а первые специалисты приступят к работе уже в марте. По завершении службы инженерам обещают содействие в трудоустройстве на постоянные позиции в частные компании-партнеры "US Tech Force". techforce.gov @ai_machinelearning_big_data #news #ai #ml

297 701

⚡️ ChatGPT Images 1.5 По словам компании, модель получила 4х прирост скорости работы и радикально улучшенный механизм инпейнтинга. Алгоритм научился вносить точечные правки в загруженные фото, сохраняя исходное освещение, композицию, стиль и узнаваемость персонажей, что позволяет использовать инструмент для профессиональной ретуши и виртуальной примерки. Модель также получила апгрейд в рендеринге текста и мелких деталей лиц. В состав команды, которая делала обновление вошли Билл Пиблз, руководитель разработки Sora, и Адитья Рамеш, ответственный за направление World Simulation. Для пользователей ChatGPT запущен отдельный интерфейс Images с библиотекой пресетов. OpenAI подготовили в гайд про промптингу к новой модели. Стоимость GPT Image 1.5 через API снижена на 20% по сравнению с первым поколением. @ai_machinelearning_big_data #news #ai #ml

297 701

⚡️ Xiaomi MiMo-V2-Flash: MoE с 309 млрд. общих и 15 активных параметров. Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5. Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов. 🟡Модель создавалась с фокусом на эффективность инференса. MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction . В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно. Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания. Измерения показали, что в этом есть смысл: при использовании 3-слойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена, что дает чистое ускорение инференса в 2,0–2,6 раза без увеличения операций ввода-вывода KV-кэша. 🟡На пост-трейне использовали парадигму Multi-Teacher Online Policy Distillation. Ее суть в том, что модель-студент сэмплирует варианты ответов из собственной политики, а награды ей выдают сразу несколько моделей-учителей. Это дало возможность масштабировать RL с ощутимой экономией: для пиковой производительности учителей требуется менее 1/50 вычислительных ресурсов по сравнению с традиционными пайплайнами SFT+RL. 🟡Боевые метрики на бенчмарках выглядят красиво. На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей и очень близко к показателям GPT-5-High. В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач. В математическом AIME 2025 и научном бенчмарке GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди open-source решений. Для задач поиска на BrowseComp результат составил 45,4, а при использовании управления контекстом вырос до 58,3. В прямом сравнении ризонинг-задачах MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking, но превосходит K2 Thinking на длинных контекстах. 🔜 Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных). 📌Лицензирование: MIT License. 🟡Статья 🟡Техотчет 🟡Demo 🟡Модель @ai_machinelearning_big_data #AI #ML #LLM #MiMOv2Flash #Xiaomi

297 701

📌Со-основатель Google DeepMind: вероятность появления AGI к 2028 году составляет 50%. Шейн Легг, сооснователь и главный AGI-сайентист Google DeepMind в свежем видео-подкасте предлагает понятие "минимального AGI". Это не обязательно "божественный сверхразум", а агент, способный выполнять когнитивные задачи, типичные для человека. 🟡Сегодня мы видим явный дисбаланс в возможностях моделей. С одной стороны, топовые модели уже владеют 100–150 языками и обладают феноменальной общей эрудицией, зная детали о городах в Новой Зеландии. С другой стороны, они спотыкаются на базовых вещах, доступных любому ребенку.

Например, в задачах на визуальное мышление модели путаются в перспективе: они могут не понять, что синяя машина на картинке больше красной, просто потому что она находится ближе.

Другой пример - работа с диаграммами: если попросить ИИ посчитать количество ребер, выходящих из узла на графе, он часто ошибается, так как не умеет внимательно пересчитывать объекты так, как это делает человек.

🟡Фундаментальных физических ограничений для преодоления человеческого уровня интеллекта не существует, если смотреть на это с инженерной точки зрения. Человеческий мозг - это устройство весом чуть больше килограмма, потребляющее около 20 ватт энергии. Сигналы в нем передаются посредством электрохимических реакций со скоростью примерно 30 метров в секунду, а частота работы нейронов составляет всего около 100 герц. Сравните это с современным дата-центром: это сооружение весом в сотни тонн, потребляющее 200 мегаватт. Сигналы там "бегают" со скоростью света, а тактовая частота процессоров достигает 10 млрд. герц. Разница в масштабах — это десятки порядков сразу по нескольким измерениям: энергопотреблению, объему, пропускной способности и скорости. Поэтому считать человеческий интеллект верхним пределом возможного было бы ошибкой. 🟡Для достижения AGI недостаточно просто масштабировать данные. Критическим барьером остается непрерывное обучение. Люди, приходя на новую работу, не обязаны знать все сразу - они учатся в процессе. Современный ИИ представляет собой статичные объекты после тренировки. Чтобы это изменить, потребуются архитектурные инновации, например, внедрение систем эпизодической памяти, которые позволят модели запоминать новый опыт и дообучаться на нем в реальном времени, не забывая старое. В ближайшие годы мы увидим переход от ИИ как инструмента к агентным системам, способным самостоятельно планировать и выполнять сложные цепочки действий, например, написать ПО или спланировать поездку "под ключ". 🟡Вопрос безопасности в таких системах Легг предлагает решать по аналогии с медленным мышлением у человека. ИИ не должен просто реагировать инстинктивно; он должен демонстрировать цепочку рассуждений, которую можно промониторить. Это дает возможность проверить, почему модель приняла то или иное этически сложное решение — например, солгать злоумышленнику, чтобы спасти чью-то жизнь. Если мы сможем видеть этот скрытый процесс размышления, доверие к системе вырастет. Это станет критически важным, когда ИИ начнет трансформировать рынок труда: например, в сфере разработки ПО, где вместо команды из 100 инженеров для той же работы может потребоваться всего 20 специалистов, использующих продвинутые инструменты. 🔜 Послушать умного человека в очках 53 минуты на Youtube @ai_machinelearning_big_data

297 701

⚡️ Google Code Wiki. Google запустила в публичное превью платформу Code Wiki. Инструмент сканирует репозиторий и генерирует живую базу знаний, которая перестраивается автоматически после каждого изменения в коде. Под капотом - естественно Gemini. Разработчики могут общаться с контекстно-зависимым чат-ботом, который понимает структуру конкретного проекта «от и до». Code Wiki умеет строить диаграммы архитектуры, объяснять логику работы модулей и мгновенно перенаправлять из вики к конкретным определениям функций. Сейчас веб-версия работает с публичными репозиториями, но в планах - CLI-расширение для развертывания системы в закрытых корпоративных контурах. @ai_machinelearning_big_data #news #ai #ml

297 701

Repost from ТЕХНО: Яндекс про технологии

📋 ИИ не понимает, что вы от него хотите? Чтобы ответы нейросети были более предсказуемыми и чёткими, попробуйте добавить промптам структуру — сейчас расскажем как. А если инструкция покажется слишком сложной, листайте до конца — там объясняем, как структурировать промпты в два клика. Зачем структурировать промпт ИИ легко интерпретирует информацию в простых запросах, но если вводные будут очень длинными и сложными, модель может ошибиться в их понимании. Чтобы этого не случилось, текст промпта можно структурировать, сразу указав, где какие данные. Как структурировать промпт Создатели нейросетей предлагают использовать специальную разметку, которую понимает ИИ. Это могут быть: 🟢 Markdown, разметка для форматирования текста. Для промптинга можно использовать маркированные и нумерованные списки, а также знак «#», который в markdown означает заголовки разного уровня, а в запросе определяет иерархию задач.

# Задание Составь план празднования дня рождения для компании из 8 человек. ## Ограничения - Бюджет: 10 000 рублей - Локация: дома - Среди гостей есть вегетарианцы ## Что должно быть в плане ### 1. Меню - Основные блюда - Закуски - Напитки ### 2. Развлечения - Игры - Музыка - Активности ### 3. Тайминг мероприятия

🟢 XML-теги, обозначающие границы какого-либо текстового элемента. Начало и конец элемента обозначаются метками <тег> и </тег>, а сами теги могут быть любыми.

<цель>Составить недельное меню для семьи из 3 человек</цель> <ограничения> <бюджет>10 000 рублей</бюджет> <предпочтения>больше овощей, минимум жареного, суп каждый день</предпочтения> <исключить>грибы, орехи, морепродукты, мёд</исключить> </ограничения> <формат> <приёмы_пищи>завтрак, обед, ужин, перекус</приёмы_пищи> <описание>подробный рецепт каждого блюда со списком ингредиентов</описание> </формат>

🟢 JSON, стандарт структурирования данных, позволяющий с помощью несложного синтаксиса разметить любую информацию в промпте.

{ "задание": "Составь список покупок на неделю", "параметры": { "количество_людей": 2, "предпочтения": ["вегетарианское", "минимум сахара"], "бюджет": "до 10 000 рублей" }, "категории": [ "овощи и фрукты", "крупы и макароны", "молочные продукты", "напитки", "другое" ], "формат_ответа": { "тип": "список", "сгруппировать_по_категориям": true } }

Кажется, разметка — это сложно Если не хочется разбираться с Markdown, XML и JSON, можно показать ваш промпт нейросети и попросить, чтобы она сама добавила разметку, не меняя суть. А ещё можно найти готовый промпт под свою задачу на Промптхабе — во многих из них используется Markdown-разметка. Подписывайтесь 👉 @techno_yandex

297 701

✔️ OpenAI создала Android-версию Sora за 28 дней. В ноябре 2025 года OpenAI выпустила приложение Sora для Android, пройдя путь от прототипа до глобального релиза всего за 1 месяц. Над проектом работали 4 инженера и ранняя версия GPT-5.1-Codex. Результаты эксперимента показали новый стандарт эффективности: 85% кода было сгенерировано ИИ, при этом стабильность версии держалась на уровне 99,9%. В первые сутки Sora для Android возглавило чарты Play Store, а пользователи создали более миллиона видео. В OpenAI отмечают, что ИИ-ассистенты берут на себя рутину, однако архитектурное проектирование и контроль качества по-прежнему требуют участия людей. openai.com ✔️ Стартап Миры Мурати запустил сервис Tinker. Thinking Machines открыл глобальный доступ к своей платформе Tinker, который предоставляет услуги дообучения LLM методом LoRA. Сервис пополнился моделью Kimi K2 Thinking и интерфейсом, совместимым с OpenAI API. Также были добавлены возможности визуального ввода с помощью моделей Qwen3-VL, позволяющие обрабатывать изображения и текст вместе. thinkingmachines.ai ✔️ Google сделала синхронный перевод для любых наушников. Google открыла доступ к функции потокового перевода речи для любых наушников, подключенных к Android-устройству. Ранее эта технология была доступна только владельцам Pixel Buds, но теперь аппаратные ограничения сняты. За качество обработки отвечает новая модель Gemini 2.5 Flash Native Audio. Она поддерживает более 70 языков и умеет сохранять оригинальный тон, темп и ритм говорящего, делая синтезированную речь максимально естественной. Благодаря расширенной базе знаний модель понимает сленг и культурные нюансы в реальном времени. blog.google ✔️ ИИ-агент ARTEMIS превзошел 90% профессиональных пентестеров. Исследователи из Стэнфорда опубликовали результаты тестирования ИИ-агента ARTEMIS, который обошел 9 из 10 людей-экспертов по кибербезопасности. При эксплуатационной стоимости около $18 в час система показала не только экономическую эффективность, но и техническое преимущество в скорости. За 16 часов работы ARTEMIS просканировал 8000 устройств, запуская субагентов для параллельной атаки множества целей. Он выявил уязвимости, которые пропустили люди, в том числе на устаревших серверах, недоступных через обычные браузеры. В первые 10 часов агент обнаружил 9 валидных брешей с показателем успешности 82%. Разработчики признают, что ИИ идеально справляется с парсингом кода и логов, но работа с графическими интерфейсами пока остается его слабым местом, иногда приводя к ложным срабатываниям. businessinsider.com ✔️ ASML представила дорожную карту High-NA EUV для производства ИИ-чипов. CEO гиганта литографии заявил о готовности поддерживать рост индустрии ИИ в течение следующих 10–15 лет. Главным вектором развития станет переход от текущего стандарта EUV к технологии с высокой числовой апертурой (High-NA EUV), которая необходима для создания следующего поколения микросхем. Массовое коммерческое внедрение High-NA EUV запланировано на 2027–2028 годы. Эти сроки коррелируют с требованиями ключевых клиентов, ставящих цель увеличивать плотность транзисторов в 16 раз каждые 2 года. Чтобы обеспечить такую масштабируемость, ASML сфокусируется на улучшении 3 параметров: разрешения, точности позиционирования и общей производительности установок. bloomberg.com @ai_machinelearning_big_data #news #ai #ml

297 701

🍏 Apple представила SHARP - фотореалистичный 3D генератор из одного изображения SHARP - это исследовательский проект Apple, который умеет создавать фотореалистичные новые ракурсы сцены, имея всего одну фотографию. Нейросеть за один проход предсказывает 3D-сцены в виде гауссианов. Полученную 3D-сцену можно: - рендерить в реальном времени - получать высококачественные изображения с близких ракурсов - двигать камеру в реальных метрических координатах Главные фишки: - используется метрическое 3D-представление с абсолютным масштабом - поддерживаются реальные движения камеры - модель работает zero-shot, без дообучения на новых датасетах Модель устанавливает новый уровень качества сразу на нескольких наборах данных: - метрика LPIPS улучшена на 25–34% - метрика DISTS улучшена на 21–43% по сравнению с лучшими предыдущими моделями При этом время генерации снижено в тысячи раз. SHARP показывает, насколько далеко продвинулись методы 3D-реконструкции и view synthesis — и как быстро такие технологии начинают работать в реальном времени, а не только в лаборатории. ▪Github: https://github.com/apple/ml-sharp ▪HF: https://huggingface.co/apple/Sharp ▪ Демки: https://apple.github.io/ml-sharp/ @ai_machinelearning_big_data #apple #llm #ai #ml