Generative Ai
Ir al canal en Telegram
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film
Mostrar más3 675
Suscriptores
+1224 horas
+797 días
+9030 días
Archivo de publicaciones
3 675
Repost from эйай ньюз
Claude Sonnet 4.5
GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов.
По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично.
Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей.
@ai_newz
3 675
Repost from Data Secrets
Sakana AI сделали опенсорсный аналог AlphaEvolve – ShinkaEvolve
Это фреймворк для оптимизации и разработки сложных алгоритмов и архитектур. И, так как Sakana везде пытаются применять идеи эволюции (см этот пост со списком их статей), здесь без этого тоже не обошлось. «Shinka» (進化) с японского и есть "эволюция".
Работает это как нечто среднее между обычным генетическим алгоритмом и LLM-ным поиском по дереву:
1. Система получает на вход Seed-программу и верификатор, который считает метрики качества (фитнес). На каждом шаге свежие полученные скрипты добавляются в единый архив (это наш "банк" родителей). 2. LLM тут выступает мутационным оператором: на каждом шаге из банка берутся один или два родителя, и модель предлагает какие-то изменения в их коде в одном из определенных режимов: diff-патч поверх родителя, полная перезапись, кроссовер (смешивание идей из двух программ). Кстати, LLM выбирается не всегда одна и та же: есть специальный многорукий бандит, который смотрит, кто чаще приносит улучшения на данном типе задач при приемлемой цене, и подстраивает приоритеты. 3. Полученных кандидатов прогоняют через верификатор, но сначала они проходят дополнительный фильтр novelty-rejection. Считаются эмбеддинги программы, проверяется похожесть на архив. Слишком похожие идеи отбраковываются ещё до рассчета метрик, это резко экономит время и деньги.Оставшихся прогоняем через оценщика и лучших добавляем в архив. А дальше – все с начала. Кстати, в архиве есть «острова» (несколько независимых популяций). Если система совсем встает в тупик и разнообразие решений начинает падать – можно осуществить между ними миграцию. Интересный инженерный ход. Тестировали в четырех разничных областях. Результаты занятные: 1. На задаче математической оптимизации всего за 150 сэмплов система вывела новое решение для задачи Circle Packing, превосходящее аналогичные подходы. 2. При проектировании ИИ-агента за ~75 поколений фреймворк "изобрел" трехчастную архитектуру, которая побила бейзлайн на AIME. 3. На задачках из спортивного программирования система добавила много полезных оптимизаций, и в итоге дотянула до уровня серебрянного медалиста. 4. И еще проверяли, насколько хорошо ShinkaEvolve сможет обучить другую LLM. Это самое интересное: примерно 30 поколений система билась с лоссом для MoE, и внезапно вывела функцию потерь, которая по эффективности превзошла многие популярные решения. И главное: в отличие от AlphaEvolve воспользоваться фреймворком можно прямо сейчас и бесплатно. Код вот тут. Просто переписываете
evaluate.py под вашу задачу, кладете initial.py и запускаете shinka_launch variant=experiment_name. Подробная инструкция тут.3 675
Сбор ML-комьюнити на Practical ML Conf 2025 — 27 сентября
Яндекс зовет всех неравнодушных из индустрии machine learning на свою третью масштабную конференцию о практическом применении машинного обучения.
📌 В центре внимания этого года — внедрение ML в бизнес-процессы и продукты. Участников ждут:
17 отборных хардовых ML-доклада по разным направлениям: от NLP, CV и Speech до Data Science, MLOps и RecSys
4 мастер-класса по — по CV, Data Science и, конечно, RecSys
дискуссии и живое общение с комьюнити
Среди спикеров – инженеры Яндекса, AvitoTech, Sber AI, Wildberries, X5 Digital, МТС Web Services и Т-Банка, которые поделятся своими наработками и кейсами.
📅Когда: 27 сентября, оффлайн.
💻 Онлайн: будут трансляции из отдельных залов
👉 Регистрация тут.
🔗 Программа и подробности: https://pmlconf.yandex.ru/2025/
3 675
Repost from XOR
+1
Сеньор-инженер из Google выпустил 400-страничный (!) гайд по архитектурным паттернам для AI-агентов — Agentic Design Patterns.
Внутри как правильно строить промпты, параллелить задачи, Также есть практические примеры с кодом, разбор MCP и многое другое.
Забираем 🫡
@xor_journal
3 675
Repost from эйай ньюз
Фей-Фей Ли хвастается world model своего стартапа — World Labs
Для генерации всего мира понадобилась всего лишь одна картинка, причём по видео видно что консистентность на высоте — модель не забывает детали локации как только пользователь отвернулся, ну и длина генерации не ограничена.
@ai_newz
3 675
Repost from XOR
Для GPT-5 выпустили официальный гайд по промптам
Внутри cookbook openai теперь есть готовые примеры, инструкции и советы по использованию модели. А здесь лежит системный промпт GPT-5.
Изучаем, забираем себе полезные фишечки, пользуемся 👍
@xor_journal
3 675
Repost from Нейронавт | Нейросети в творчестве
GPT-5: все что вам нужно знать
Основные изменения:
➖ GPT-5 превосходит предыдущие модели по точности, скорости и глубине анализа.
➖ Один запрос создает готовое решение: сайт, приложение, игру.
➖ Расширенное контекстное мышление: справляется с длинными задачами и задает уточняющие вопросы.
➖ Снижены «галлюцинации», повышая надежность.
➖ Бесплатный доступ для всех, для Pro - без лимитов.
Ключевые особенности:
➖ Объединяет все предыдущие версии, работает быстрее и точнее.
➖ Пишет сайты, приложения и игры по одному запросу.
➖ Переключается между быстрым и «думающим» режимами.
➖ Улучшена в кодинге, знает новые API.
➖ Самая мощная модель по метрикам LM Arena.
Версии:
➖ GPT-5 — флагманская версия для сложных логических и многоэтапных задач
➖ GPT-5-mini — облегченная версия с балансом производительности и стоимости
➖ GPT-5-nano — сверхбыстрая версия для задач с низкой задержкой (только через API)
➖ GPT-5-chat — специализированная версия для корпоративных диалоговых систем
Мультимодальность и безопасность:
➖ Интеграция с изображениями, аудио и видео.
➖ Лучшее распознавание визуальных структур.
➖ Встроенные guardrails снижают риск jailbreak'ов.
API и настройка:
➖ Поддержка длительной памяти до 256K токенов.
➖ Настройка через custom GPTs и function calling 2.0.
➖ Выход на CPU и edge-устройствах ожидается в 2026.
Cursor
Copilot
API
Попробовать
Кто уже наложил руки - делитесь впечатлениями
#news #assistant
3 675
Repost from Machinelearning
🔥 GPT-OSS — открытые модели для продвинутого reasoning и агентных задач от OpenAI
🧠 Представлено два варианта:
— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU
💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)
✔️ Особенности:
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o
Младшая модель может запускаться даже на локальном железе!
🏴☠️Лицензирование: Apache 2.0
https://github.com/huggingface/transformers/releases/tag/v4.55.0
🚀 Попробовать можно тут: https://www.gpt-oss.com/
💥 Официальный релиз: http://openai.com/open-models
@ai_machinelearning_big_data
#openai #opensource #chatgpt
3 675
Repost from Life2film
Посмотрел новое видео от Андрея Карпатого и решил поделиться саммари:
Три эпохи программирования:
* Software 1.0 — традиционный код, который мы пишем руками
* Software 2.0 — нейронные сети и их веса
* Software 3.0 — LLM, программируемые промптами на естественном языке
LLM = новые операционные системы
Карпатый проводит мощную аналогию: мы сейчас в "1960-х годах компьютеров" для ИИ. Дорогие вычисления заставляют держать LLM в облаке, а мы все — тонкие клиенты, работающие по принципу time-sharing.
⚡ Революция "Vibe Coding"
Теперь каждый может программировать! Не нужно 5-10 лет изучать языки программирования. Карпатый за день создал iOS приложение, не зная Swift. Естественный язык стал языком программирования.
Partial Autonomy Apps — будущее
Успешные ИИ-приложения имеют:
* Автоматическое управление контекстом
* Оркестрацию нескольких моделей
* Специализированный GUI для аудита
* Слайдер автономии (пользователь контролирует уровень ИИ)
Принципы работы с ИИ:
* ИИ генерирует → человек верифицирует
* Работать небольшими порциями
* Ускорять верификацию через визуальные интерфейсы
* Держать ИИ "на поводке" — не давать слишком много автономии
Почему это важно:
* Программное обеспечение не менялось 70 лет, а теперь меняется дважды за несколько лет
* Огромное количество кода нужно переписать
* Беспрецедентные возможности для новых разработчиков
* Мы в начале "десятилетия агентов"
💡 Главный вывод:
В отличие от всех предыдущих технологий (электричество, интернет), ИИ сначала дошел до потребителей, а не к корпорациям. У каждого из нас есть "магический компьютер", который помогает варить яйца, а не решать военные задачи.
Мы живем в уникальное время фундаментального сдвига в программировании. Время действовать!
https://youtu.be/LCEmiRjPEtQ?si=TSnghOHX_erK45jJ
3 675
Repost from эйай ньюз
Gemini CLI — официальный агент для Gemini от Google
Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к Gemini 2.5 Pro и до тысячи в день. Такой щедрости не проявляет ни Codex ни Claude Code. Есть поддержка MCP, которая позволяет подключать туда сторонние тулы. Гугл даже запилил MCP серверы для взаимодействия с Veo/Imagen/Lyria.
Доступен код по лицензии Apache 2.0, так что с ним можно делать всё что угодно. А вот в апстрим залить что-либо будет сильно сложнее — у гугла очень специфическая политика по поводу сторонних контрибьюторов.
npm install -g @google/gemini-cli
Блогпост
Исходники
@ai_newz3 675
Яндекс Погода научилась прогнозировать грозы и показывать молнии в реальном времени
У ML-команды Яндекса вышел новый разбор: рассказали, как решали задачу прогноза гроз с опорой на данные о молниях и выкатывали обновление в продакшен. Сейчас Погода предупреждает о грозе с шагом в 10 минут и показывает молнии на карте в реальном времени.
Что интересного сделали:
1. Дообучили рабочую модель без деградации качества
Когда добавляли новую модальность — прогноз гроз по архивным данным с грозопеленгаторов — заморозили веса блока осадков и обучали только новые компоненты. Это позволило сохранить точность осадков и не испортить ранее выстроенные зависимости.
2. Переосмыслили работу с редкими событиями для обучения
Вместо использования точек с координатами ударов молний модель предсказывает вероятность грозовой активности в ячейках сетки с шагом по времени в 10 минут. Это сглаживает хаотичность обучающих данных и повышает устойчивость модели.
3. Обновили архитектуру: PredRNN++ → Temporal Attention Unit
Отказались от авторегрессинной архитектуры в пользу трансформера с вниманием по времени. В итоге улучшилась точность прогноза и ускорился inference.
4. Настроили лоссы для сегментации границ
Для выделения областей с вероятностью возникновения гроз использовали комбинацию BCE, Dice и Contour Loss. Последняя функция улучшает качество предсказаний по границам туч
5. Объединил мультимодальные источники
Тут объединили данные с радаров, спутников и грозопеленгаторов с предварительной калибровкой и выравниванием → система стала устойчивее к шуму и пропускам в отдельных каналах.
Подводя итог: кейс будет интересен специалистам из ИБ, медицины, финтеха, RecSys и компьютерного зрения и всем, кто работает с редкими событиями, мультимодальными данными и дообучением моделей — есть что перенять по части инженерных решений. Покопать статью
3 675
Repost from Denis Sexy IT 🤖
(Сделайте потише динамики)
Google выкатил MagentaRT модельку для генерации музыки в реальном времени – я поигрался и прям залип; запускается она сейчас не очень удобно, но будет очень классно когда кто-то обернет это в простой интерфейс
Как в видео, модель может играть бесконечно, сама меняя рисунок композиции – ждем новый уровень музыки для лифтов / магазинов / кафе
Модель | Google Colab для запуска | Анонс
3 675
Яндекс Практикум в поиске экспертов на курсы по обучению нейросетей
В нашей образовательной системе много внимания уделяется технологиям. Но самое главное в учёбе — люди: их опыт, поддержка и причастность к сообществу.
Почему это интересно для экспертов:
▪︎ возможность делиться опытом с заинтересованными людьми и реализовать свой потенциал;
▪︎ сильное комьюнити экспертов из разных сфер;
▪︎ дополнительная строчка в резюме и пополнение портфолио;
▪︎ удалёнка, парт-тайм и возможность получать дополнительный доход.
Что мы ожидаем от вас:
▪︎ опыт от 3-х лет в роли NLP инженера;
▪︎ свободное владение Python для типовых задач по анализу и предобработки текстов;
▪︎ уверенное понимание основных задач в сфере Natural Language Processing и актуальных архитектур для их решения.
Ознакомиться с задачами каждой роли и оставить отклик можно по ссылкам:
→ автор курса «NLP»
→ наставник на курс «Инженер по глубокому обучению нейросетей»
3 675
Repost from Machinelearning
🌟MiniMax-M1: открытя reasoning‑LLM с контекстом 1M
MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning
Бенчмарки:
AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)
SWE-bench Verified: 56.0 vs 34.4 (Qwen3)
OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)
TAU-bench (airline): 62.0 vs 34.7 (Qwen3)
LongBench-v2: 61.5 vs 50.1 (Qwen3)
▪Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
▪GitHub: https://github.com/MiniMax-AI/MiniMax-M1
▪Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf
@ai_machinelearning_big_data
#llm #reasoningmodels #minimaxm13 675
Repost from Life2film
Да мы все внутри матрицы.
Я добрался и буду сейчас мучать Veo3. Сделал ресерч (в комментах).
Вот с русским сходу очень хорошо работает.
Промпт -
Nighttime on an empty neon-lit city street after a light rain. A young man in a dark trench coat stands under a flickering streetlight, looking around in confusion. The camera is a steady handheld medium shot, slowly zooming in on his face. He looks at his hands, then stares at the sky with wide eyes. He says in Russian: "Это всё нереально… мы просто чей-то промпт?" Audio: distant thunder rumble, soft rain patter, and a low ominous hum. Cinematic lighting with a greenish tint, subtle glitch effect around the edges of the frame as if the world is glitching.Кстати в https://editor.superduperai.co/ добавил тоже Veo3 но цены себестоимость около 3.75$ за ролик 8 сек. Так-что, я сделаю на днях удобную страничку, и примеров промтов под тренды соберу, расскажу.
3 675
Repost from Machinelearning
✔️ Google представила Gemma 3n — лёгкую и быструю AI-модель для работы на девайсах
Google выпустила Gemma 3n — это новая версия модели, которая запускается локально на мобильных устройствах.
Gemma 3n может работа локально на устройстве с 2 ГБ оперативной памяти!
➡️ Особенности:
• Работает в 1.5 раза быстрее, чем предыдущая Gemma 3 4B
• Поддерживает работу без интернета — всё локально и безопасно
• Умеет понимать текст, речь и изображения
• Можно использовать даже на устройствах с 2–3 ГБ RAM
• Поддерживает мгожетсво языков,
💡 Gemma 3n использует гибкую архитектуру (MatFormer), которая может "переключаться" между лёгким и полным режимом (2B и 4B параметров) — модель подстраивается под задачу, не перегружая устройство.
🔧 Как начать пользоваться:
• Через Google AI Studio — работает прямо в браузере
• Или через SDK Google AI Edge — интеграция на Android, Chromebook и другие устройства
📊 Где это применимо:
• Голосовые ассистенты
• Приложения с ИИ, которые работают без интернета
• Переводчики, чат-боты, анализ изображений на телефоне
➡️Релиз: https://developers.googleblog.com/en/introducing-gemma-3n/
➡️ Документация: https://ai.google.dev/gemma/docs/gemma-3n#parameters
#Gemma #Google #mobile #МультимодальныйИИ #МобильныйИИ #edgedevices
3 675
Repost from Machinelearning
🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов
Mistral AI представил Devstral — свою модель, специально разработанную для решения реальных задач в области кодинга.
Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.
💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.
https://huggingface.co/mistralai/Devstral-Small-2505
@ai_machinelearning_big_data
#Devstral #MistralAI #Кодинг #ИИ #OpenSource
3 675
Repost from эйай ньюз
Что показали на Google I/O?
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...🎤
@ai_newz
3 675
Repost from Метаверсище и ИИще
Гугл Джулс
А вот и ответочка от Гугла на Codex от OpenAI.
Да, это агент-девелопер, который делает задачи, которые вы хотели бы кому-то поручить
↳connect to GitHub and open PRs
↳run or write tests
↳verify code in a cloud VM
↳share its plan, reasoning, and diffs
Сайт: https://jules.google/
Доки: https://jules-documentation.web.app/
Вейтлист: https://jules.google.com/waitlist/
Похоже мы приближаемся к великим битвам агентов. И это прекрасно.
Ибо битва будет за скорость, качество и цену.
Update: похоже что 5 запросов в день и для всех, а не как у опенАИ-бояр: типа Pro, Team, а челядь потом.
@cgevent
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
