Generative Ai

Ir al canal en Telegram

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Created by @life2film

Rusia143 928 Tecnologías y Aplicaciones22 853

3 675

Suscriptores

+1224 horas

+797 días

+9030 días

608

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

16.56%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

3 675

Repost from эйай ньюз

Claude Sonnet 4.5 GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов. По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично. Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей. @ai_newz

3 675

Repost from Data Secrets

Sakana AI сделали опенсорсный аналог AlphaEvolve – ShinkaEvolve Это фреймворк для оптимизации и разработки сложных алгоритмов и архитектур. И, так как Sakana везде пытаются применять идеи эволюции (см этот пост со списком их статей), здесь без этого тоже не обошлось. «Shinka» (進化) с японского и есть "эволюция". Работает это как нечто среднее между обычным генетическим алгоритмом и LLM-ным поиском по дереву:

1. Система получает на вход Seed-программу и верификатор, который считает метрики качества (фитнес). На каждом шаге свежие полученные скрипты добавляются в единый архив (это наш "банк" родителей). 2. LLM тут выступает мутационным оператором: на каждом шаге из банка берутся один или два родителя, и модель предлагает какие-то изменения в их коде в одном из определенных режимов: diff-патч поверх родителя, полная перезапись, кроссовер (смешивание идей из двух программ). Кстати, LLM выбирается не всегда одна и та же: есть специальный многорукий бандит, который смотрит, кто чаще приносит улучшения на данном типе задач при приемлемой цене, и подстраивает приоритеты. 3. Полученных кандидатов прогоняют через верификатор, но сначала они проходят дополнительный фильтр novelty-rejection. Считаются эмбеддинги программы, проверяется похожесть на архив. Слишком похожие идеи отбраковываются ещё до рассчета метрик, это резко экономит время и деньги.

Оставшихся прогоняем через оценщика и лучших добавляем в архив. А дальше – все с начала. Кстати, в архиве есть «острова» (несколько независимых популяций). Если система совсем встает в тупик и разнообразие решений начинает падать – можно осуществить между ними миграцию. Интересный инженерный ход. Тестировали в четырех разничных областях. Результаты занятные: 1. На задаче математической оптимизации всего за 150 сэмплов система вывела новое решение для задачи Circle Packing, превосходящее аналогичные подходы. 2. При проектировании ИИ-агента за ~75 поколений фреймворк "изобрел" трехчастную архитектуру, которая побила бейзлайн на AIME. 3. На задачках из спортивного программирования система добавила много полезных оптимизаций, и в итоге дотянула до уровня серебрянного медалиста. 4. И еще проверяли, насколько хорошо ShinkaEvolve сможет обучить другую LLM. Это самое интересное: примерно 30 поколений система билась с лоссом для MoE, и внезапно вывела функцию потерь, которая по эффективности превзошла многие популярные решения. И главное: в отличие от AlphaEvolve воспользоваться фреймворком можно прямо сейчас и бесплатно. Код вот тут. Просто переписываете evaluate.py под вашу задачу, кладете initial.py и запускаете shinka_launch variant=experiment_name. Подробная инструкция тут.

3 675

Сбор ML-комьюнити на Practical ML Conf 2025 — 27 сентября Яндекс зовет всех неравнодушных из индустрии machine learning на свою третью масштабную конференцию о практическом применении машинного обучения. 📌 В центре внимания этого года — внедрение ML в бизнес-процессы и продукты. Участников ждут: 17 отборных хардовых ML-доклада по разным направлениям: от NLP, CV и Speech до Data Science, MLOps и RecSys 4 мастер-класса по — по CV, Data Science и, конечно, RecSys дискуссии и живое общение с комьюнити Среди спикеров – инженеры Яндекса, AvitoTech, Sber AI, Wildberries, X5 Digital, МТС Web Services и Т-Банка, которые поделятся своими наработками и кейсами. 📅Когда: 27 сентября, оффлайн. 💻 Онлайн: будут трансляции из отдельных залов 👉 Регистрация тут. 🔗 Программа и подробности: https://pmlconf.yandex.ru/2025/

3 675

Repost from XOR

Сеньор-инженер из Google выпустил 400-страничный (!) гайд по архитектурным паттернам для AI-агентов — Agentic Design Patterns. Внутри как правильно строить промпты, параллелить задачи, Также есть практические примеры с кодом, разбор MCP и многое другое. Забираем 🫡 @xor_journal

3 675

Repost from эйай ньюз

Фей-Фей Ли хвастается world model своего стартапа — World Labs Для генерации всего мира понадобилась всего лишь одна картинка, причём по видео видно что консистентность на высоте — модель не забывает детали локации как только пользователь отвернулся, ну и длина генерации не ограничена. @ai_newz

3 675

Repost from XOR

Для GPT-5 выпустили официальный гайд по промптам Внутри cookbook openai теперь есть готовые примеры, инструкции и советы по использованию модели. А здесь лежит системный промпт GPT-5. Изучаем, забираем себе полезные фишечки, пользуемся 👍 @xor_journal

3 675

Repost from Нейронавт | Нейросети в творчестве

GPT-5: все что вам нужно знать Основные изменения: ➖ GPT-5 превосходит предыдущие модели по точности, скорости и глубине анализа. ➖ Один запрос создает готовое решение: сайт, приложение, игру. ➖ Расширенное контекстное мышление: справляется с длинными задачами и задает уточняющие вопросы. ➖ Снижены «галлюцинации», повышая надежность. ➖ Бесплатный доступ для всех, для Pro - без лимитов. Ключевые особенности: ➖ Объединяет все предыдущие версии, работает быстрее и точнее. ➖ Пишет сайты, приложения и игры по одному запросу. ➖ Переключается между быстрым и «думающим» режимами. ➖ Улучшена в кодинге, знает новые API. ➖ Самая мощная модель по метрикам LM Arena. Версии: ➖ GPT-5 — флагманская версия для сложных логических и многоэтапных задач ➖ GPT-5-mini — облегченная версия с балансом производительности и стоимости ➖ GPT-5-nano — сверхбыстрая версия для задач с низкой задержкой (только через API) ➖ GPT-5-chat — специализированная версия для корпоративных диалоговых систем Мультимодальность и безопасность: ➖ Интеграция с изображениями, аудио и видео. ➖ Лучшее распознавание визуальных структур. ➖ Встроенные guardrails снижают риск jailbreak'ов. API и настройка: ➖ Поддержка длительной памяти до 256K токенов. ➖ Настройка через custom GPTs и function calling 2.0. ➖ Выход на CPU и edge-устройствах ожидается в 2026. Cursor Copilot API Попробовать Кто уже наложил руки - делитесь впечатлениями #news #assistant

3 675

Repost from Machinelearning

🔥 GPT-OSS — открытые модели для продвинутого reasoning и агентных задач от OpenAI 🧠 Представлено два варианта: — GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB) — GPT-OSS-20B — 21B параметров, работает на 16GB GPU 💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4) ✔️ Особенности: • Архитектура Token-choice MoE с SwiGLU • Контекст до 128K токенов с RoPE • Модель заточена на CoT (chain-of-thought) • Поддержка instruction-following и tool-use • Совместима с transformers, vLLM, llama.cpp, ollama • Используется тот же токенизатор, что и в GPT-4o Младшая модель может запускаться даже на локальном железе! 🏴‍☠️Лицензирование: Apache 2.0 https://github.com/huggingface/transformers/releases/tag/v4.55.0 🚀 Попробовать можно тут: https://www.gpt-oss.com/ 💥 Официальный релиз: http://openai.com/open-models @ai_machinelearning_big_data #openai #opensource #chatgpt

3 675

Repost from Life2film

Посмотрел новое видео от Андрея Карпатого и решил поделиться саммари: Три эпохи программирования: * Software 1.0 — традиционный код, который мы пишем руками * Software 2.0 — нейронные сети и их веса * Software 3.0 — LLM, программируемые промптами на естественном языке LLM = новые операционные системы Карпатый проводит мощную аналогию: мы сейчас в "1960-х годах компьютеров" для ИИ. Дорогие вычисления заставляют держать LLM в облаке, а мы все — тонкие клиенты, работающие по принципу time-sharing. ⚡ Революция "Vibe Coding" Теперь каждый может программировать! Не нужно 5-10 лет изучать языки программирования. Карпатый за день создал iOS приложение, не зная Swift. Естественный язык стал языком программирования. Partial Autonomy Apps — будущее Успешные ИИ-приложения имеют: * Автоматическое управление контекстом * Оркестрацию нескольких моделей * Специализированный GUI для аудита * Слайдер автономии (пользователь контролирует уровень ИИ) Принципы работы с ИИ: * ИИ генерирует → человек верифицирует * Работать небольшими порциями * Ускорять верификацию через визуальные интерфейсы * Держать ИИ "на поводке" — не давать слишком много автономии Почему это важно: * Программное обеспечение не менялось 70 лет, а теперь меняется дважды за несколько лет * Огромное количество кода нужно переписать * Беспрецедентные возможности для новых разработчиков * Мы в начале "десятилетия агентов" 💡 Главный вывод: В отличие от всех предыдущих технологий (электричество, интернет), ИИ сначала дошел до потребителей, а не к корпорациям. У каждого из нас есть "магический компьютер", который помогает варить яйца, а не решать военные задачи. Мы живем в уникальное время фундаментального сдвига в программировании. Время действовать! https://youtu.be/LCEmiRjPEtQ?si=TSnghOHX_erK45jJ

3 675

Repost from эйай ньюз

Gemini CLI — официальный агент для Gemini от Google Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к Gemini 2.5 Pro и до тысячи в день. Такой щедрости не проявляет ни Codex ни Claude Code. Есть поддержка MCP, которая позволяет подключать туда сторонние тулы. Гугл даже запилил MCP серверы для взаимодействия с Veo/Imagen/Lyria. Доступен код по лицензии Apache 2.0, так что с ним можно делать всё что угодно. А вот в апстрим залить что-либо будет сильно сложнее — у гугла очень специфическая политика по поводу сторонних контрибьюторов.

npm install -g @google/gemini-cli

Блогпост Исходники @ai_newz

3 675

Яндекс Погода научилась прогнозировать грозы и показывать молнии в реальном времени У ML-команды Яндекса вышел новый разбор: рассказали, как решали задачу прогноза гроз с опорой на данные о молниях и выкатывали обновление в продакшен. Сейчас Погода предупреждает о грозе с шагом в 10 минут и показывает молнии на карте в реальном времени. Что интересного сделали: 1. Дообучили рабочую модель без деградации качества Когда добавляли новую модальность — прогноз гроз по архивным данным с грозопеленгаторов — заморозили веса блока осадков и обучали только новые компоненты. Это позволило сохранить точность осадков и не испортить ранее выстроенные зависимости. 2. Переосмыслили работу с редкими событиями для обучения Вместо использования точек с координатами ударов молний модель предсказывает вероятность грозовой активности в ячейках сетки с шагом по времени в 10 минут. Это сглаживает хаотичность обучающих данных и повышает устойчивость модели. 3. Обновили архитектуру: PredRNN++ → Temporal Attention Unit Отказались от авторегрессинной архитектуры в пользу трансформера с вниманием по времени. В итоге улучшилась точность прогноза и ускорился inference. 4. Настроили лоссы для сегментации границ Для выделения областей с вероятностью возникновения гроз использовали комбинацию BCE, Dice и Contour Loss. Последняя функция улучшает качество предсказаний по границам туч 5. Объединил мультимодальные источники Тут объединили данные с радаров, спутников и грозопеленгаторов с предварительной калибровкой и выравниванием → система стала устойчивее к шуму и пропускам в отдельных каналах. Подводя итог: кейс будет интересен специалистам из ИБ, медицины, финтеха, RecSys и компьютерного зрения и всем, кто работает с редкими событиями, мультимодальными данными и дообучением моделей — есть что перенять по части инженерных решений. Покопать статью

3 675

Repost from Denis Sexy IT 🤖

(Сделайте потише динамики) Google выкатил MagentaRT модельку для генерации музыки в реальном времени – я поигрался и прям залип; запускается она сейчас не очень удобно, но будет очень классно когда кто-то обернет это в простой интерфейс Как в видео, модель может играть бесконечно, сама меняя рисунок композиции – ждем новый уровень музыки для лифтов / магазинов / кафе Модель | Google Colab для запуска | Анонс

3 675

Яндекс Практикум в поиске экспертов на курсы по обучению нейросетей В нашей образовательной системе много внимания уделяется технологиям. Но самое главное в учёбе — люди: их опыт, поддержка и причастность к сообществу. Почему это интересно для экспертов: ▪︎ возможность делиться опытом с заинтересованными людьми и реализовать свой потенциал; ▪︎ сильное комьюнити экспертов из разных сфер; ▪︎ дополнительная строчка в резюме и пополнение портфолио; ▪︎ удалёнка, парт-тайм и возможность получать дополнительный доход. Что мы ожидаем от вас: ▪︎ опыт от 3-х лет в роли NLP инженера; ▪︎ свободное владение Python для типовых задач по анализу и предобработки текстов; ▪︎ уверенное понимание основных задач в сфере Natural Language Processing и актуальных архитектур для их решения. Ознакомиться с задачами каждой роли и оставить отклик можно по ссылкам: → автор курса «NLP» → наставник на курс «Инженер по глубокому обучению нейросетей»

3 675

Repost from Machinelearning

🌟MiniMax-M1: открытя reasoning‑LLM с контекстом 1M MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention. • 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов • Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга • На обучение было потрачено $534K, две версии — 40K/80K “thinking budget” • Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу, • Топ результат на задачах для software engineering и reasoning Бенчмарки:

AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)

SWE-bench Verified: 56.0 vs 34.4 (Qwen3)

OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)

TAU-bench (airline): 62.0 vs 34.7 (Qwen3)

LongBench-v2: 61.5 vs 50.1 (Qwen3)

▪Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094 ▪GitHub: https://github.com/MiniMax-AI/MiniMax-M1 ▪Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf @ai_machinelearning_big_data #llm #reasoningmodels #minimaxm1

3 675

Repost from Life2film

Да мы все внутри матрицы. Я добрался и буду сейчас мучать Veo3. Сделал ресерч (в комментах). Вот с русским сходу очень хорошо работает. Промпт -

Nighttime on an empty neon-lit city street after a light rain. A young man in a dark trench coat stands under a flickering streetlight, looking around in confusion. The camera is a steady handheld medium shot, slowly zooming in on his face. He looks at his hands, then stares at the sky with wide eyes. He says in Russian: "Это всё нереально… мы просто чей-то промпт?" Audio: distant thunder rumble, soft rain patter, and a low ominous hum. Cinematic lighting with a greenish tint, subtle glitch effect around the edges of the frame as if the world is glitching.

Кстати в https://editor.superduperai.co/ добавил тоже Veo3 но цены себестоимость около 3.75$ за ролик 8 сек. Так-что, я сделаю на днях удобную страничку, и примеров промтов под тренды соберу, расскажу.

3 675

Repost from Machinelearning

✔️ Google представила Gemma 3n — лёгкую и быструю AI-модель для работы на девайсах Google выпустила Gemma 3n — это новая версия модели, которая запускается локально на мобильных устройствах. Gemma 3n может работа локально на устройстве с 2 ГБ оперативной памяти! ➡️ Особенности: • Работает в 1.5 раза быстрее, чем предыдущая Gemma 3 4B • Поддерживает работу без интернета — всё локально и безопасно • Умеет понимать текст, речь и изображения • Можно использовать даже на устройствах с 2–3 ГБ RAM • Поддерживает мгожетсво языков, 💡 Gemma 3n использует гибкую архитектуру (MatFormer), которая может "переключаться" между лёгким и полным режимом (2B и 4B параметров) — модель подстраивается под задачу, не перегружая устройство. 🔧 Как начать пользоваться: • Через Google AI Studio — работает прямо в браузере • Или через SDK Google AI Edge — интеграция на Android, Chromebook и другие устройства 📊 Где это применимо: • Голосовые ассистенты • Приложения с ИИ, которые работают без интернета • Переводчики, чат-боты, анализ изображений на телефоне ➡️Релиз: https://developers.googleblog.com/en/introducing-gemma-3n/ ➡️ Документация: https://ai.google.dev/gemma/docs/gemma-3n#parameters #Gemma #Google #mobile #МультимодальныйИИ #МобильныйИИ #edgedevices

3 675

Repost from Machinelearning

🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов Mistral AI представил Devstral — свою модель, специально разработанную для решения реальных задач в области кодинга. Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%. 💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование. https://huggingface.co/mistralai/Devstral-Small-2505 @ai_machinelearning_big_data #Devstral #MistralAI #Кодинг #ИИ #OpenSource

3 675

Repost from эйай ньюз

Что показали на Google I/O? Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте. Сначала самое жаркое: - Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня. - Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде. - Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро" - AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search. - Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня. - Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks". - Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App. - Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро". Для технарей: - Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google. - Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка. - Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode). - Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр. - API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно. - Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц. Mic drop...🎤 @ai_newz

3 675

Repost from Метаверсище и ИИще

Гугл Джулс А вот и ответочка от Гугла на Codex от OpenAI. Да, это агент-девелопер, который делает задачи, которые вы хотели бы кому-то поручить ↳connect to GitHub and open PRs ↳run or write tests ↳verify code in a cloud VM ↳share its plan, reasoning, and diffs Сайт: https://jules.google/ Доки: https://jules-documentation.web.app/ Вейтлист: https://jules.google.com/waitlist/ Похоже мы приближаемся к великим битвам агентов. И это прекрасно. Ибо битва будет за скорость, качество и цену. Update: похоже что 5 запросов в день и для всех, а не как у опенАИ-бояр: типа Pro, Team, а челядь потом. @cgevent