AI для каждого | AISferaic
Open in Telegram
Откройте для себя возможности нейронных сетей. Узнайте, как вы можете использовать эти технологии для улучшения своей жизни и работы. От теории до практики. Каталог промптов и новости ИИ - https://aisferaic.ru/chat Чат с AI - https://aisferaic.ru/chat
Show moreThe country is not specifiedThe category is not specified
221
Subscribers
+124 hours
+57 days
+1730 days
Posts Archive
DeepSeek DSpark: прорывной метод ускорения нейросетей с открытым кодом
DeepSeek совместно с Пекинским университетом представили DSpark — технологию спекулятивного декодирования, которая радикально увеличивает скорость работы моделей (инференса) без потери качества.
Ключевые фишки:
• Колоссальное ускорение: Пропускная способность DeepSeek V4 Flash и V4 Pro вырастает на 51–400% в зависимости от задачи.
• Универсальность: Метод не ограничен экосистемой DeepSeek — он отлично работает с другими открытыми моделями, такими как Gemma и Qwen.
• Эффективность: DSpark позволяет запускать тяжелые модели быстрее даже на потребительском железе (например, RTX 6000), превосходя существующие методы оптимизации.
• Полная прозрачность: Разработчики опубликовали научную статью, открыли исходный код и выложили готовые веса.
Это важное обновление для тех, кто развертывает LLM локально или в продакшене и хочет выжать максимум из доступных мощностей.
Исходный код
Модель на Hugging Face
NVIDIA LocateAnything-3B: сверхточная визуальная локализация с открытым исходным кодом
NVIDIA выпустила модель на 3 млрд параметров, которая решает главную проблему классической детекции — поиск объектов в «плотных» сценах, где всё стоит вплотную друг к другу.
Ключевые фишки:
• Параллельное декодирование: В отличие от старых моделей, которые предсказывают координаты рамок по одной цифре, LocateAnything выдает готовую рамку сразу. Это делает детекцию в разы стабильнее и быстрее.
• Работа в «толпе»: Модель идеально справляется с выделением отдельных объектов, даже если их десятки и они перекрывают друг друга (например, толпа миньонов).
• Универсальность: Благодаря обучению на данных OCR и интерфейсов, она одинаково хорошо находит как реальные предметы, так и кнопки в приложении или текстовые блоки в документах.
Проект полностью открыт и отлично подходит для задач робототехники, анализа интерфейсов и автоматизации работы с документами.
Посмотреть проект
MinerU: мощный open-source инструмент для превращения любых документов в чистый Markdown
Если вам нужно быстро перегнать сложный PDF, таблицу или скан в формат, пригодный для работы или обучения нейросетей, — это одно из лучших решений на рынке. Больше никакой «каши» из текста.
Ключевые фишки:
• Сохранение структуры: корректно выстраивает порядок текста, преобразует таблицы в HTML, а сложные математические формулы — в LaTeX.
• Умный OCR: отлично распознаёт даже отсканированные изображения и поддерживает 109 языков.
• Универсальность: работает с PDF, Word и Excel, автоматически очищая контент от мусора.
• Полная приватность: проект запускается локально на вашем железе, данные никуда не уходят.
Инструмент можно использовать через CLI, Python или попробовать веб-версию. Проект уже набрал более 70 000 звёзд на GitHub, что подтверждает его качество.
Посмотреть проект
Попробовать в браузере
+2
GPT-5.6: OpenAI представила новое семейство моделей Sol, Terra и Luna
Компания меняет стратегию: вместо одного флагмана мы получили линейку специализированных нейросетей. Главный акцент сделан на автономность и решение сложных задач в терминале.
Ключевые фишки линейки:
• Sol — топовая модель: Заняла первое место в Terminal-Bench 2.1. Она заточена под планирование действий и кибербезопасность (поиск и эксплуатация уязвимостей).
• Режимы Max и Ultra: Новые уровни рассуждений. Режим ultra использует систему саб-агентов — это позволяет ИИ дробить одну большую задачу на цепочку мелких и выполнять их самостоятельно.
• Terra и Luna: Оптимизированные версии. Terra предлагает мощность уровня GPT-5.5 в два раза дешевле, а Luna создана для максимально быстрых и массовых запросов через API.
Доступность:
На данный момент доступ ограничен требованиями безопасности США. Модели открыты только для узкого круга партнеров через Codex и API, но широкий релиз ожидается в ближайшие недели.
TabbyAI мощная open-source альтернатива GitHub Copilot для локальной работы
Если вы искали способ запустить AI-помощника для кодинга на своём железе, Tabby — одно из лучших решений. Это полностью автономный ассистент, которому не нужно облако или внешние базы данных.
Ключевые фишки:
• Полная приватность: весь код остается на вашем сервере, никакой передачи данных вовне.
• Легкая интеграция: наличие OpenAPI позволяет быстро подключить его к Cloud IDE или любой другой существующей инфраструктуре.
• Оптимизация: отлично работает на GPU среднего сегмента, не требуя серверных мощностей.
Проект самодостаточен и готов к развертыванию «из коробки». Идеально подходит для команд с жесткими требованиями к безопасности.
Посмотреть проект
Spline designAI 3D-моделирование по текстовому описанию прямо в браузере
Создание 3D-графики перестает быть прерогативой профи. С помощью Spline designAI можно генерировать объекты, просто описывая их словами.
Как это работает:
1. Вводите текстовый промпт.
2. Получаете несколько готовых вариантов моделей.
3. Дорабатываете результат во встроенном редакторе.
Интерфейс максимально дружелюбный - база осваивается за несколько минут, даже если вы никогда не открывали Blender. Все изменения происходят в реальном времени, а результат доступен для экспорта и использования в проектах.
Попробовать инструмент можно на официальном сайте
Claude теперь полноценный сотрудник в Slack
Anthropic выкатила Claude Tag - интеграцию, которая превращает ИИ в активного участника команды. Теперь это не просто чат-бот, а агент, выполняющий задачи прямо в ветках обсуждений.
Что умеет Claude Tag:
• Самостоятельно делит задачу на подзадачи и выполняет их через доступные инструменты.
• Пишет код, мержит PR, анализирует данные и фиксит баги.
• Накапливает общий контекст канала: все участники работают с одной «памятью» модели.
• Проявляет инициативу: в режиме ambient behavior Claude сам напоминает о забытых задачах или сообщает новости из соседних каналов.
Пока фича в бете для тарифов Enterprise и Team. Тем временем разработчики CopilotKit уже представили Open Tag открытый аналог. Он работает с любой моделью, поддерживает генеративный UI и скоро появится в Telegram, WhatsApp и Discord.
Anthropic заявляет, что их команда уже пишет 65% кода через Claude Tag. Цифра звучит амбициозно, но тренд на «ИИ-коллег» в рабочих мессенджерах теперь официально задан.
Figma убивает сторонние сервисы: генеративные плагины и встроенная анимация
Figma представила масштабное обновление, которое меняет подход к расширению функционала и работе с динамикой.
Что нового:
• Генеративные плагины: Теперь можно собрать собственный инструмент прямо в чате. Просто описываете нужную функцию текстом, а агент сам кодит плагин и встраивает его в интерфейс.
• Шейдеры на лету: Через чат теперь можно генерировать сложные визуальные эффекты и шейдеры для любых элементов макета.
• Figma Motion: Полноценный инструмент для анимации внутри редактора. Работает в реальном времени и позволяет команде коллаборировать над движением так же легко, как над статикой.
Если экспорт и производительность Motion будут на высоте, потребность в отдельных сервисах вроде LottieLab для многих дизайнеров просто отпадет. Все нужные инструменты теперь собираются и работают внутри одного окна.
AI-агенты научились реверс-инжинирингу и пентестингу
На GitHub набирает популярность проект reverse-skill - это мощный пак навыков для AI-кодеров (Cursor, Claude Code, Cline), превращающий их в спецов по кибербезопасности.
Что внутри:
• Умная маршрутизация: AI сам определяет тип задачи (Web, Pwn, Crypto) и подбирает нужный инструмент.
• Автономный поиск: агент может самостоятельно исследовать уязвимости и анализировать код в песочнице.
• Самообучающаяся база: система запоминает успешные сценарии взлома/защиты и пополняет базу опыта.
• Интеграция: работает как плагин для популярных AI-редакторов.
Проект ориентирован на автоматизацию рутины в ИБ: от сканирования угроз до анализа античитов и работы с ядром Windows. Идеально для тех, кто хочет делегировать нейронке глубокий технический аудит.
https://mistral.ai/news/ocr-4/
ИИ теперь умеет в реверс-инжиниринг: проект reverse-skill на GitHub
На GitHub набирает обороты репозиторий, который превращает обычного ИИ-агента в специалиста по кибербезопасности. Ключевая фишка файл routing.md. Это детальный путеводитель, получив который, нейросеть сама понимает, какие инструменты и алгоритмы применять для конкретной задачи.
В базе уже более 20 сценариев:
• Реверс APK-файлов и прошивок
• Статический анализ в IDA
• Разбор JS-фронтенда
• Эксплуатация уязвимостей и обход EDR
По сути, это готовый набор инструкций, который автоматизирует рутину «безопасника» от поиска багов до анализа вредоносного ПО.
Исходники проекта
Clips — открытая замена Loom, созданная для общения с ИИ
Появился Clips — бесплатный инструмент для записи экрана с открытым исходным кодом. Главная фишка: видео здесь «понимают» не только люди, но и нейросети.
Почему это круче обычного Loom:
• Агент видит всё: ИИ получает доступ к API и метаданным записи. Он не просто читает транскрипт, а буквально понимает каждое действие на экране.
• Умные баг-репорты: скидываете ссылку агенту, и он сам анализирует ошибку или фидбек, чтобы предложить правки в коде.
• Полный контроль: софт принадлежит вам. Можно хостить у себя или использовать готовую версию — никаких внезапных платных подписок.
• Кастомизация: встроенный агент может переписать код самого Clips под ваши нужды прямо в процессе.
попробовать можно тут
Есть бесплатная хостовая версия. Можно форкнуть и хостить самому.
Скилл «make-interfaces-feel-better» стал хитом
Проект разработчика Jakub Krehel преодолел важную отметку. Это не просто библиотека, а концентрированный набор практик, которые делают интерфейс «живым» и приятным на ощупь.
Что внутри:
• Тонкие настройки UI-дизайна и визуальных деталей.
• Правильные анимации, которые не раздражают.
• Оптимизация производительности для плавного отклика.
• Десятки микро-решений, меняющих восприятие продукта.
Если ваш интерфейс кажется «дубовым», этот скилл подскажет, где именно подкрутить гайки, чтобы пользователи почувствовали разницу. Посмотреть советы можно на сайте автора.
Устанвока :
npx skills add jakubkrehel/make-interfaces-feel-betterQwythos-9B: новая reasoning-модель с контекстом в 1 млн токенов
Команда Empero выкатила Qwythos-9B-Claude-Mythos-5 компактную, но мощную модель на базе глубоко разцензуренной Qwen. Главная фишка огромное контекстное окно в 1 000 000 токенов.
Что внутри:
• База: Qwen-9B с полным fine-tune всех параметров.
• Данные: модель обучена на 500 млн токенов из датасетов Claude Mythos и Claude Fable.
• Reasoning: логика прокачана через синтетические цепочки рассуждений (CoT), созданные на основе сессий топовых моделей.
Разработчики сделали упор на «раскрепощенность» модели и её способность удерживать гигантские объемы информации.
Потестить и забрать веса можно на Hugging Face
Unlimited-OCR: новая модель для обработки гигантских документов
Разработчики из PaddlePaddle представили Unlimited-OCR модель, которая «переваривает» сотни страниц за один проход, не теряя в скорости.
Главная фишка - механизм R-SWA (Reference Sliding Window Attention). Он поддерживает стабильный размер KV-кэша при декодировании, что позволяет модели не «захлебываться» в контексте при чтении длинных PDF и многостраничных сканов.
Результаты впечатляют:
• В бенчмарке OmniDocBench модель набрала 93%.
• Это на 6% выше, чем у нашумевшего DeepSeek-OCR.
Unlimited-OCR справляется с версткой любой сложности и сохраняет точность там, где обычные OCR-системы начинают ошибаться из-за объема данных.
Веса модели уже доступны на Hugging Face
Экономим токены в браузере: вышло расширение Caveman
Для Chrome выпустили расширение Caveman, созданное специально для тех, кто хочет тратить меньше на запросы к нейросетям. Оно работает в связке с ChatGPT, Claude, Gemini и другими популярными чат-ботами.
Как это устроено: расширение на лету перерабатывает ваши промпты и ответы моделей. Оно вырезает «воду» и лишние словесные конструкции, сохраняя при этом суть сообщения.
Результаты впечатляют: по отзывам первых пользователей, расход выходных токенов сокращается до 75%. Ответы становятся максимально сжатыми, конкретными и содержательными, что особенно полезно при работе с большими объёмами данных.
PixelRAG: веб-скрейпинг переходит на «зрение»
Традиционный парсинг HTML уходит в прошлое. Вышел PixelRAG опенсорсный фреймворк, который анализирует страницы не через код, а через скриншоты.
Проблема старых методов в том, что при конвертации HTML в текст теряется до 40% данных: таблицы, графики и сложная верстка просто «плывут». PixelRAG видит страницу ровно так же, как человек в браузере.
Технические детали:
• Любой контент (сайты, PDF, фото) рендерится в набор тайлов.
• Эмбеддинги строятся с помощью Qwen-VL, обученной на скриншотах.
• Поиск идет через индекс FAISS. Главная фишка индекс хранит пиксели, поэтому при замене нейросети на более мощную переиндексация не нужна.
Разработчики уже визуализировали всю Википедию (30 млн скриншотов). Результат: в текстовых ответах такая «зрячая» система обходит лучшие текстовые RAG-решения на 18,1%.
Бонусом идет плагин для Claude Code теперь агент может изучать сайты по скриншотам, не копаясь в дебрях DOM-дерева. Проект полностью открыт под лицензией Apache-2.0.
Codex научился бесшовно переносить сессии между устройствами
Разработчики из OpenAI добавили в Codex возможность «мигрировать» рабочую сессию с локального хоста на удаленный сервер и обратно.
Как это работает: вы начинаете писать код на ноутбуке, а перед завершением работы отправляете сессию на сервер. Позже вы можете вернуться к задаче с любого устройства и продолжить ровно с того же момента.
Главные фишки:
• Передаются не только логи чата, но и состояние проекта: актуальный код и статус Git.
• Codex сам координирует процесс синхронизации данных.
• Идеально для фронтенда: локально правите UI и запускаете dev-сборки, а тяжелые вычисления или длительные задачи агента делегируете удаленной машине.
Контекст теперь не привязан к одному железу работайте там, где удобно, не теряя ни строчки кода.
Codex научился запоминать и повторять ваши действия: функция Record & Replay
В Codex завезли автоматизацию нового уровня. Теперь не нужно писать длинные промпты достаточно один раз показать агенту, как вы выполняете задачу, и он превратит это в готовый «скилл».
Как это работает на практике:
• Рутина с документами: один раз скачали счет с сайта дальше Codex делает это сам по расписанию.
• Отчетность: показали, как выгрузить данные из админки, переименовать файл и закинуть в папку процесс становится автоматическим.
Фишка в том, что Codex запоминает последовательность кликов и переходов. Вам больше не нужно объяснять «что» и «как», вы просто демонстрируете процесс.
Пока фича доступна для пользователей macOS (кроме Европы и Британии). Обновление позволяет превратить любое повторяющееся действие в полноценную автоматизацию без единой строчки кода.
Источник
Claude Code теперь умеет создавать интерактивные страницы сессий
Anthropic добавили Artifacts в Claude Code. Теперь ход вашей разработки можно превратить в живую веб-страницу: дашборд, визуализацию PR или интерактивный отчет о прогрессе.
Как это работает:
• Генерируете страницу прямо из контекста рабочей сессии.
• Публикуете её по приватной ссылке внутри вашей организации.
• Контент обновляется автоматически, пока вы продолжаете работу в терминале.
Это позволяет наглядно демонстрировать промежуточные результаты команде или стейкхолдерам, не перенося данные вручную. Пока фича доступна в бете для платных корпоративных тарифов (Team и Enterprise).
+3
Zhipu AI представила флагманскую GLM-5.2. И теперь она доступна на AiSferaic
Разработчики из Z.ai (бывшие Zhipu AI) выкатили новую модель GLM-5.2, специально заточенную под сложный кодинг и длительные агентские сессии. Главный козырь контекстное окно расширили до 1 миллиона токенов (в 5 раз больше, чем у 5.1).
Что внутри:
• Модель обучали по методу Asynchronous Agent RL - это гарантирует стабильность рассуждений даже в очень длинных цепочках задач.
• Тесты проходили в 10 000+ проверяемых сред на 9 языках программирования.
• На демках GLM-5.2 с нуля собирает расширения для Chrome и полностью переписывает старые legacy-проекты на современный стек (например, React на TypeScript).
Разработчики делают акцент на «честном» контексте: модель реально удерживает нить повествования на всей длине миллионного окна, а не просто делает вид. По первым отзывам, производительность вплотную приблизилась к лидерам вроде Claude 3.5 Sonnet / Opus.
Кстати, на AISferaic не нужно ждать очередей! Модель уже добавили в чат, так что потестить возможности GLM-5.2 и её огромный контекст можно прямо сейчас здесь: aisferaic.ru
Available now! Telegram Research 2025 — the year's key insights 
