es
Feedback
Data Portal | DS & ML

Data Portal | DS & ML

Ir al canal en Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

Mostrar más
8 472
Suscriptores
+424 horas
+647 días
+8030 días
Atraer Suscriptores
junio '26
junio '26
+208
en 5 canales
mayo '26
+92
en 2 canales
Get PRO
abril '26
+48
en 0 canales
Get PRO
marzo '26
+61
en 1 canales
Get PRO
febrero '26
+48
en 1 canales
Get PRO
enero '26
+52
en 2 canales
Get PRO
diciembre '25
+183
en 8 canales
Get PRO
noviembre '25
+715
en 318 canales
Get PRO
octubre '25
+29
en 0 canales
Get PRO
septiembre '25
+44
en 0 canales
Get PRO
agosto '25
+80
en 0 canales
Get PRO
julio '25
+1 123
en 264 canales
Get PRO
junio '25
+283
en 2 canales
Get PRO
mayo '25
+147
en 1 canales
Get PRO
abril '25
+662
en 2 canales
Get PRO
marzo '25
+591
en 0 canales
Get PRO
febrero '25
+507
en 0 canales
Get PRO
enero '25
+651
en 0 canales
Get PRO
diciembre '24
+1 342
en 404 canales
Get PRO
noviembre '24
+509
en 164 canales
Get PRO
octubre '24
+1 048
en 285 canales
Get PRO
septiembre '24
+887
en 281 canales
Get PRO
agosto '24
+1 933
en 234 canales
Fecha
Crecimiento de Suscriptores
Menciones
Canales
29 junio+1
28 junio+11
27 junio+15
26 junio+55
25 junio+7
24 junio+2
23 junio+3
22 junio0
21 junio0
20 junio+6
19 junio+1
18 junio+6
17 junio+4
16 junio+5
15 junio+2
14 junio+6
13 junio+5
12 junio+6
11 junio+2
10 junio+6
09 junio+5
08 junio+13
07 junio+5
06 junio+5
05 junio+5
04 junio+10
03 junio+4
02 junio+7
01 junio+11
Publicaciones del Canal
Промпт-инжиниринг и loop engineering — простое объяснение! По своей сути агент — это цикл while: - Модель выполняется - Она запрашивает вызовы инструментов - Результаты работы инструментов возвращаются в контекст - Модель запускается снова, пока не перестанет запрашивать инструменты Подход ReAct описал такую форму цикла ещё в 2022–2023 годах, и почти все современные агентные системы и фреймворки используют похожую реализацию. Поэтому сами циклы — далеко не новая идея. Описанная выше реализация была решена уже давно. Но оставался нерешённым цикл вокруг этого цикла. Именно о нём недавно говорили Борис и Питер. В наиболее распространённой схеме внешним циклом управляешь ты. - Пишешь промпт - Читаешь шаги, которые выполняет агент - Пишешь следующий промпт - Повторяешь процесс, отслеживая ошибки по мере работы Сейчас появляются попытки автоматизировать и внешний цикл, чтобы исключить человека из процесса. - Запуск происходит по расписанию или по событию - Агент выполняет множество шагов без новых промптов между ними - Сам решает, когда работа завершена - Возвращается к человеку только тогда, когда действительно требуется его участие Рассмотрим пример с упавшим тестом в CI. Сейчас ты копируешь сообщение об ошибке в агента, читаешь предложенное исправление, запускаешь тесты и снова передаёшь следующую ошибку, пока все тесты не пройдут. То есть каждый шаг проходит через тебя. При автоматизированном цикле агент выполняет те же самые шаги самостоятельно. Он запускается по расписанию, считывает ошибку, готовит исправление в отдельной ветке, запускает тесты и передаёт следующую ошибку самому себе как новый шаг, пока тесты не пройдут или не будет достигнут лимит шагов. Отдельный ревьюер проверяет исправление, открывает PR, если всё в порядке, или передаёт его человеку, если обнаруживает проблемы. Внутренний цикл всегда был автоматическим. Сейчас автоматизируют именно твоё участие в этом процессе. Но бесплатно это не даётся. > Пока ты управлял внешним циклом, ты мог остановить процесс, обладал памятью о проекте и выступал в роли ревьюера. Теперь все эти функции должны существовать внутри самой системы. > И хотя участие в цикле замедляло работу, зато ты понимал, что именно происходит. Главный недостаток исключения человека из цикла в том, что ответственность остаётся за тобой, а понимание происходящего, скорее всего, теряется. > Сам по себе цикл не умеет определять, когда действительно пора остановиться. Он просто поверит агенту, что задача выполнена, и может завершиться даже при падающих тестах. Поэтому условие остановки должно проверяться независимо, а также необходим лимит шагов или токенов, чтобы избежать бесконечных циклов. > Контекст увеличивается на каждом шаге, и по мере его роста качество работы модели снижается. Поэтому цикл должен сокращать контекст, сохраняя только сводки вместо полной истории, переносить большие результаты в файлы и разбивать крупные задачи на отдельные запуски. > Наконец, агент не должен сам проверять собственную работу, потому что он примет любое своё решение как правильное. Такую проверку должна выполнять отдельная модель или бинарный/детерминированный тест. Стоимость тоже быстро растёт, потому что на каждом шаге заново передаётся весь контекст. Поэтому длинный цикл может стоить во много раз дороже, чем выполнение одного промпта. Если хочешь разобраться глубже, мой сооснователь подготовил подробный разбор — от описанного выше цикла до полностью автономного запуска, который завершает работу самостоятельно, с примерами кода для каждого этапа. Читайте дальше 🐸 👉 @DataSciencegx

2
Вышло практическое руководство по созданию обвязок для AI-агентов Harness Engineering Guide — практическое руководство по созданию обвязок для AI-агентов с концепциями, туториалами, статьями, инструментами и работающими примерами кода. Оно помогает понять, что превращает голую языковую модель в агента, разбирая компоненты обвязки: выполнение инструментов, память, сборку контекста, границы безопасности, планирование и мультиагентную оркестрацию. Ключевые особенности: * Путь от основ — начинается с «Что такое Harness?» и 50-строчного Python-примера, который можно скопировать и запустить * Основные концепции рантайма — охватывает агентный цикл, системы инструментов, память, контекст и guardrails * Практические главы — включает песочницы, навыки, саб-агенты, обработку ошибок, планирование и проектирование долгоиграющих обвязок * Сравнение инструментов — сравнивает OpenClaw, Claude Code, Codex, Cline, Aider и Cursor бок о бок * Вклад сообщества — принимает материалы через GitHub issues или прямые PR Проект с открытым исходным кодом (лицензия MIT). 👉 @DataSciencegx
578
3
Loop Engineering — следующий шаг после prompt engineering. Большинство всё ещё использует Claude Code, Codex, Cursor или Grok
Loop Engineering — следующий шаг после prompt engineering. Большинство всё ещё использует Claude Code, Codex, Cursor или Grok как чат-окно: Промпт. Ждёшь. Копируешь. Исправляешь. Снова промпт. Этот репозиторий показывает следующий шаг: Вы перестаёте давать промпты агенту. Вы проектируете цикл, который сам даёт промпты агенту. Внутри: → Ежедневные циклы триажа → Циклы PR-няньки → Циклы CI-уборки → Циклы чистки зависимостей → Циклы составления changelog → Циклы пост-мерж очистки → Циклы триажа issues Также даёт CLI для: • Создания цикла (scaffold) • Оценки токенов • Аудита готовности репозитория • Добавления памяти/состояния • Добавления передачи человеку • Добавления верификационных шлюзов • Безопасного запуска агентов через GitHub Actions Самое интересное — сдвиг в мышлении. Prompt engineering был о том, как писать лучшие промты. Loop engineering — о создании системы, где агенты продолжают работать, проверять, исправлять и эскалировать без вашего присмотра на каждом шагу. Репозиторий: https://github.com/cobusgreyling/loop-engineering 👉 @DataSciencegx
624
4
Как не дать ИИ заливать мусор в GitHub. В репозитории git push no-mistakes предложили подход, где изменения прогоняются через
Как не дать ИИ заливать мусор в GitHub. В репозитории git push no-mistakes предложили подход, где изменения прогоняются через локальную проверку до попадания в PR. Идея простая. Перед пушем ветка проходит валидацию: ИИ проверяет код, дальше запускаются тесты, линтер, генерация документации и CI. Всё это работает локально через worktree, без блокировок и без остановки процесса разработки. Если всё зелёное — открывается чистый pull request. 🐸 👉 @DataSciencegx
684
5
Оказалось, Gemma 4 26B A4B MoE можно комфортно запускать на видеокарте с 8 ГБ VRAM — если правильно настроить llama.cpp. Посл+1
Оказалось, Gemma 4 26B A4B MoE можно комфортно запускать на видеокарте с 8 ГБ VRAM — если правильно настроить llama.cpp. После предыдущего поста автор получил десятки комментариев о том, что интерактивный запуск Gemma 4 26B A4B вместе с Hermes Agent на RTX 4060 8 ГБ якобы невозможен. За последние сутки он протестировал разные конфигурации llama.cpp TurboQuant и собрал рекомендации для видеокарт уровня RTX 4060 8GB, RTX 4060 Ti, RTX 3060 Ti и RX 7600. Главные выводы: 26B — не значит, что модели нужно 26B активных параметров. Gemma 4 использует архитектуру Mixture of Experts (MoE), поэтому во время генерации активны только 4 млрд параметров (A4B). Основную нагрузку создают KV-кэш и мультимодульный vision projector (--mmproj), а не сама модель. Флаг -cmoe нужен не всегда. Его стоит включать только тогда, когда модель перестает помещаться в видеопамять и система начинает использовать swap. В этом режиме неактивные эксперты переносятся в оперативную память, а GPU продолжает обрабатывать внимание, эмбеддинги и KV-кэш. По тестам автора, скорость выросла с менее чем 1 токена/с до 130 токенов/с на prefill и 20 токенов/с на decode. q8_0 или TurboQuant (turbo3)? Если видеопамяти достаточно, быстрее работает q8_0, поскольку он требует меньше вычислений при распаковке. Если VRAM становится узким местом, лучше использовать turbo3, который сильнее сжимает V-cache и позволяет удержать большие контекстные окна полностью на GPU. Рекомендации для 8 ГБ VRAM: Контекст 64K → GPU + q8_0 (до 25+ токенов/с). Контекст 250K (только текст) → GPU + turbo3 (~20 токенов/с). Контекст 250K + vision projector → -cmoe + q8_0 (~20 токенов/с). По словам автора, такой конфигурации уже хватает для локального запуска автономных Hermes-агентов, которые пишут торговых ботов, анализируют окружение и генерируют HTML-графики без обращения к облачным API. 👉 @DataSciencegx
742
6
Юрист в Манхэттене получает контракт на 500 страниц. Каждый пункт должен быть найден. Вручную — неделя. Бухгалтер в Чикаго по
Юрист в Манхэттене получает контракт на 500 страниц. Каждый пункт должен быть найден. Вручную — неделя. Бухгалтер в Чикаго получает 200 отсканированных счетов. Каждая цифра должна попасть в таблицу. Вручную — четыре дня. Исследователь из Стэнфорда получает 50 научных статей. Таблицы, формулы, графики заперты в PDF. Вручную — две недели. Каждый из них теряет дни жизни на copy-paste. Встречайте MinerU. Бесплатный open-source инструмент, который читает любые PDF, Word, PowerPoint, Excel и сканы. Вытаскивает текст в порядке чтения. Таблицы превращает в чистый HTML. Уравнения — в LaTeX. Рукописный текст — тоже. 109 языков. Даёшь 200-страничный PDF. Получаешь чистый Markdown через 90 секунд. Чем он отличается от остальных: - Многоколоночная вёрстка. Читает сверху вниз внутри каждой колонки, а не слева направо поперёк страницы. Как человек. - Сканы. Встроенный OCR. Наводишь на фотку бумажного документа из 1995 — получаешь чистый текст. - Формулы. Распознавание с качеством LaTeX. Каждое уравнение отображается правильно. - Таблицы. Объединённые ячейки, заголовки на несколько строк, таблицы на три страницы — всё сохраняется. - Документы на десять тысяч страниц. Скользящее окно. Без ручной разбивки. - Пакетный режим. Закидываешь папку с 500 документами. Уходишь. Три способа использовать: - CLI. Одна команда на документ. - Python SDK. Пять строк кода. - Веб-приложение на mineru.net. Загрузил, нажал, скачал. Без установки. Интегрируется с Claude Desktop, Cursor, Windsurf, LangChain, LlamaIndex, RAGFlow, Dify, FastGPT. Скармливаешь извлечённые документы своему AI-агенту. История Команда OpenDataLab из Shanghai AI Laboratory занималась извлечением текста из миллионов научных документов для тренировки языковой модели. Существующие инструменты не справлялись. Они сделали свой. Потом открыли исходники. 68 551 звезда. Лицензия MinerU Open Source License, построена на Apache 2.0. Бесплатно для личного и коммерческого использования. Три технических отчёта на arXiv. Adobe Acrobat Pro стоит $239.88 в год. И всё равно теряет твои таблицы. ABBYY FineReader Corporate стоит $165 в год. И всё равно не умеет формулы. Mistral OCR стоит $2 за 1000 страниц. Счёт никогда не кончается. MinerU стоит $0. Работает на твоём ноутбуке. Документы не покидают твою машину. А теперь самое дикое. Юрист получила контракт обратно через 4 минуты. Каждый пункт ищется. Бухгалтер скормил 200 счетов. Каждая цифра попала в таблицу за 12 минут. Исследователь загрузил 50 статей. Литературный обзор написал за воскресный вечер. Документ, который твоя компания годами обрабатывает вручную, MinerU переваривает за минуты. Твои документы становятся текстом. Текст данными. Данные ответами. https://github.com/opendatalab/mineru 👉 @DataSciencegx
760
7
Модель на 9B параметров уделала модели в несколько раз больше. Ребята из Ai2 и University of Washington, которые делали OLMo
Модель на 9B параметров уделала модели в несколько раз больше. Ребята из Ai2 и University of Washington, которые делали OLMo и Tülu, выпустили новую статью — Tmax. Называют её лучшим открытым рецептом RL-тренировки для терминальных агентов. Результат: 9B модель набрала 27% на Terminal-Bench 2.0. Обогнала кучу моделей с намного большим числом параметров. Рецепт при этом до смешного простой — чисто outcome-based награды, без process supervision. Самое интересное: победа не в размере модели и не в RL-алгоритме. А в том, как создавать тренировочные данные. Они сделали таксономию для пакетной генерации терминальных окружений. Контроль сложности, персоны, разнообразие верификаторов. Всё дёшево. Получился датасет терминальных агентов в 2.5 раза больше, чем всё, что выкладывали до этого. Отсюда вывод: способности терминальных агентов теперь кормятся окружением, а не набиваются параметрами. Кто может дёшево генерировать кучу верифицируемых задач, тот тренирует сильных агентов. Данные, модели и код выложили в открытый доступ. Open source догоняет frontier. И быстро сокращает дистанцию. https://arxiv.org/abs/2606.23321 👉 @DataSciencegx
756
8
Вышла Graph of Thoughts — библиотека, которая ломает линейное мышление LLM LLM-рассуждения больше не обязаны быть одной длинн
Вышла Graph of Thoughts — библиотека, которая ломает линейное мышление LLM LLM-рассуждения больше не обязаны быть одной длинной цепочкой. Graph of Thoughts (GoT) — это официальная Python-реализация одноимённой статьи. Она позволяет строить графы операций и прогонять их через LLM вместо скучного последовательного промптинга. Как работает: ты описываешь проблему как граф. Контроллер выполняет этот граф, используя LLM как движок. Можно моделировать не только GoT, но и Chain-of-Thought, Tree-of-Thought и любые гибриды. В коробке: - pip install graph_of_thoughts — и готово - Примеры: сортировка, подсчёт ключевых слов, пересечение множеств, слияние документов - Контроллер выводит полную трассировку: операции, мысли, оценки, валидность, потраченные токены и стоимость Исходники открыты под BSD-лицензией. https://github.com/spcl/graph-of-thoughts 👉 @DataSciencegx
1 373
9
Бэкенд-инженерия — скрытый мотор масштабируемого AI. Если ты ML-инженер, копай глубже: gRPC и Protobuf — низколатентная передача данных AsyncIO и event loop — неблокирующая конкуренция Connection pooling — эффективность работы с БД Kafka и CDC — потоковый приём данных в реальном времени Backpressure handling — выживание при всплесках инференса Redis pipelining — батчинг фичей Векторные индексы — HNSW / IVF в Qdrant Графовые обходы — Cypher в Memgraph Семантический кэш — экономия GPU Распределённые блокировки — защита от гонок Rate limiting — token bucket для LLM Идемпотентность — безопасные ретраи Шардирование БД — горизонтальное масштабирование состояния OpenTelemetry — трассировка запросов Архитектура важнее алгоритмов 👉 @DataSciencegx
852
10
Тензоры повсюду в AI. Изображения — это тензоры. Аудио хранится как тензоры. Эмбеддинги — тензоры. Весы моделей — тензоры. В
Тензоры повсюду в AI. Изображения — это тензоры. Аудио хранится как тензоры. Эмбеддинги — тензоры. Весы моделей — тензоры. В машинном обучении слово “тензор” обычно означает многомерный массив чисел. Скаляр имеет форму: () Вектор: (n,) Матрица: (m, n) Батч изображений: (batch, height, width, channels) Активности языковой модели: (batch, sequence length, hidden dimension) Это практическое определение, которое используют PyTorch, TensorFlow и JAX. Оно описывает, как устроены числа и как с ними работают. В математике и физике смысл другой. Тензор определяется тем, как он преобразуется. Выбираешь систему координат — и тензор можно записать как набор чисел. Меняешь координаты — числа меняются. Но они должны меняться по строгому правилу, чтобы объект оставался тем же самым. Вектор — самый простой пример. Он может описывать скорость. Повернул систему координат — компоненты изменились. Сама скорость не изменилась. Изменилась запись. Не объект. Тензоры обобщают это на более сложные случаи. Тензор напряжений описывает внутренние силы в зависимости от ориентации поверхности через точку. Тензор жёсткости (4-го порядка) связывает деформацию и напряжение. Тензор податливости делает обратное — напряжение в деформацию. Эти объекты должны оставаться корректными при любом выборе системы координат. Поэтому утверждение “тензор — это просто многомерный массив” полезно в программировании, но неполное в математике. Массив — это представление. Тензор — это объект. Ещё одно различие важно. Порядок тензора — это число индексов: → скаляр: порядок 0 → вектор: порядок 1 → тензор 2-го порядка: порядок 2 → пьезоэлектрический тензор: порядок 3 → тензор жёсткости: порядок 4 Порядок — это не матричный ранг. И тензорный ранг разложения — это вообще другое понятие. Одно слово. Разные смыслы. В AI нас обычно интересует: → форма → оси → broadcasting → матричные умножения → свёртки → расположение в памяти В математике и физике добавляется: → смена базиса → ковариантные и контравариантные индексы → законы преобразования → независимость от координат Обе интерпретации корректны. Они просто отвечают на разные вопросы. В вычислениях спрашивают: “Как расположены числа?” В математике: “Что именно эти числа описывают и как они должны меняться при смене координат?” Это самый чистый способ понять тензоры: → в софте это обычно многомерный массив → в математике это объект, не зависящий от системы координат 👉 @DataSciencegx
859
11
Multi-agent RL красиво именно в тот момент, когда оно начинает сходиться. 👉 @DataSciencegx
Multi-agent RL красиво именно в тот момент, когда оно начинает сходиться. 👉 @DataSciencegx
941
12
Локальное AI-железо = ёмкость памяти × пропускная способность × софт-стек. * Capacity — что вообще помещается в память * Band
Локальное AI-железо = ёмкость памяти × пропускная способность × софт-стек. * Capacity — что вообще помещается в память * Bandwidth — как быстро железо гоняет данные * Software stack — сколько из заявленных характеристик реально превращается в скорость Железо по пропускной способности памяти * Mac Studio M3 Ultra: до 512GB @ 819 GB/s * RTX PRO 6000 Blackwell: 96GB @ 1792 GB/s * RTX 5090: 32GB @ 1792 GB/s * RTX 4090: 24GB @ 1008 GB/s * RX 7900 XTX: 24GB @ 960 GB/s * Radeon PRO W7900: 48GB @ 864 GB/s * AMD Radeon AI PRO R9700: 32GB @ 640 GB/s * Intel Arc Pro B65: 32GB @ ~608 GB/s * Tenstorrent Wormhole n300: 24GB @ 576 GB/s * Tenstorrent Blackhole p150: 32GB @ 512 GB/s + 800G * MacBook Pro M5 Max: 460–614 GB/s * MacBook Pro M5 Pro: 307 GB/s * DGX Spark: 128GB @ 273 GB/s (coherent + CUDA) * Mac mini M4 Pro: 273 GB/s * Ryzen AI Max / Strix Halo: ~256 GB/s (~96GB GPU) * MacBook Air M5: 153 GB/s * Snapdragon X2 Elite: 152–228 GB/s * Intel Lunar Lake: 136 GB/s * Snapdragon X Elite: 135 GB/s * Mac mini M4: 120 GB/s * Arc Pro B60: 24GB @ ~456 GB/s Выводы: * GPU всё ещё держат максимум по пропускной способности * Apple выигрывает по объёму памяти в одном узле * Apple проигрывает там, где важнее токены/сек и параллелизм * DGX Spark — связка когерентной памяти и NVIDIA-стека * Strix Halo / Ryzen AI Max — первый заметный x86 с unified memory * Tenstorrent — полностью open-source стек, интересно куда дойдёт Важный момент.Если модель “влезает” — это ещё ничего не значит. Дальше начинают решать: * пропускная способность на декоде * рост KV-cache * квантизация и её цена * батчинг и конкуренция запросов * качество планировщика * накладные расходы фреймворков Простая модель выбора 1. Что должно поместиться в память 2. Какой нужен уровень bandwidth 3. Какой стек реально даст нужную скорость Итоговый вопрос всегда один: что именно ты покупаешь — ёмкость или скорость. https://x.com/TheAhmadOsman/status/2041331757329285589 👉 @DataSciencegx
937
13
Для тех, кто тонет в потоке информации, есть Horizon — open-source система, похожая на радар, который тихо сканирует зарубежн
Для тех, кто тонет в потоке информации, есть Horizon — open-source система, похожая на радар, который тихо сканирует зарубежный техмир и приносит только то, что стоит внимания. Он собирает новости и обсуждения из Hacker News, Twitter, Reddit и GitHub. Затем пропускает всё через AI: убирает шум, сводит дубли и оставляет выжимку в виде ежедневного отчёта. Внутри всё устроено просто AI оценивает каждую находку и отсеивает слабое ещё до того, как она попадёт в ленту. Reddit и Hacker News разбираются отдельно, чтобы не смешивать поток и живые обсуждения. Новые компании и инструменты получают краткий контекст — чтобы не выглядеть пустым названием в списке. Один инфоповод фиксируется один раз, без повторов из разных источников. Сводки идут на двух языках и могут уходить в Feishu, почту или WeChat. Это система не про новости. Скорее про тишину среди новостей. https://github.com/Thysrael/Horizon 👉 @DataSciencegx
1 004
14
RAG даёт LLM доступ к вашим данным. Agentic RAG добавляет способность принимать решения о том, что с этими данными делать. Ра
RAG даёт LLM доступ к вашим данным. Agentic RAG добавляет способность принимать решения о том, что с этими данными делать. Разница особенно заметна в ситуациях с неопределённостью. Классический RAG работает по фиксированному пайплайну: → Кодирует запрос → Ищет похожие данные в векторной базе → Извлекает релевантные документы → Генерирует ответ Такой подход хорошо работает, когда запрос сформулирован корректно, а нужный контекст уже находится в доступных источниках. Agentic RAG добавляет слой рассуждений практически на каждом этапе: → Переформулирует запрос перед поиском → Оценивает, достаточно ли найденных данных → Выбирает источник информации (векторная БД, API, веб-поиск и т.д.) → Проверяет качество и релевантность ответа перед выдачей Если на любом этапе результат оказывается неудовлетворительным, система может вернуться назад и повторить поиск или изменить стратегию. Именно этот цикл обратной связи делает Agentic RAG качественно другим подходом, а не просто улучшенной версией обычного RAG. Стандартный RAG не понимает, что сейчас может выдать плохой ответ. Agentic RAG хотя бы способен задать себе этот вопрос. #agenticai #rag #agenticrag #aiengineering 👉 @DataSciencegx
1 075
15
Если работаешь с Codex 5.5 и заметил, что качество ответов ушло в регрессию.. то лови несколько приёмов, которые помогают пол
Если работаешь с Codex 5.5 и заметил, что качество ответов ушло в регрессию.. то лови несколько приёмов, которые помогают получать хорошие результаты почти в любом случае. • Используй /goals для явной постановки целей и этапов работы. • Подключай скилл Krypton. Многие разработчики называют его одним из самых полезных дополнений для Codex. • Для планирования ставь уровень рассуждений XHigh, а для реализации — High. Обычно это даёт лучший баланс между качеством и скоростью. • Активнее используй Computer Use и Browser Use. Эти инструменты позволяют Codex работать с интерфейсами, сайтами и реальными рабочими процессами значительно эффективнее. Дополнительно: • Попробуй ChatGPT Pro 5.6, который сейчас проходит скрытое тестирование у части пользователей. • Подключи GitHub-репозиторий через веб-интерфейс. • Используй Pro-модель для ревью кода, тестирования, проектирования и планирования задач. Это самая мощная модель в мире. Используйте её на полную. 👉 @DataSciencegx
1 076
16
Netflix открыл исходный код внутреннего инструмента под названием Headroom. Если коротко: перед тем как отправить данные в LL
Netflix открыл исходный код внутреннего инструмента под названием Headroom. Если коротко: перед тем как отправить данные в LLM, он сжимает их и позволяет сократить расход токенов на 60–95%. Самое интересное — сжатие не приводит к потере точности. Headroom использует обратимое (reversible) сжатие, поэтому данные можно восстановить в исходном виде бит в бит. Никакой потери информации, ни одного пропавшего символа. Каждый, кто пишет код, наверняка сталкивался с этим: длинные логи, большие фрагменты текста из RAG, несколько файлов в контексте одновременно. Всё это быстро съедает контекстное окно и увеличивает расход токенов при каждом запросе к модели. Headroom создан именно для таких сценариев. Он уменьшает объём данных перед отправкой в модель, сохраняя возможность полностью восстановить исходное содержимое без каких-либо потерь. Ещё несколько практичных моментов: * В Headroom есть шесть алгоритмов сжатия, каждый рассчитан на свой тип данных. Для кода, логов и обычного текста используются разные методы. * Поддерживаются популярные AI-инструменты для разработки: Claude Code, Codex, Cursor, Aider и Copilot CLI. * Всё работает локально. Данные не покидают устройство. Проект распространяется по лицензии Apache 2.0 и подходит для коммерческого использования. Интеграция тоже довольно простая. На выбор доступны три варианта: * библиотека (library); * агент (agent); * MCP-сервер. Особенно полезным Headroom выглядит для долгоживущих агентных сессий и крупных кодовых баз, где в контекст постоянно попадают большие объёмы данных. В таких сценариях экономия токенов может оказаться весьма заметной и существенно снизить расходы на использование моделей. https://github.com/chopratejas/headroom 👉 @DataSciencegx
1 031
17
Может ли VLM видеть без vision encoder? Мы обучили такую модель всего за $100, вдохновившись Gemma 4 12B. Задержка на M3 Pro
Может ли VLM видеть без vision encoder? Мы обучили такую модель всего за $100, вдохновившись Gemma 4 12B. Задержка на M3 Pro MacBook: 112 мс → 1,1 мс для обработки изображения на 30% ниже сквозная задержка для пайплайна изображение + LLM Архитектура предельно простая: patchify изображения → линейная проекция с позиционными эмбеддингами → LLM Подробности: https://huggingface.co/spaces/HuggingFaceM4/encoder-free-vlm 👉 @DataSciencegx
1 036
18
🔥VPS + ISPmanager со скидкой до 100% на Waicore Запускаете сайты на VPS? Сейчас самое время попробовать ISPmanager практически бесплатно. ➕ Наши акции: — 100% скидка на первый месяц лицензии ISPmanager при заказе VPS из категории «Веб-хостинг» — Скидка 60% на лицензии ISPmanager при отдельной покупке Также доступны: 🛡 SSL-сертификаты 🛡 BitNinja для защиты серверов от атак, спама и вредоносного ПО. Получаете готовый VPS с установленной панелью управления и можете сразу приступать к работе с сайтами, почтой, базами данных и другими сервисами. ⚡️Акция действует месяц. Подробнее на сайте WAICORE.
732
19
От Jupyter Notebook → к production AI-системе. Изучение API — это мост между ними. Очень рекомендую этот бесплатный плейлист
От Jupyter Notebook → к production AI-системе. Изучение API — это мост между ними. Очень рекомендую этот бесплатный плейлист по backend-разработке для ML-инженеров. https://www.youtube.com/playlist?list=PL_c9BZzLwBRIHUNeoywVJXViXGEsk6PDr 👉 @DataSciencegx
1 085
20
HarnessX: обвязка (harness), которая компилирует сама себя. До сих пор все улучшения harness-систем делались вручную — разраб
HarnessX: обвязка (harness), которая компилирует сама себя. До сих пор все улучшения harness-систем делались вручную — разработчик сам вносил изменения в код. Anthropic убирает этапы планирования из Claude Code, когда выходит более мощная модель. Manus за шесть месяцев пять раз перестраивал своего агента, каждый раз сокращая сложность. Вся эта работа держится на человеческом понимании того, что именно нужно менять и когда. HarnessX показывает, что происходит, когда система начинает вносить такие изменения самостоятельно. Ключевая идея — рассматривать harness как объект первого класса, так же как сегодня рассматриваются веса модели. Когда harness становится типизированным и редактируемым артефактом, его можно оптимизировать на основе собственных трассировок выполнения. Авторы используют концепцию «операционного зеркала». Эволюция harness естественным образом отображается на обучение с подкреплением. Harness выступает состоянием. Изменение — действием. Трассировка вместе с оценкой — обратной связью. Новая версия — обновлением. Если посмотреть на это под таким углом, сразу появляются знакомые режимы отказа: reward hacking, catastrophic forgetting, недостаточное исследование пространства решений. Те же проблемы, которые ломают обучение моделей, возникают и тогда, когда система начинает редактировать собственную инфраструктуру. Поэтому изменения никогда не применяются вслепую. На каждом цикле система анализирует трассировки, планирует изменение, вносит правку, а затем проводит её критический разбор. Новая версия принимается только в том случае, если проходит проверку и показывает лучшие результаты на задачах, которых раньше не видела. Безопасность обеспечивается архитектурой. Harness собирается из типизированных компонентов, которые можно заменять независимо, не ломая остальную систему. Именно это здесь означает слово «компилирует». Каждый кандидат на новую версию harness проходит проверку типов перед запуском. Самый интересный результат: слабейшая модель получила наибольший прирост качества. Самая сильная изменилась минимально. Эволюционирующий harness закрывает те пробелы, которые слабая модель не способна компенсировать самостоятельно. Веса модели остаются прежними. Умнее становится среда, в которой она работает. Это следующий логичный этап развития agent harness engineering. Сначала мы оптимизировали веса моделей, затем контекст, затем вручную собранные harness-системы. Harness оставался последним элементом, который всё ещё настраивался вручную. Статья: HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry 👉 @DataSciencegx
975