gonzo-обзоры ML статей
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Show more📈 Analytical overview of Telegram channel gonzo-обзоры ML статей
Channel gonzo-обзоры ML статей (@gonzo_ml) in the Russian language segment is an active participant. Currently, the community unites 24 267 subscribers, ranking 5 633 in the Technologies & Applications category and 27 625 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 24 267 subscribers.
According to the latest data from 09 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -15 over the last 30 days and by -18 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 10.12%. Within the first 24 hours after publication, content typically collects 6.73% reactions from the total number of subscribers.
- Post reach: On average, each post receives 2 456 views. Within the first day, a publication typically gains 1 632 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 9.
- Thematic interests: Content is focused on key topics such as learning, tl;dr, токенов, архитектура, контекст.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...”
Thanks to the high frequency of updates (latest data received on 10 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%.
ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.
Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами.
Выкидывать матрицы тут: https://t.me/gonzo_ML_podcasts/3948
Available now! Telegram Research 2025 — the year's key insights 
