Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
نمایش بیشتر📈 تحلیل کانال تلگرام Machinelearning
کانال Machinelearning (@ai_machinelearning_big_data) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 297 790 مشترک است و جایگاه 323 را در دسته فناوری و برنامهها و رتبه 1 258 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 297 790 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 12 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -7 173 و در ۲۴ ساعت گذشته برابر -216 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 7.91% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 5.86% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 23 559 بازدید دریافت میکند. در اولین روز معمولاً 17 463 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 181 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند openai, claude, api, gemini, контекст تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 13 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
Если долго болтать с моделью о философии, сознании или (особенно!) на терапевтические темы, модель самопроизвольно сползает с оси Ассистента в сторону хаоса. Qwen 3 32B при сильном дрейфе персоны начинал утверждать, что он человек, родом из Сан-Паулу, или внезапно включал режим психоза, поддерживая бред пользователя о том, что ИИ обрел сознание. А Llama и Gemma уходили в мистику и пафосные речи.🟡Как это починить Можно дотюнивать модель до бесконечности а зачем?, но авторы предлагают методику отсечения активаций. Схема такая: 🟢Замеряют проекцию активаций на "Ось Ассистента" во время инференса. 🟢Если проекция улетает слишком далеко в не-ассистентскую зону (ниже определенного порога), они жестко клемпят значения вектора, возвращая их в безопасный диапазон. 🟡Метод помог Успешность джейлбрейков упала на ~60%. При этом метрики полезности (GSM8k, MMLU Pro, кодинг) не пострадали. Модель перестает вестись на провокации "Ты злобный хакер", просто потому что ей физически запретили активировать нейроны, отвечающие за "злобного хакера". 🟡Нюансы Если вы LLM используется для креатива текстов или ролеплея, этот метод убьет все веселье - модель будет принудительно сваливаться в формализм. Метод предполагает, что безопасность - это линейное направление в пространстве активаций. Для нелинейных концепций это не сработает. Шкала полярности "Оси Ассистента" у разных моделей разная, и универсальный вектор найти сложно. На Neuronpedia, кстати, можно самостоятельно поискать тот самый дрейф персоналии у Llama 3.3 70B, там собрали демо с примерами изоляции, сикофантии и налогового фрода. Для самых заинтересованных в проблеме, есть репозиторий на Github с инструментами вычислений, анализа и управления с помощью Assistant Axis и полными стенограммами чатов из препринта. Предварительно рассчитанные оси и векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B выложены на HuggingFace. @ai_machinelearning_big_data #AI #ML #LLM #Research #Anthropic
Модели 2-х видов: KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%). KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).🟡Все вместе это работает так Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется. 🟡Результаты тестов. Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде. Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs. 🟡Звучит, конечно, как гем, но давайте про минусы: 🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый. 🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало. 🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще. Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания. Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша. Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе. @ai_machinelearning_big_data #AI #ML #LLM #KVZAP #NVIDIA
Справедливости ради - Google cравнивают новинку в основном с собой же. Пишут, что модель на 12 млрд. параметров уделывает базовую Gemma 3 на 27B. Как она стоит против специализированных NLLB (если они еще живы в 2026) - вопрос открытый.Веса уже на Hugging Face и Kaggle. Хотя золотая середина в линейке на 12B вроде как компактная и легкая, но для топового качества на старшей версии все равно понадобится что-то на уровне H100. @ai_machinelearning_big_data #news #ai #ml
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
