Love. Death. Transformers.

Open in Telegram

❤️☠️🤗 Указанные действия не являются ресерчем, поскольку: а) Мы не ученые; б) Оно работает. @transformerslovedeatch по всем вопросам Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.

Russia27 215 Technologies & Applications5 470...

📈 Analytical overview of Telegram channel Love. Death. Transformers.

Channel Love. Death. Transformers. (@lovedeathtransformers) in the Russian language segment is an active participant. Currently, the community unites 24 461 subscribers, ranking 5 470 in the Technologies & Applications category and 27 215 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 24 461 subscribers.

According to the latest data from 03 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 68 over the last 30 days and by 1 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 40.65%. Within the first 24 hours after publication, content typically collects 21.26% reactions from the total number of subscribers.
Post reach: On average, each post receives 9 944 views. Within the first day, a publication typically gains 5 200 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 119.
Thematic interests: Content is focused on key topics such as сиська, llm, параметр, округление, fp32.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“❤️☠️🤗 Указанные действия не являются ресерчем, поскольку: а) Мы не ученые; б) Оно работает. @transformerslovedeatch по всем вопросам Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.”

Thanks to the high frequency of updates (latest data received on 04 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

24 461

Subscribers

+124 hours

+127 days

+6830 days

9 944

Post views

~ 5 20024 hours

~ 5 98248 hours

40.65%

Engagement rate

~ 3

Posts per day

Ads index

beta

Posts Archive

24 462

Так ну чего, го до конфы встретимся если уже добрались?

24 462

Мир сошел с ума

24 462

день репостов нишевых каналов

24 462

Repost from Data Blog

StiTching Мне сегодня нужно было сшить кожу на пальце, и в процессе этого перформанса я вспомнила про model stitching. Чтобы скрасить время — врачебное и моё — начала рассказывать зачем это надо. Без понятия, зашло ли хирургу и медсестре, но зато я обнаружила для себя интересный тейк на поделиться с вами = ) Что:

Model stitching как идея появился в 2015 году. Его выдвинули как метод изучения эквивалентности двух сетей, но математическая эквивалентность здесь мимо не проходила — она, более того, не верна — авторы назвали два представления эквивалентными, если существует преобразование между ними, в математике мы требуем аксиом).

Тогда это осталось нишевым инструментом для картинок — юзали AlexNet-ы. Потом в 2021 NeurIPS идею дооформили, вышли две работы: Similarity and Matching of Neural Network Representations и Revisiting Model Stitching to Compare Neural Representations. Кстати, в первой работе шутили про Франкенштейна (или нет). Как это стало устроено: Смотрим на две обученные и замороженные сети A и B. «Сшитая» модель строится так: • берём нижние слои сети B (front model, представление r = B≤ℓ) • между ними ставим тонкий обучаемый stitching layer — единственный, кто обучается • подключаем к верхним слоям сети A (top model, A>ℓ) То есть делаем бутерброд из белого и темного хлеба, если хотите. А формально ищется простейший слой, задачей вида: L_ℓ(r; A) = inf_{s∈S} L(A>ℓ ∘ s ∘ r) Где s — stitching layer, A>ℓ — верхние слои A, r — представление из B. s∈S — тут специально, мы ищем слой из класса простых слоев, а инфимум (inf), как математический знак, говорит нам, что stitching layer обязан быть минимальным: для свёрточных сетей — 1×1 conv с BatchNorm, для трансформеров — token-wise linear. Как именно обучают stitching layer: — HLM (hard label matching) — минимизируем ошибку на настоящих метках задачи. — SLM (soft label matching) — минимизируем расстояние до предсказаний end-модели, а не до ground truth. — DM (direct matching) — напрямую минимизируем расстояние между активациями на уровне stitching. — FuLA (functional latent alignment, Athanasiadis et al., 2026) — stitching layer обучается имитировать не только выход end-модели, но и её внутренние процессы послойно (на пальцах плохо — надо читать). Метрика успеха — stitching penalty = разница между ошибкой сшитой модели и ошибкой базовой A. Penalty ≈ 0 означает совместимость. Penalty < 0 — сшитая модель стала лучше базовой, то есть мы буквально подсадили ей более сильные нижние слои. Зачем это нужно: Смотрим на фиолетовую/рыжую цитату — изначально — метрика сходства. Но потом пошло интереснее. Например, Stitchable Neural Networks (CVPR 2023) можно семейство предобученных моделей разного размера (например, Swin-Ti/S/B), сшить и получить модель, которая во время инференса может динамически переключаться между режимами accuracy/efficiency или T-Stitch: ускорение диффузионных моделей через замену первых шагов денойзинга на более лёгкую сеть и возврат к тяжёлой для финального качества. Это что, пахнет LoRA? Эту мысль я обдумывала при знакомстве со stitching. Вдруг она не возникла у вас — я опеределиа. Да: оба метода замораживают предобученные веса и вставляют тонкий линейный слой. Но нет: LoRA адаптирует одну модель к новой задаче, stitching измеряет совместимость двух уже обученных сетей на старой задаче. Финал не придумала, но stiting — одна из штук, висящих у меня на "идеи для рисерча". А ещё — просто вдумайтесь! Этот AI-мир можно сшить! Хирург, кстати, ничего не спросил, но швы наложил нормально. Аккуратнее будьте, друзья, и будьте здоровы! 😌

24 462

Repost from Гречневые мысли

Объявляется неделя прикольных ссылок Мои коллеги из команды претрейнов сделали дискретную диффузию на основе гигачата — причём основным исполнителем был стажёр. Веса в опенсорсе, поддержка в SGLang в PR, метрики лишь немного ниже обычного гигачата, а скорость генерации выше аж на 72%. Если вы умный, активный и хотите делать прикольные штуки на большом компьюте, приходите к нам) Репорт: https://habr.com/ru/companies/sberbank/articles/1054690/ Веса: https://huggingface.co/ai-sage/GFusion-10B-A1.8B

24 462

WQ0NPNQ2tuGSkduv.mp42.03 MB

24 462

репостегов бы https://x.com/justALEXWORTEGA/status/2072647053864276308?s=20

24 462

Repost from AbstractDL

Sonnet-5 По метрикам классный. По цене на 30% дешевле sonnet-4.6 (временно). Хоуп уже тестит в чате. Блог, техрепорт

24 462

Repost from Dan Okhlopkov - канал

Рассказал: • как и где я использую Hermes Agent • как засетапить себе бота как @fiztehbot • нюансы, безопасность, контекст Моя январская статья стала самой популярной на хабре про СС (192k просмотров), хотя ее жестко заминусовали лол Оставьте коммент под статьей - посмотрим, что на это скажут ИИ хейтеры 🔗 habr.com/ru/articles/1053846 🔗 habr.com/ru/articles/1053846 🔗 habr.com/ru/articles/1053846

24 462

Repost from Пресс-служба Сириона

Меня всегда удивляет, что можно найти на просторах интернета, например, математические доказательства ранее нерешенных проблем Аниме "Меланхолия Харухи Судзумии" в первом сезоне состоит из 14 серий, которые задумывались так, чтобы их можно было смотреть в любом порядке в 2011 на фочане кто-то задался вопросом: "какое минимальное количество серий нужно посмотреть, чтобы увидеть весь сезон во всех возможных порядках?" Оказалось, что это классическая задача комбинаторики про суперперестановки https://en.wikipedia.org/wiki/Superpermutation И какой-то анонимный юзер доказал, что нижняя граница равна n! + (n−1)! + (n−2)! + n − 3, при n >= 2 Это пылилось на просторах интернета, пока в 2013 году про тред не написал Натаниэль Джонстон у себя в блоге, но это доказательство осталось без внимания, пока в 2018 Робин Хьюстон не наткнулся на пост в блоге, и вместе с коллегами опубликовал статью с дополненным доказательством, где первым автором указал анонима с фочана Оригинальная статья, где первый автор это аноним с фочана https://oeis.org/A180632/a180632.pdf Ну и сама задача о кратчайшей суперперестановке называется проблемой Харухи: https://mathsci.fandom.com/wiki/The_Haruhi_Problem

24 462

Забавный в своей бесполезности тул - мониторинг взлома реварда, проверяет есть ли коллапс награды в одно значени https://github.com/AvAdiii/rewardspy

24 462

все что вы хотели видеть мои дорогие любители дистилить фронтир

24 462

Tldr: дистилл чтобы улучшать капибилити работает только на фулл ризонинге, на суммаризованном не работает. https://arxiv.org/abs/2606.05988v1

24 462

Челы мем запостили

24 462

https://openai.com/index/previewing-gpt-5-6-sol