Love. Death. Transformers.
❤️☠️🤗 Указанные действия не являются ресерчем, поскольку: а) Мы не ученые; б) Оно работает. @transformerslovedeatch по всем вопросам Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Show more📈 Analytical overview of Telegram channel Love. Death. Transformers.
Channel Love. Death. Transformers. (@lovedeathtransformers) in the Russian language segment is an active participant. Currently, the community unites 24 461 subscribers, ranking 5 470 in the Technologies & Applications category and 27 215 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 24 461 subscribers.
According to the latest data from 03 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 68 over the last 30 days and by 1 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 40.65%. Within the first 24 hours after publication, content typically collects 21.26% reactions from the total number of subscribers.
- Post reach: On average, each post receives 9 944 views. Within the first day, a publication typically gains 5 200 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 119.
- Thematic interests: Content is focused on key topics such as сиська, llm, параметр, округление, fp32.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“❤️☠️🤗
Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.”
Thanks to the high frequency of updates (latest data received on 04 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
Model stitching как идея появился в 2015 году. Его выдвинули как метод изучения эквивалентности двух сетей, но математическая эквивалентность здесь мимо не проходила — она, более того, не верна — авторы назвали два представления эквивалентными, если существует преобразование между ними, в математике мы требуем аксиом).Тогда это осталось нишевым инструментом для картинок — юзали AlexNet-ы. Потом в 2021 NeurIPS идею дооформили, вышли две работы: Similarity and Matching of Neural Network Representations и Revisiting Model Stitching to Compare Neural Representations. Кстати, в первой работе шутили про Франкенштейна (или нет). Как это стало устроено: Смотрим на две обученные и замороженные сети A и B. «Сшитая» модель строится так: • берём нижние слои сети B (front model, представление r = B≤ℓ) • между ними ставим тонкий обучаемый stitching layer — единственный, кто обучается • подключаем к верхним слоям сети A (top model, A>ℓ) То есть делаем бутерброд из белого и темного хлеба, если хотите. А формально ищется простейший слой, задачей вида: L_ℓ(r; A) = inf_{s∈S} L(A>ℓ ∘ s ∘ r) Где s — stitching layer, A>ℓ — верхние слои A, r — представление из B. s∈S — тут специально, мы ищем слой из класса простых слоев, а инфимум (inf), как математический знак, говорит нам, что stitching layer обязан быть минимальным: для свёрточных сетей — 1×1 conv с BatchNorm, для трансформеров — token-wise linear. Как именно обучают stitching layer: — HLM (hard label matching) — минимизируем ошибку на настоящих метках задачи. — SLM (soft label matching) — минимизируем расстояние до предсказаний end-модели, а не до ground truth. — DM (direct matching) — напрямую минимизируем расстояние между активациями на уровне stitching. — FuLA (functional latent alignment, Athanasiadis et al., 2026) — stitching layer обучается имитировать не только выход end-модели, но и её внутренние процессы послойно (на пальцах плохо — надо читать). Метрика успеха — stitching penalty = разница между ошибкой сшитой модели и ошибкой базовой A. Penalty ≈ 0 означает совместимость. Penalty < 0 — сшитая модель стала лучше базовой, то есть мы буквально подсадили ей более сильные нижние слои. Зачем это нужно: Смотрим на фиолетовую/рыжую цитату — изначально — метрика сходства. Но потом пошло интереснее. Например, Stitchable Neural Networks (CVPR 2023) можно семейство предобученных моделей разного размера (например, Swin-Ti/S/B), сшить и получить модель, которая во время инференса может динамически переключаться между режимами accuracy/efficiency или T-Stitch: ускорение диффузионных моделей через замену первых шагов денойзинга на более лёгкую сеть и возврат к тяжёлой для финального качества. Это что, пахнет LoRA? Эту мысль я обдумывала при знакомстве со stitching. Вдруг она не возникла у вас — я опеределиа. Да: оба метода замораживают предобученные веса и вставляют тонкий линейный слой. Но нет: LoRA адаптирует одну модель к новой задаче, stitching измеряет совместимость двух уже обученных сетей на старой задаче. Финал не придумала, но stiting — одна из штук, висящих у меня на "идеи для рисерча". А ещё — просто вдумайтесь! Этот AI-мир можно сшить! Хирург, кстати, ничего не спросил, но швы наложил нормально. Аккуратнее будьте, друзья, и будьте здоровы! 😌
Available now! Telegram Research 2025 — the year's key insights 
