Data, Stories and Languages

Open in Telegram

Канал о ML/AI, изучении иностранных языков, книгах и жизни. Контакт с автором https://t.me/Erlemar Персональный сайт: https://andlukyane.com/ Рекламу не публикую Забустить канал можно тут: https://t.me/boost/datastorieslanguages

Russia149 945 Linguistics1 821

3 383

Subscribers

+5624 hours

+767 days

+14830 days

1 210

Post views

~ 64424 hours

~ 58048 hours

35.83%

Engagement rate

No data

Posts per day

Ads index

beta

Data loading in progress...

Similar Channels

Свидетели сингулярности

1.8K

Новости сообщества LessWrong

886

AGIRussia.news (ОИИРоссия.новости)

More channels

Incoming and Outgoing Mentions

---

Attracting Subscribers

July '26

+105

in 1 channels

June '26

+109

in 1 channels

Get PRO

May '26

+71

in 2 channels

Get PRO

April '26

+68

in 1 channels

Get PRO

March '26

+51

in 2 channels

Get PRO

February '26

+215

in 5 channels

Get PRO

January '26

+37

in 1 channels

Get PRO

December '25

+36

in 3 channels

Get PRO

November '25

+205

in 5 channels

Get PRO

October '25

+50

in 3 channels

Get PRO

September '25

+95

in 11 channels

Get PRO

August '25

+149

in 7 channels

Get PRO

July '25

+149

in 2 channels

Get PRO

June '25

+113

in 3 channels

Get PRO

May '25

+77

in 4 channels

Get PRO

April '25

+86

in 5 channels

Get PRO

March '25

+162

in 3 channels

Get PRO

February '25

+68

in 1 channels

Get PRO

January '25

+104

in 0 channels

Get PRO

December '24

+346

in 2 channels

Get PRO

November '24

+55

in 1 channels

Get PRO

October '24

+58

in 1 channels

Get PRO

September '24

+44

in 2 channels

Get PRO

August '24

+201

in 6 channels

Get PRO

July '24

+811

in 1 channels

Get PRO

June '24

+72

in 9 channels

Get PRO

May '24

+214

in 5 channels

Get PRO

April '24

+89

in 4 channels

Get PRO

March '24

+41

in 1 channels

Get PRO

February '24

+86

in 2 channels

Get PRO

January '24

+58

in 0 channels

Get PRO

December '23

+379

in 0 channels

Date	Subscriber Growth	Mentions	Channels
11 July	+6
10 July	+56
09 July	+10
08 July	+13
07 July	+4
06 July	+1
05 July	+2
04 July	+1
03 July	+3
02 July	+1
01 July	+8

Channel Posts

Рекомендую канал Хочу порекомендовать вам Data Blog (@jdata_blog) — отличный канал, где качественно и на понятном языке разбирают интерпретируемость и безопасность LLM: mechanistic interpretability, SAE, activation steering, персоны и джейлбрейки. У ведущей канала много опыта в этой теме, поэтому разборы статей получаются интересными, практическими, с объяснениями ограничений и часто с ноутбуками, которые можно самостоятельно потыкать. Посты, которые мне зашли: — Свой SAE против джейлбрейков (статья с ACL 2026 Findings): если прогонять активации через разреженный фильтр на инференсе, атакующему заметно сложнее подобрать вредоносный суффикс. — Activation Oracles от Anthropic — как читать скрытые состояния модели естественным языком, вплоть до вытаскивания секретного слова, которое модель не произнесла. С колабом для воспроизведения. — Подборка фреймворков для интервенций (pyvene, repeng, pyreft, EasyEdit, EasySteer, nnsight) — на случай когда понадобится использовать steering или knowledge editing. — Как читать и ревьюить статьи, поданные на конференции. - StiTching: как «сшить» две обученные сети (и чем это отличается от LoRA) Если интерпретируемость вам близка — загляните: @jdata_blog

2	Kaggle в Google Antigravity: агент, который помогает стартовать и уверенно ошибается В рамках активности Google Developer Expert, я попробовал поучаствовать в соревновании Kaggle Playground (S6E7, табличная многоклассовая классификация) почти полностью силами агента — в Google Antigravity 2.0 на Gemini 3.1 Pro. Для начала я попросил Claude собрать "starter kit" на оснвое моего прошлого опыта: гайдлайны, промпты, базовый код с общими правилами для мультиагентного пайплайна. Дальше запустил промпт — и Gemini сделал EDA, фичи, обучил модели параллельно в фоновых задачах и собрал бленд. Правда пришлось очень много кликать, чтобы давать разрешения на все команды (даже на те, которые я уже разрешил в прошлом). В остальном — это реально рабочая модель исполнения, с параллельным обучением и таймерами пробуждения вместо присмотра за процессом. Самое интересное — где агент ошибался. После первого сабмита вылез большой gap между CV и лидербордом, и агент уверенно предложил решение: скачать левый датасет с псевдо-лейблами и "шумными id", заявив, что это "единственный способ" пробить стенку. Пришлось остановить его, впрочем дальше он полез скачивать ещё один бесполезный датасет :) А реальные причины гэпа оказались простыми: неправильная метрика (plan accuracy вместо balanced) и случайно оставшийся файл, который ломал фолды. И вишенка на торте: когда Gemini писал разбор постфактум, он выдумал баг и стал меня газлайтить, что он был в коде с самого начала. Вывод такой же, как всегда на Kaggle: агенты сильно удешевляют старт, но правильная кросс-валидация, метрика и проверка самого агента всё ещё на человеке. Блог Medium #ai #kaggle	792
3	Бенчмарк GPT-5.6 Sol/Terra/Luna - двигают фронтир Это тест новых моделей OpenAI на нашем новом агентском бенчмарке. Под капотом бенчмарка - паттерны из топовых харнесов с BitGN соревнований, которые мы разобрали и заново прогнали через ECOM1 под трейсом с лупой, анализируя точки возникновения ошибок. А самые уязвимые места самых сильных архитектур (когда они путаются, пропускают нарушения границ, забывают про политики итп) собрали в бенчмарк. И получается, что лайтовые модели GPT-5.6 (есть еще pro версии, которые протестирую попозже) настолько хороши, что они двигают Парето-фронтир как по комбинации качество-скорость, так и по комбинации качество-цена. Смотрите сами на графики справа. Это делает их дефолтным выбором в новых проектах. Отчет на сайте выложим попозже, а пока картинка с хорошим качеством - в комментариях. Ваш, @llm_under_hood 🤗	580
4	Build with Muse Spark, now available on Meta Model API https://developer.meta.com/ai/resources/blog/build-with-muse-spark/#3-pricing-and-free-credits Muse Spark 1.1 - публично доступна. "pay-as-you-go pricing starts at $1.25 input/$4.25 output per million tokens" - демпинг! Верим метрикам? :) #ai	707
5	Новое голосовое общение с GPT https://openai.com/index/introducing-gpt-live/ Голосовой режим в GPT обновили! Мне он всегда нравился, а теперь уверяют, что вышло новое поколение	737
6	Cayley graph search с Claude Code: решение головоломок в 2026 с помощью агентов Я написал большой пост про два Kaggle-соревнования из серии CayleyPy — IHES Picture Cube и Megaminx. Это комбинаторные головоломки (кубик и додекаэдр), но по сути - поиск коротких путей в огромных неявных графах Cayley: вершины графа — это состояния головоломки, рёбра — это ходы, а решить пазл значит найти короткий путь до собранного состояния. Мы занимаемся этим уже пару лет и опубликовали несколько статей, а в 2026 году я решил попробовать новый подход: вместо того, чтобы писать код самому, я использовал Claude Code + Opus как агента, который пишет код. Сам я задавал направление исследований, ревьюил код и решал какие эксперименты стоит гонять. Поэтому пост получился про две вещи сразу: про то как мы решаем графы Cayley (learned heuristic + wide beam search + пост-обработка) и про то, как выглядит research-цикл, когда имплементацию делает агент. Из интересного - не раз упирался в ограничения агентов. Claude так и не смог правильно реализовать shared-beam SPMD после 10 попыток, а Codex завёл его с первой попытки. И почти все значимые идеи приходили от меня, а не от агента — клод плохо справляется с неопределённостью и часто выбирает безопасные пути (даже когда просишь его быть активнее). По ощущениям, агенты позволяют проверять идеи намного быстрее, чем раньше. Но это работает только если внимательно следить за агентом и не давать ему лениться. Блог Medium #ai #kaggle	2 265
7	the diary of Tom Riddle, for the reMarkable Paper Pro Помните это эпичное видео? Автор выложил код: https://github.com/MaximeRivest/Riddle	764
8	Book ReviewGPU-Accelerated Computing with Python 3 and CUDA Я получил очередную книжку от Packt на прочтение и ревью. Книга учит писать код под GPU на Python: сначала CUDA-ядра на Numba-CUDA, потом высокоуровневые библиотеки (CuPy вместо NumPy/SciPy, RAPIDS cuDF/cuML вместо pandas/scikit-learn, JAX), и в конце четыре мини-проекта. Книга мне понравилась (но код запускать я не пробовал). Авторы замеряют все оптимизации и демонстрируют случаи, когда ускорение не получилось. Из интересного: на примере computer-vision демонстрировали три способа классификации зашумлённых объектов: 7 Hu moments дают 66.7% за миллисекунды, template matching — 80%, но больше минуты на прогон, а CNN выдаёт 88% на чистом Fashion-MNIST и проседает до 60% на зашумлённых объектах. Из минусов — финальная глава строит LLM на IMDb (странный выбор датасета для генерации, и вывод модели не особо внятный). Хорошая книга для тех, кто пишет на Python и хочет понимать работу с GPU на более низком уровне, чем PyTorch/Jax. Amazon Packt Code Мои обзоры: Personal blog Medium Linkedin #books	829
9	О дистилляции Anthropic: some people (looks at China) distill our models, so we have implemented the guardrails. Some people: https://huggingface.co/AliesTaha/fable-traces	1 060
10	Интересное изменение графиков в статье Sonnet 5 https://www.anthropic.com/news/claude-sonnet-5 Внимательный читатель может заметить, что графики в статье очень сильно изменились. Официальное оправдание "сорри, не тот график опубликовали". Неужели вайб-кодили и сделали ошибку?! Видимо забыли добавить "make no mistakes"! #ai	1 151
11	No text...	1 054
12	Qwen 3.6 27B is the sweet spot for local development или нет? https://quesma.com/blog/qwen-36-is-awesome/ https://news.ycombinator.com/item?id=48721903 Увидел я тут очередной пост про то, как же хорошо гонять локальные модели. Автор запустил модель локально с помощью llama.cpp с квантизацией в 8-bit на Macbook Max M5 120 Gb. И вот я ну никак не могу с этим всем согласиться. Первое, и самое главное, это качество. Qwen неплох, но он намного хуже frontier-level моделей, особенно при квантизации. Я недавно рассказывал как пробовал minimax - ему было очень далеко до клода/кодекса. Кроме того, современная разработка с помощью AI - это про агентов, agentic workflows. Из условно-открытых моделей вроде такое только GLM может. И есть ещё вопрос стоимости. Macbook Max M5 120 Gb стоит несколько тысяч долларов. Это годы подписки на клод/кодекс. Да, можно сказать, что такую мощную машинку можно много для чего использовать. Но так ли это надо? Сомневаюсь. И даже при такой переплате качество будет заметно хуже топовых моделей #ai	1 247
13	No text...	1 327
14	LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding Современные VLM для детекции и grounding кодируют bounding box как текст: каждый бокс — это короткая строка координатных токенов, которые декодируются по одному слева направо. Из-за этого возникают две проблемы: генерация строго последовательна, поэтому latency растёт с числом боксов; и четыре координаты одного геометрического объекта предсказываются так, будто они независимы, хотя описывают один прямоугольник. Обычное подход к решению первой проблемы — multi-token prediction (MTP): выдавать несколько токенов за шаг, но trade-off - качество. LocateAnything предлагает Parallel Box Decoding (PBD): представить выход как последовательность box-aligned блоков фиксированной длины, а не плоский поток координатных токенов. Целый блок (бокс плюс структурные токены) декодируется за один шаг, а внутри блока координаты видят друг друга через bidirectional attention. Важный нюанс: схема semi-autoregressive, а не полностью параллельная — токены внутри блока предсказываются вместе, но блоки всё ещё идут один за другим. Обучают сразу на двух представлениях одного target: обычном NTP-потоке (сохраняет causal reasoning) и block-level MTP-потоке. На инференсе три режима (Slow / Fast / Hybrid); Hybrid концептуально похож на speculative decoding: быстрый приблизительный путь с fallback на NTP только для проблемных блоков. Результаты: — throughput 12.7 боксов/сек в Hybrid Mode против 5.0 у Rex-Omni и 1.1 у Qwen3-VL — это ≈2.5x к ближайшему VLM-сопернику и ~10x к обычным autoregressive VLM — на LVIS заметный скачок именно на строгом пороге: F1@IoU=0.95 ≈ 31.1 против ~20 у конкурентов — большой data engine LocateAnything-Data: 12M картинок, 138M запросов, 785M боксов на шести типах задач (детекция, GUI, OCR, layout, referring, точки) Paper Project Demo Мои обзоры: Personal blog Medium А ещё у меня есть разбор DETR, с которого и началась идея "предсказывать все боксы сразу". #paperreview	1 397
15	>_<former.. Теперь я жду ^_^former и =_=former	1 111
16	Kaggle Nemotron Competition Writeup for the 1st place: codex написал весь код, но думать он не смог https://www.kaggle.com/competitions/nvidia-nemotron-model-reasoning-challenge/writeups/1st-place-solution Закончилось очередное соревнование на каггле. Участник победившей команды поделился опытом: "All code was written with Codex. We did not write a single line of code directly. However, the ideas, analysis direction, and trace design decisions that improved the score almost never came from Codex." Но есть нюанс: "I don't know for sure, but other than Gemini 3.1 Pro Extended, almost all other AIs were giving conflicting ideas, and most of those ideas were just bad. Specially Claude, like it was deliberately trying to emphasize on an already wrong proven hypothesis. One thing this competition taught me is, AI is still far way from working without intervention." Всё, решено - далеко нам до AGI. #ai #kaggle	3 680
17	Why is Meta destroying its engineering organization? https://newsletter.pragmaticengineer.com/p/why-is-meta-destroying-its-engineering Как известно, публично разглашать плохие вещи происходящие в компании грозит нарушением NDA. Поэтому я буду просто цитировать фразы из той статьи. - 30-50% of engineers on core teams have been forcefully reassigned to data labeling and RLHF - “Data labeling” is more involved work, even though a bit repetitive. This work is not easy to do — and you can see why you need good software engineers to do it! — but it gets repetitive really quickly - Around 6,500 people are in the ADO org, more than at OpenAI and Anthropic. - any Meta engineer with at least two years’ tenure knows that previously they chose what to work on, and of course, could pick the most impactful thing to work on. And then, out of the blue, they’re assigned to a division where the impact is not clear, the work is menial, and doing it too long will surely hurt their career prospects. - a month-long waiting game, stoking fear across the company. On 20 April, Reuters reported that Meta planned to lay off 10% of staff in a month’s time, and Meta confirmed the news, meaning there was a period of four weeks when everyone knew that they could be unemployed very soon. - Performance review is hyper-aggressive at Meta, so devs optimize all metrics. - The biggest problem: people stop caring about real work and focus on performative work. - Two weeks ago, on 30 May, the most embarrassing outage in Meta’s history happened -	1 396
18	No text...	1 198
19	MiniMax Sparse Attention: Per-Group Block Selection for Cheap Million-Token Inference Мы постепенно привыкли работать с long-context LLM и агентами: закинь больше токенов и контекста в промпт, дай модели ризонить поверх них и жди результата. Но полноценный attention имеет квадратичную стоимость, agentic workflows, repo-scale code reasoning и persistent memory раздувают контекст до сотен тысяч и миллионов токенов — всё это значит, что важно не только качество модели, но и стоимость inference. MSA — это attention-механизм, на котором работает MiniMax M3. Идея простая: оставить точный softmax attention, но считать его не по всей истории, а по крошечному query-dependent подмножеству KV-блоков. Лёгкий Index Branch (одна index-query голова на GQA-группу) решает, какие блоки важны: скорит токены, делает max-pooling до уровня блока и берёт top-16 из 128-токенных блоков плюс всегда локальный блок — фиксированный бюджет 2048 токенов на запрос. Дорогой Main Branch делает exact attention только по выбранным блокам, так что стоимость на токен перестаёт расти с длиной контекста. Top-k недифференцируем, поэтому индексер учат через KL alignment loss (выравнивание распределения блок-скоров с реальным attention-распределением Main Branch) со stop-gradient и warmup на полном attention. Два режима: MSA-PT (sparse с нуля) и MSA-CPT (конвертация готового dense GQA-чекпойнта). Результаты против dense GQA baseline той же 109B-конфигурации на 1M контексте: — 28.4x сокращение per-token attention FLOPs — 14.2x prefill speedup (wall-clock, H800) — 7.6x decode speedup — по качеству MSA-PT matches или чуть обгоняет dense на большинстве бенчмарков, сильнее всего на multimodal и long-context Paper Code Model Мои обзоры: Personal blog Medium А ещё недавно я делился своим опытом работы с M3. #paperreview	1 357
20	Может ли бог создать камень который не сможет поднять или может ли агент провести речерч который он не может записать в файл? Есть один известный парадокс: если есть некто всемогущий - может ли он создать камень, который он сам не сможет поднять? Я нашёл неожиданный ответ на это при работе с агентами - и ответ "да". Я попросил claude code провести большой ресерч на одну тему, с использованием swarm of agents и dynamic workflow, а затем записать результат в markdown file. Речерс успешно завершился после часа работы, но вот при создании файла opus выдал ошибку 500. Я несколько раз просил его повторить - каждый раз ошибка. Причина оказалась в том, что файл получался слишком большой (42к символов) и пока агент писал его, получал ошибку по timeout :) Когда я попросил его записать результат в несколько файлов поменьше - всё получилось.	1 310

View all posts