epsilon correct
Kanalga Telegram’da o‘tish
Машинное обучение, графы, языковые модели. Чуток про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики. Связаться с автором: @deltaincorrect. Рекламы в канале нет.
Ko'proq ko'rsatish8 043
Obunachilar
+324 soatlar
+117 kunlar
+2930 kunlar
Postlar arxiv
8 042
MTP спекулятивный декодинг в Gemma 4: ускоряемся в два раза без потери качества 🥳
В нашу дорогую гемму наконец завезли спекулятивный декодинг, когда более маленькая модель предсказывает токены, которые могут верифицироваться большой моделью параллельно, существенно ускоряя инференс для локальных юзкейзов.
Попробовать можно через HuggingFace transformers, остальные движки тоже скоро будут поддерживать.
блогпост, технический блог
8 042
Продолжаем геммапропаганду. В прошлом году у NVIDIA вышла неплохая статья о том, как ловить людей, которые доливают тест в трейн. CoDeC – нормализованный показатель перплексии, где для тестсета бенчмарка считают изменения в перплексии с дополнительными примерами из того же бенчмарка. Для неконтаминированных моделек мы ожидаем, что дополнительные примеры не будут сбивать модель с толку, а в лучшем случае помогут. С другой стороны, если модель запомнила текст из теста, дополнительные примеры собьют её с толку и уверенность модели в ответе упадёт. Шкала нормализована от 0 до 100, где ~80% значит, что примеры из теста модель видела буквально, ~40% – в перефразированном виде. Товарищ с твиттера посчитал CoDeC для Gemma 4 и сравнил с Qwen 3.5 – почему-то у наших китайских коллег модель почти запоминает примеры из теста.
8 042
WeirdML – один из самых необычных бенчмарков для ЛЛМок. В него входят необычные open-ended задачки по МЛю, например, распознавание цифр со всего 28 размеченными примерами и ~50к неразмеченными, распознавание формы фигур, или восстановление перемешанных фрагментов изображений.
Gemma 4 31B оказалась самой сильной открытой моделью на этом бенчмарке, опередив GLM 5 (MoE на 700B) и GPT-OSS с хорошим отрывом, показав результат на уровне с О3 или Gemini 2.5 Pro.
8 042
Мои любимые artificial analysis выложили своё независимое тестирование Gemma 4 (твит, страница с результатами), по результатам вышло хуже квенов из-за просадки на 𝜏²-bench, ну и ладно с ним.
В этой версии мне довелось поработать над околонаучными бенчмарками и работой с длинным контекстом, а там мы наступаем на пятки китайским моделям на порядок больше вроде GLM 5 или DS 3.2.
8 042
Gemma 4
blogpost | huggingface
4 размера: E2B, E4b (бывшие Gemma 3n/Gemini Nano); 26A4B, 31B Dense
8 042
Gemini embedding 002
блог | API docs
Первые по-настоящему мультимодальный эмбеддинги от нас. Теперь можно за в один эмбеддинг загнать до 8к токенов текста, 6 картинок, 120 секунд видео, 80 секунд аудио или 6 страниц PDF.
В этой версии сильно улучшили качество эмбеддингов по коду, теперь распознаёт больше языков. Улучшили matryoshka embeddings – теперь можно обрезать на размерность ~768 почти без потери качества. Я был первым бета-юзером в гугле, так что уверен, что настоящим сварщикам модель зайдёт. 👍
8 042
Artificial analysis про то, что изменилось:
1. Подрос общий индекс способностей модельки: SotA результаты на их бенчмарках при меньшем количестве токенов, чем Opus 4.6 или GPT 5.2-xhigh.
2. Почти вдвое уменьшили количество галлюцинаций (88%->50%), но при этом количество общих знаний у модели несопоставимо больше, чем у конкурентов
3. Наконец-то доросли до фронтира по агентному кодингу
8 042
8 042
Пара полезных чисел
Берём два несвязанных эмбеддинга из новой модной модели, а их косинусное расстояние – не ноль, почему? Есть два полезных числа, которые стоит запомнить: 2/π ≈ 0.6366 и 1/π ≈ 0.3184. Первое в ожидании получится, когда наши эмбеддинги распределены как модуль от координат гауссианы, второе – когда мы берём max(0, ·) – в простонародье ReLU от координат. Для других функций вычислить тоже довольно просто: косинусное расстояние для Z~N(0;1) концентрируется вокруг
E[f(Z)^2] / (E[f(Z)])^2.8 042
В декабре я писал про систему помощи авторам на конференции STOC; сегодня наша команда выпустила экспериментальную версию, где можно получить фидбек про свою статью на https://icml.cc/
8 042
The origins of efficiency
Brian Potter, 2025
stripe press, amazon
подкаст про книгу с автором
Эффективность производства – один из фундаментальных механизмов, которые толкают цивилизацию вперёд, превращая дефицит в изобилие за счёт снижения затрат на производство товаров. В "истоках эффективности" Поттер максимально подробно разбирает конкретные рычаги оптимизации: технологические S-образные кривые (смена парадигм производства), экономию на масштабе, контролю вариативности и приведение процесса к идеалу непрерывного процесса, где минимизированы буферы, простои и запасы.
Разбирая кейсы от производства лампочек и гвоздей до фотовольтаики, Поттер показывает, как улучшение процессов создаёт положительные циклы обратной связи, когда рост объёмов производства оправдывает инвестиции в улучшение процессов и R&D. Тем не менее, так происходит не везде: например, в строительстве и медицине в связи с высокой вариативностью, низкой повторяемостью, регуляторных усложнений процессов и болезни издержек Баумоля не получается обеспечить роста эффективности сравнимого с другими областями. Поттер считает, что в будущем такие барьеры будут преодолеваться через гибкую автоматизацию при помощи более адаптивных роботов.
Книга – моя любимая из прочитанных за год, очень рекомендую любителям читать про изменения техпроцесса производства лампочек 10 страниц подряд. Заставляет смотреть на окружающие процессы с точки зрения улучшения их эффективности, параллели можно найти и с нашими с вами ЛЛМками – они усилиями многих коллег проходят ускоренный S-образный процесс улучшения их "производства". Настоящим сварщикам и выпекателям настоятельнейше рекомендую.
8 042
Два новогодних подгончика, чтобы слушать/читать, пока готовишь оливье.
Неделю назадо вышло довольно подробное интервью с Себом, который (тех)лидит пре-трейн Gemini. Мало где можно послушать о том, как фронтирные лабы думают о претрейне.
Джефф с Санджаем (вот тут очень мило про них от Нью Йоркера) выпустили коллекцию мыслей про оптимизацию ПО. У Джеффа невероятная интуиция на ускорение кода, в гугле ходят шутки в стиле шуток про Чака Норриса.
8 042
⚡⚡⚡ Gemini 3 Flash
Флагманский апдейт дешёвой рабочей лошадки, которя перформит существенно лучше альтернатив за свои деньги. Особенно всё прокачалось в мультимодальных запросах.
Блогпост
8 042
STOC – серьёзная теоретическая конференция для настоящих сварщиков компьютерсаенс теоретиков – провела эксперимет, где статьи получали фидбек от системы на основе Gemini 3 Deep Think. По результатам 97% оценили фидбек как полезный; система помогла найти пару критических ошибок в статьях.
Над экспериментов работала наша команда, мне кажется это один из первых примеров того, как ЛЛМки будут помогать учёным делать науку лучше.
Блогпост
8 042
Узнал от гуглсколара о том, что процитировали ранее неизвестную мою статью. Из минусов – статьи я этой не писал, чистая галлюцинация. Не знаю даже, стоит ли писать авторам. 🐕
8 042
Breakneck: China's Quest to Engineer the Future – Dan Wang, 2025.
#book_review
Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Америкой управляют юристы, а Китаем — инженеры.Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно. Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права. К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит. Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
8 042
Любопытная статья (pdf) про связь академической нечестности (плагиаризма) и дальнейшего карьерного развития, написанная на данных китайских университетов. Авторы использовали систему по поиску плагиата и сматчили по именам на дипломах с людьми, которые проходили китайский национальный экзамен на государственную службу (match rate ~17%), а также с открытыми данными китайской служебной системы (~32%).
Оказалось, что доля плагиата у людей, которые в последующем идут на госслужбу, выше на 1.2% (15.6% относительно общей популяции), и индивиды в верхней половине по плагиаризму получают повышения на 10-15% быстрее (с контролем на опыт и департамент).
С судьями примерно такая же ситуация. Судьи, которые занимались плагиатом в университете, на 10-15% чаще выносят вердикты в пользу государственных компаний и на 16.6% чаще попадают под расследования о коррупции.
Чтобы понять, не вызван ли этот эффект банальной некомпетентностью авторы придумали мерить результаты процессов, которые транслировались онлайн. Там размер эффекта существенно снижается.
8 042
На этой неделе буду на NeurIPS в Сан Диего свободным человеком без статей и презентаций.
Кидайте статьи, если приехали с постером, и приходите на наш phd networking event.
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
