Just links
Open in Telegram
That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Show more6 780
Subscribers
+124 hours
+157 days
+2130 days
Posts Archive
6 780
Repost from Hacker News
Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding? (🔥 Score: 165+ in 3 hours)
Link: https://readhacker.news/c/6WqZe
Has anyone here fully swapped Claude/GPT for a local model as their main coding tool, not just for side experiments? If so, please share your setup and performance (e.g tok/s)
6 780
Updated set of interesting(ish) benchmarks
DiscoverPhysics https://sampsonml.github.io/DiscoverPhysicsLeaderboard/
KernelBench https://kernelbench.com/hard
BullshitBench v2 https://github.com/petergpt/bullshit-benchmark
GTO Wizard Benchmark https://gtowizard.com/benchmark
Legal Agent Benchmark https://github.com/harveyai/harvey-labs
Blueprint-Bench 2 https://andonlabs.com/evals/blueprint-bench-2
GBA Eval https://gbaeval.com/leaderboard/
APEX-Agents https://www.mercor.com/apex/apex-agents-leaderboard/
AutomationBench https://zapier.com/benchmarks
ProgramBench https://programbench.com/
BioMysteryBench https://huggingface.co/datasets/Anthropic/BioMysteryBench-full
Chess Puzzles https://epoch.ai/benchmarks/chess-puzzles?view=graph&tab=release-date
6 780
Oasis 3 The Interactive World Model for Physical AI https://decart.ai/oasis?trk=feed_main-feed-card-text
6 780
The Invisible Hand of Physics: When Video Diffusion Models Know More Than They Show https://arxiv.org/abs/2606.05328
6 780
Oxygen-centred planar orbitals in the electronic structure and spin-density-wave reconstruction of multilayer nickelates https://www.nature.com/articles/s41567-026-03286-4
6 780
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time https://arxiv.org/abs/2512.08924
6 780
NitroGen: An Open Foundation Model for Generalist Gaming Agents https://arxiv.org/abs/2601.02427
6 780
Engineering Quantum Criticality in the Integer Quantum Hall Regime through a Screening Layer https://arxiv.org/abs/2605.30129
6 780
LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks https://arxiv.org/abs/2606.03303
6 780
Repost from Время Валеры
Прочитал интересную (и применимую) статью Rethinking Early Stopping: Refine, Then Calibrate.
Часто в курсах по машинному обучению говорят, что ошибку системы можно разложить на bias, variance, noise. На некоторых редких курсах даже учат, как это считать и что с этим делать дальше.
Попробуем посмотреть на эту проблему с другой стороны. В задачах вероятностной классификации loss для proper scoring rules можно разложить на: calibration и refinement.
Калибровка — мы сказали, что вероятность 80%. Сколько из взятых образцов будут принадлежать к классу 1? (Считать это можно через ECE — Expected Calibration Error).
Refinement — насколько хорошо модель разделяет классы. Допустим, модель выдала скор 0.9, все образцы оказались класса 1, а все, что ниже — класса 0. Модель откалибрована так себе, но разделяет классно. Собственно, если бы модель была откалибрована, мы могли бы выбирать отсечку вероятностно через саму вероятность.
Легко представить и обратную ситуацию: модель прекрасно откалибрована, но разделяет плохо. Например, модель, которая всегда предсказывает вероятность 50% для честной монетки, идеально откалибрована, но её разделяющая способность минимальна.
Из чего делаем вывод, что в какой-то момент улучшение функции потерь, из тех что относятся к семейству proper scoring functions, может происходить лишь за счет улучшения калибровки или даже ухудшать разделение, но за счет большого по величине улучшения калибровки выдавать лучший скор.
Это плохо. Калибровку часто можно существенно поправить потом post-hoc методами, поэтому остановка обучения по лоссу на валидации может привести к ситуации, что мы взяли далеко не лучший чекпойнт.
Что делать?
Сохранить несколько чекпойнтов модели.
Откалибровать каждый из них одинаковым методом.
Только после этого сравнивать их по loss.
В таком случае для каждого чекпойнта мы отдельно минимизируем доступную calibration error выбранным post-hoc методом (ссылка на запись вебинара), а разница в loss начинает лучше отражать именно качество разделения классов. Соответственно, мы выбираем модель с лучшей разделяющей способностью, а не ту, которая случайно оказалась лучше откалибрована на данном этапе обучения.
Проверили на датасетах для computer vision и 196 табличных датасетах — так и оказалось, победа.
Может ли это хотя бы частично объяснять эффекты вроде grokking или double descent?
Там мы тоже наблюдаем нетривиальную динамику loss во времени. Возможно, на ранних этапах обучения модель в основном улучшает калибровку, затем временно жертвует ей ради построения более качественной разделяющей поверхности, а потом начинает улучшать уже обе составляющие одновременно.
#ArticleReview
6 780
Ideogram 4: Open image model at the forefront of design https://github.com/ideogram-oss/ideogram4
6 780
20 Second Parity Lifetime in an InAs–Pb Tetron Device https://quantum.scene7.com/is/content/quantum/Majorana-2-Tech-Paperpdf
Available now! Telegram Research 2025 — the year's key insights 
