Время Валеры
Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads
Show more📈 Analytical overview of Telegram channel Время Валеры
Channel Время Валеры (@cryptovalerii) in the Russian language segment is an active participant. Currently, the community unites 30 179 subscribers, ranking 4 548 in the Technologies & Applications category and 21 825 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 30 179 subscribers.
According to the latest data from 09 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 67 over the last 30 days and by 30 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 58.66%. Within the first 24 hours after publication, content typically collects 28.63% reactions from the total number of subscribers.
- Post reach: On average, each post receives 17 701 views. Within the first day, a publication typically gains 8 641 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 284.
- Thematic interests: Content is focused on key topics such as engineer, claude, стартап, архитектура, many.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Мне платят за то, что я говорю другим людям что им делать.
Автор книги https://www.manning.com/books/machine-learning-system-design
https://venheads.io
https://www.linkedin.com/in/venheads”
Thanks to the high frequency of updates (latest data received on 10 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
If the future is AI-centric, do we still need humans? Consider a simple model of investment and return for a human. Traditionally, the more work experience accumulated (i.e., investment), the stronger the capability, and the greater the return. This leads to a monotonically increasing curve. This is why big tech companies have ladders: the job level generally goes up with years of service and experience. Now it is different. Ladders have become meaningless, and past experience is irrelevant. Human value has shifted from being evaluated by “the quantity and quality of labor produced by the individual” to “whether one can improve AI’s capabilities.” The equation now becomes: Human + AI > AI output.Еще из интересного, твиттере есть обсуждение его статьи — “Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking”, где он пытается математически смоделировать тонкую грань между меморизацией и генерализацией в контексте grokking: когда сначала модель как будто переобучается и просто запоминает train set, а потом внезапно начинает действительно обобщать (delayed generalization). Сделано это пока на игрушечном датасете, но сама идея интересная: автор раскладывает обучение на несколько фаз — lazy learning → feature learning → interactive feature learning — и показывает, как из режима “модель тупо меморизирует” можно перейти к настоящей генерализации. И тут в дискуссию врывается другой мужик со своей работой “Grokking and Generalization Collapse: Insights from HTSR theory” и говорит: “подождите, мы вообще нашли два разных типа memorization”. — Pre-grokking memorization — до генерализации. — Anti-grokking — после генерализации, если тренировать очень долго (~10^6 steps), когда модель снова скатывается в memorization и происходит generalization collapse. Причём они интерпретируют это почти как spin-glass фазу: train accuracy идеальный, а generalization начинает деградировать. Но Tian и тут не потерялся (работу то уже потерял) и ответил довольно красиво: мол, это идеально укладывается в его energy landscape. Если данных мало, модель сидит прямо на границе между memorization и generalization. Причём memorization optimum может быть энергетически выгоднее. И тогда: — большой learning rate / шумный gradient / маленький batch size могут выбить модель из generalization basin обратно в memorization; — а маленький learning rate может, наоборот, удержать её в локальном optimum генерализации. То есть получается уже почти практическая инструкция по достижению grokking: — weight decay нужен не просто “для регуляризации”, а чтобы после initial overfitting вообще появился сигнал для feature learning; — LR и gradient noise определяют, удержится ли модель в basin генерализации; — слишком долгое обучение может привести к anti-grokking и collapse генерализации. Самое интересное во всей этой истории — memorization и generalization начинают рассматривать не как два противоположных состояния, а как конкурирующие локальные минимумы, между которыми модель может перескакивать в зависимости от динамики оптимизации.
Available now! Telegram Research 2025 — the year's key insights 
