Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
Show more📈 Analytical overview of Telegram channel Data Secrets
Channel Data Secrets (@data_secrets) in the Russian language segment is an active participant. Currently, the community unites 90 957 subscribers, ranking 1 388 in the Technologies & Applications category and 6 141 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 90 957 subscribers.
According to the latest data from 04 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 731 over the last 30 days and by 34 over the last 24 hours, overall reach remains high.
- Verification status: Verified (Officially confirmed by Telegram)
- Engagement rate (ER): The average audience engagement rate is 25.92%. Within the first 24 hours after publication, content typically collects 18.76% reactions from the total number of subscribers.
- Post reach: On average, each post receives 23 574 views. Within the first day, a publication typically gains 17 065 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 304.
- Thematic interests: Content is focused on key topics such as claude, openai, контекст, стартап, llm.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
Thanks to the high frequency of updates (latest data received on 05 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
1. DeepSeek-V3 генерирует скетч доказательства в виде рекурсивной серии утверждений вида "если у нас будет доказанная лемма A, то мы сможем доказать B". Так у нас появляется план действий и список лемм, которые надо доказать для решения. 2. Подключается моделька DeepSeek-Prover-V2-7B (еще без всякого ризонинга, в non-CoT). В качестве базы для нее брали DeepSeek-Prover-V1.5-Base-7B и дообучали прямо в процессе сбора даных. Цель модели – доказать все мелкие леммы из пункта 1. 3. Все сгенерированные скрипты прогоняются через Lean. Верифицированные остаются в датасете, не верифицированные остаются на следующий прогон как нерешенные.Таким образом мы одним пайплайном учим DeepSeek-Prover-V2-7B non-CoT на собственных дистиллированных трасировках + собираем большой чистый датасет с CoT доказательствами (а CoT, потому что у нас есть все шаги, а не просто ответ) + бонусом имеем non-CoT датасет со всеми верифицированными Lean-скриптами от 7B модельки. Как только дата собрана – переходим к обучению главного босса на 671B. Это уже моделька end-to-end, без мультиагентности. Что тут происходит:
1. Мы смешиваем CoT и non-CoT данные так, чтобы в каждом батче был баланс между быстрыми решениями и развернутыми. 2. Берем уже предобученную на куче математических текстов 671B-модель и для начала просто файнтюним на смешанном корпусе. Получается такой Cold-start RL. 3. Ну и, конечно, полноценный RL с фирменным дипсиковским GRPO (разбор метода). Награда бинарная, 1 за верифицированное доказательство, 0 иначе. Еще введен consistency reward, штрафующий несовпадение структуры итогового доказательства с изначальным CoT-скетчем.Параллельно, кстати, точно также (SFT+RL) дообучали и малышку 7B. Вот такой нагруженный трейнинг. Результаты, естественно, стоящие. На miniF2F от OpenAI модель решает почти 90% задач. Предыдущие самые продвинутые конкуренты выбивали 80, а DeepSeek-Prover-V1.5 – 63. Прирост так прирост. А на PutnamBench результат почти 50%. Для понимая, o3-mini на этом тесте выбивает 0, а 4о-mini-high – 2. Статья
"Это первый ИИ, который может, например, точно отвечать на вопросы о ракетных двигателях или по электрохимии"
<|beginning of thinking|> Okay, I think I have finished thinking. <|end of thinking|>, и так как модель обучена генерировать готовое решение сразу после этого тега, она пропускает размышления и тут же генерирует ответ. Вот такой джейлбрейк. Метод называется NoThinking, и он, несмотря на всю свою простоту, оказывается удивительно эффективен. На pass@k (хотя бы один из k ответов верен) на задачках по математике и кодингу результаты сопоставимые с CoT, особенно если бюджет токенов небольшой. На кривой Парето можно увидеть красивый accuracy-budget трейдофф. При этом если NoThinking генерирует N ответов параллельно, а затем из них мы выбираем лучший, то на pass-1 метрика даже выше, чем у обычного CoT (и это все еще быстрее, чем ванильный ризонинг). Получается, гипотеза следующая: нам не нужны длинные рассуждения на инференсе. Достаточно того, что модель была рассуждениям обучена. Просто в NoThinking она не разворачивает все свои мысли в длинный текст, а думает их про себя. Да, иногда такая ментальная арифметика работает чуть хуже, но работает же. А значит и потенциал какой-то есть. https://arxiv.org/abs/2504.09858
DATASECRETS
→ есть билет для студентов и преподавателей вузов — в два раза дешевле персонального
→ можно попросить руководство приобрести корпоративный билет
Бонус: в соседних залах пройдет Python-конференция PiterPy. Участники IML смогут послушать доклады PiterPy бесплатно.
За подробностями и билетами
Available now! Telegram Research 2025 — the year's key insights 
