Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
Show more📈 Analytical overview of Telegram channel Data Secrets
Channel Data Secrets (@data_secrets) in the Russian language segment is an active participant. Currently, the community unites 90 903 subscribers, ranking 1 396 in the Technologies & Applications category and 6 159 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 90 903 subscribers.
According to the latest data from 02 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 682 over the last 30 days and by 66 over the last 24 hours, overall reach remains high.
- Verification status: Verified (Officially confirmed by Telegram)
- Engagement rate (ER): The average audience engagement rate is 25.82%. Within the first 24 hours after publication, content typically collects 18.73% reactions from the total number of subscribers.
- Post reach: On average, each post receives 23 466 views. Within the first day, a publication typically gains 17 021 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 304.
- Thematic interests: Content is focused on key topics such as claude, openai, контекст, стартап, llm.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
Thanks to the high frequency of updates (latest data received on 03 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
«Одно из определений, которое нравится людям: это система, которая выполняет значительную часть работы в мире. Но это постоянно меняется, потому что люди осваивают новые профессии. Другой вариант, который некоторые используют, — это система, которая может сама по себе проводить действительно качественные исследования в области ИИ. Суть в том, что это не так уж важно. Людям просто нравится «открывать» какие-то новые определения, но на самом мы будем полагаться лишь на продолжающийся экспоненциальный рост возможностей модели для всё большего и большего числа задач»Короче, можно считать термин AGI официально отмененным еще до того, как кто-либо его достиг. Немного обидно, конечно
Поэтому в большинстве случаев не получается использовать линтеры. Или их нужно кастомизировать, чтобы они нормально работали с ML-проектами.В классической разработке можно сделать MVP и затем постепенно улучшать его, не переписывая весь код. В ML всё работает немного иначе: часть экспериментов требуют лишь поиграться с гиперпараметрами или конфигурациями. Но иногда подход к обучению модели не оправдывает себя целиком. Тогда приходится, например, задачу seq2seq переформулировать как NER — это тянет за собой всю архитектуру проекта, практически снося предыдущие наработки. Так нужно ли качественно оформлять короткоживущий код? Обычно проблему решают ведением двух репозиториев: 👾 Для экспериментов. 👾 Для продакшена, который потом интегрируется с бэкендом. В репозитории с экспериментами качество кода может быть ниже, но важно, чтобы он оставался понятным для всех членов команды. Как упростить работу с кодом?
Есть конструкторы для LLM (LangChain, LlamaIndex), которые упрощают работу с языковыми моделями, позволяя из готовых «кубиков» собрать работающую RAG-систему, и не только. Однако за простотой использования кроются проблемы, которые обязательно вылезут при масштабировании.В чём минусы таких конструкторов, а также какой стек технологий должен знать современный ML-инженер, обсудили в подкасте «PiterPy и IML» с нашей Data-scientist Лизой Афанасьевой. Смотрите полный выпуск на YouTube или в VK Видео.
1. Делим задачу на подзадачи с ограничением по максимальному расстоянию, до которого считаем пути. 2. Сжимаем «фронтир»: из вершин на границе уже найденных путей оставляем только небольшое число ключевых (пивотов). 3. Рекурсивно обрабатываем только пивоты и их ближайшие вершины, избегая полной сортировки. 4. Для остальных вершин добиваем расстояния несколькими шагами по всем рёбрам (метод в духе Беллмана–Форда). 5. Повторяем процесс, постепенно уточняя расстояния до всех вершин.Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее. Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например: – В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи. – Для всяких ML-алгоритмов для логистики просто незаменимо. – И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь. Вот так как-то. Исторический день, получается. Статья полностью тут, почитайте обязательно
DS30.
➖ Регистрация на вебинар
➖ Больше информации про курс по подготовке к ШАД
Для студентов и начинающих ML/DS спецов (если планируете долгую успешную карьеру) – мастхэв.<|start|>{роль}<|channel|>{канал}<|message|>{контент}<|end|>Что касается токенизации: да, она должна быть совместима с harmony, но harmony – это не алгоритм токенизации. А в качестве алгоритма используется tiktoken. Для того, чтобы все работало правильно, OpenAI сделали для него специальный режим o200k_harmony. Разница только в лексемном словаре, но не в подходе. На практике все очень просто. Проговорим кратко:
– Если запускаете модель через готовых интеграторов (HuggingFace, Ollama и тд), все форматирование будет выполнено автоматически – Если запускаете через свои скрипты или торч, форматировать надо вручную. Для удобства OpenAI выпустили специальную либу openai-harmony – С дообучением то же самое: датасет должен быть в формате harmony, здесь также используем openai-harmonyА теперь главное: зачем OpenAI harmony? Тут все довольно очевидно. Это стратегический ход. Если все в опенсорс сообществе перейдут на Harmony, он станет единым стандартом для диалогов и агентов, как когда‑то API OpenAI стало общим форматом работы с моделями. А кто определяет формат — тот и заказывает музыку: все агенты пишутся под Harmony, OpenAI укрепляется на рынке даже за пределами своих моделей, а разработчиков легко переводить с open‑source на коммерческие продукты компании, потому что переписывать ничего не нужно. Вот так как-то Документация тут, если что
Available now! Telegram Research 2025 — the year's key insights 
