Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
Показати більше📈 Аналітичний огляд Telegram-каналу Data Secrets
Канал Data Secrets (@data_secrets) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 90 903 підписників, посідаючи 1 396 місце в категорії Технології та додатки та 6 159 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 90 903 підписників.
За останніми даними від 02 липня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 682, а за останні 24 години на 66, загальне охоплення залишається високим.
- Статус верифікації: Верифікований (Офіційно підтверджено Telegram)
- Рівень залученості (ER): Середній показник залученості аудиторії становить 25.82%. Протягом перших 24 годин після публікації контент зазвичай збирає 18.73% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 23 466 переглядів. Протягом першої доби публікація в середньому набирає 17 021 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 304.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як claude, openai, контекст, стартап, llm.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
Завдяки високій частоті оновлень (останні дані отримано 03 липня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
«Одно из определений, которое нравится людям: это система, которая выполняет значительную часть работы в мире. Но это постоянно меняется, потому что люди осваивают новые профессии. Другой вариант, который некоторые используют, — это система, которая может сама по себе проводить действительно качественные исследования в области ИИ. Суть в том, что это не так уж важно. Людям просто нравится «открывать» какие-то новые определения, но на самом мы будем полагаться лишь на продолжающийся экспоненциальный рост возможностей модели для всё большего и большего числа задач»Короче, можно считать термин AGI официально отмененным еще до того, как кто-либо его достиг. Немного обидно, конечно
Поэтому в большинстве случаев не получается использовать линтеры. Или их нужно кастомизировать, чтобы они нормально работали с ML-проектами.В классической разработке можно сделать MVP и затем постепенно улучшать его, не переписывая весь код. В ML всё работает немного иначе: часть экспериментов требуют лишь поиграться с гиперпараметрами или конфигурациями. Но иногда подход к обучению модели не оправдывает себя целиком. Тогда приходится, например, задачу seq2seq переформулировать как NER — это тянет за собой всю архитектуру проекта, практически снося предыдущие наработки. Так нужно ли качественно оформлять короткоживущий код? Обычно проблему решают ведением двух репозиториев: 👾 Для экспериментов. 👾 Для продакшена, который потом интегрируется с бэкендом. В репозитории с экспериментами качество кода может быть ниже, но важно, чтобы он оставался понятным для всех членов команды. Как упростить работу с кодом?
Есть конструкторы для LLM (LangChain, LlamaIndex), которые упрощают работу с языковыми моделями, позволяя из готовых «кубиков» собрать работающую RAG-систему, и не только. Однако за простотой использования кроются проблемы, которые обязательно вылезут при масштабировании.В чём минусы таких конструкторов, а также какой стек технологий должен знать современный ML-инженер, обсудили в подкасте «PiterPy и IML» с нашей Data-scientist Лизой Афанасьевой. Смотрите полный выпуск на YouTube или в VK Видео.
1. Делим задачу на подзадачи с ограничением по максимальному расстоянию, до которого считаем пути. 2. Сжимаем «фронтир»: из вершин на границе уже найденных путей оставляем только небольшое число ключевых (пивотов). 3. Рекурсивно обрабатываем только пивоты и их ближайшие вершины, избегая полной сортировки. 4. Для остальных вершин добиваем расстояния несколькими шагами по всем рёбрам (метод в духе Беллмана–Форда). 5. Повторяем процесс, постепенно уточняя расстояния до всех вершин.Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее. Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например: – В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи. – Для всяких ML-алгоритмов для логистики просто незаменимо. – И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь. Вот так как-то. Исторический день, получается. Статья полностью тут, почитайте обязательно
DS30.
➖ Регистрация на вебинар
➖ Больше информации про курс по подготовке к ШАД
Для студентов и начинающих ML/DS спецов (если планируете долгую успешную карьеру) – мастхэв.<|start|>{роль}<|channel|>{канал}<|message|>{контент}<|end|>Что касается токенизации: да, она должна быть совместима с harmony, но harmony – это не алгоритм токенизации. А в качестве алгоритма используется tiktoken. Для того, чтобы все работало правильно, OpenAI сделали для него специальный режим o200k_harmony. Разница только в лексемном словаре, но не в подходе. На практике все очень просто. Проговорим кратко:
– Если запускаете модель через готовых интеграторов (HuggingFace, Ollama и тд), все форматирование будет выполнено автоматически – Если запускаете через свои скрипты или торч, форматировать надо вручную. Для удобства OpenAI выпустили специальную либу openai-harmony – С дообучением то же самое: датасет должен быть в формате harmony, здесь также используем openai-harmonyА теперь главное: зачем OpenAI harmony? Тут все довольно очевидно. Это стратегический ход. Если все в опенсорс сообществе перейдут на Harmony, он станет единым стандартом для диалогов и агентов, как когда‑то API OpenAI стало общим форматом работы с моделями. А кто определяет формат — тот и заказывает музыку: все агенты пишутся под Harmony, OpenAI укрепляется на рынке даже за пределами своих моделей, а разработчиков легко переводить с open‑source на коммерческие продукты компании, потому что переписывать ничего не нужно. Вот так как-то Документация тут, если что
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
