Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
Mostrar más📈 Análisis del canal de Telegram Data Secrets
El canal Data Secrets (@data_secrets) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 90 903 suscriptores, ocupando la posición 1 396 en la categoría Tecnologías y Aplicaciones y el puesto 6 159 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 90 903 suscriptores.
Según los últimos datos del 02 julio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 682, y en las últimas 24 horas de 66, conservando un alto alcance.
- Estado de verificación: Verificado (confirmado oficialmente por Telegram)
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 25.82%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 18.73% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 23 466 visualizaciones. En el primer día suele acumular 17 021 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 304.
- Intereses temáticos: El contenido se centra en temas clave como claude, openai, контекст, стартап, llm.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 03 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
«Одно из определений, которое нравится людям: это система, которая выполняет значительную часть работы в мире. Но это постоянно меняется, потому что люди осваивают новые профессии. Другой вариант, который некоторые используют, — это система, которая может сама по себе проводить действительно качественные исследования в области ИИ. Суть в том, что это не так уж важно. Людям просто нравится «открывать» какие-то новые определения, но на самом мы будем полагаться лишь на продолжающийся экспоненциальный рост возможностей модели для всё большего и большего числа задач»Короче, можно считать термин AGI официально отмененным еще до того, как кто-либо его достиг. Немного обидно, конечно
Поэтому в большинстве случаев не получается использовать линтеры. Или их нужно кастомизировать, чтобы они нормально работали с ML-проектами.В классической разработке можно сделать MVP и затем постепенно улучшать его, не переписывая весь код. В ML всё работает немного иначе: часть экспериментов требуют лишь поиграться с гиперпараметрами или конфигурациями. Но иногда подход к обучению модели не оправдывает себя целиком. Тогда приходится, например, задачу seq2seq переформулировать как NER — это тянет за собой всю архитектуру проекта, практически снося предыдущие наработки. Так нужно ли качественно оформлять короткоживущий код? Обычно проблему решают ведением двух репозиториев: 👾 Для экспериментов. 👾 Для продакшена, который потом интегрируется с бэкендом. В репозитории с экспериментами качество кода может быть ниже, но важно, чтобы он оставался понятным для всех членов команды. Как упростить работу с кодом?
Есть конструкторы для LLM (LangChain, LlamaIndex), которые упрощают работу с языковыми моделями, позволяя из готовых «кубиков» собрать работающую RAG-систему, и не только. Однако за простотой использования кроются проблемы, которые обязательно вылезут при масштабировании.В чём минусы таких конструкторов, а также какой стек технологий должен знать современный ML-инженер, обсудили в подкасте «PiterPy и IML» с нашей Data-scientist Лизой Афанасьевой. Смотрите полный выпуск на YouTube или в VK Видео.
1. Делим задачу на подзадачи с ограничением по максимальному расстоянию, до которого считаем пути. 2. Сжимаем «фронтир»: из вершин на границе уже найденных путей оставляем только небольшое число ключевых (пивотов). 3. Рекурсивно обрабатываем только пивоты и их ближайшие вершины, избегая полной сортировки. 4. Для остальных вершин добиваем расстояния несколькими шагами по всем рёбрам (метод в духе Беллмана–Форда). 5. Повторяем процесс, постепенно уточняя расстояния до всех вершин.Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее. Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например: – В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи. – Для всяких ML-алгоритмов для логистики просто незаменимо. – И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь. Вот так как-то. Исторический день, получается. Статья полностью тут, почитайте обязательно
DS30.
➖ Регистрация на вебинар
➖ Больше информации про курс по подготовке к ШАД
Для студентов и начинающих ML/DS спецов (если планируете долгую успешную карьеру) – мастхэв.<|start|>{роль}<|channel|>{канал}<|message|>{контент}<|end|>Что касается токенизации: да, она должна быть совместима с harmony, но harmony – это не алгоритм токенизации. А в качестве алгоритма используется tiktoken. Для того, чтобы все работало правильно, OpenAI сделали для него специальный режим o200k_harmony. Разница только в лексемном словаре, но не в подходе. На практике все очень просто. Проговорим кратко:
– Если запускаете модель через готовых интеграторов (HuggingFace, Ollama и тд), все форматирование будет выполнено автоматически – Если запускаете через свои скрипты или торч, форматировать надо вручную. Для удобства OpenAI выпустили специальную либу openai-harmony – С дообучением то же самое: датасет должен быть в формате harmony, здесь также используем openai-harmonyА теперь главное: зачем OpenAI harmony? Тут все довольно очевидно. Это стратегический ход. Если все в опенсорс сообществе перейдут на Harmony, он станет единым стандартом для диалогов и агентов, как когда‑то API OpenAI стало общим форматом работы с моделями. А кто определяет формат — тот и заказывает музыку: все агенты пишутся под Harmony, OpenAI укрепляется на рынке даже за пределами своих моделей, а разработчиков легко переводить с open‑source на коммерческие продукты компании, потому что переписывать ничего не нужно. Вот так как-то Документация тут, если что
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
