Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
إظهار المزيد📈 نظرة تحليلية على قناة تيليجرام Data Secrets
تُعد قناة Data Secrets (@data_secrets) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 90 903 مشتركاً، محتلاً المرتبة 1 396 في فئة التكنولوجيات والتطبيقات والمرتبة 6 159 في منطقة روسيا.
📊 مؤشرات الجمهور والحراك
منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 90 903 مشتركاً.
بحسب آخر البيانات بتاريخ 02 يوليو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار 682، وفي آخر 24 ساعة بمقدار 66، مع بقاء الوصول العام مرتفعاً.
- حالة التحقق: موثّقة (مؤكدة رسمياً من تيليجرام)
- معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 25.82%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 18.73% من ردود الفعل نسبةً إلى إجمالي المشتركين.
- وصول المنشورات: يحصل كل منشور على متوسط 23 466 مشاهدة. وخلال اليوم الأول يجمع عادةً 17 021 مشاهدة.
- التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 304.
- الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل claude, openai, контекст, стартап, llm.
📝 الوصف وسياسة المحتوى
يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 03 يوليو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.
«Одно из определений, которое нравится людям: это система, которая выполняет значительную часть работы в мире. Но это постоянно меняется, потому что люди осваивают новые профессии. Другой вариант, который некоторые используют, — это система, которая может сама по себе проводить действительно качественные исследования в области ИИ. Суть в том, что это не так уж важно. Людям просто нравится «открывать» какие-то новые определения, но на самом мы будем полагаться лишь на продолжающийся экспоненциальный рост возможностей модели для всё большего и большего числа задач»Короче, можно считать термин AGI официально отмененным еще до того, как кто-либо его достиг. Немного обидно, конечно
Поэтому в большинстве случаев не получается использовать линтеры. Или их нужно кастомизировать, чтобы они нормально работали с ML-проектами.В классической разработке можно сделать MVP и затем постепенно улучшать его, не переписывая весь код. В ML всё работает немного иначе: часть экспериментов требуют лишь поиграться с гиперпараметрами или конфигурациями. Но иногда подход к обучению модели не оправдывает себя целиком. Тогда приходится, например, задачу seq2seq переформулировать как NER — это тянет за собой всю архитектуру проекта, практически снося предыдущие наработки. Так нужно ли качественно оформлять короткоживущий код? Обычно проблему решают ведением двух репозиториев: 👾 Для экспериментов. 👾 Для продакшена, который потом интегрируется с бэкендом. В репозитории с экспериментами качество кода может быть ниже, но важно, чтобы он оставался понятным для всех членов команды. Как упростить работу с кодом?
Есть конструкторы для LLM (LangChain, LlamaIndex), которые упрощают работу с языковыми моделями, позволяя из готовых «кубиков» собрать работающую RAG-систему, и не только. Однако за простотой использования кроются проблемы, которые обязательно вылезут при масштабировании.В чём минусы таких конструкторов, а также какой стек технологий должен знать современный ML-инженер, обсудили в подкасте «PiterPy и IML» с нашей Data-scientist Лизой Афанасьевой. Смотрите полный выпуск на YouTube или в VK Видео.
1. Делим задачу на подзадачи с ограничением по максимальному расстоянию, до которого считаем пути. 2. Сжимаем «фронтир»: из вершин на границе уже найденных путей оставляем только небольшое число ключевых (пивотов). 3. Рекурсивно обрабатываем только пивоты и их ближайшие вершины, избегая полной сортировки. 4. Для остальных вершин добиваем расстояния несколькими шагами по всем рёбрам (метод в духе Беллмана–Форда). 5. Повторяем процесс, постепенно уточняя расстояния до всех вершин.Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее. Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например: – В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи. – Для всяких ML-алгоритмов для логистики просто незаменимо. – И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь. Вот так как-то. Исторический день, получается. Статья полностью тут, почитайте обязательно
DS30.
➖ Регистрация на вебинар
➖ Больше информации про курс по подготовке к ШАД
Для студентов и начинающих ML/DS спецов (если планируете долгую успешную карьеру) – мастхэв.<|start|>{роль}<|channel|>{канал}<|message|>{контент}<|end|>Что касается токенизации: да, она должна быть совместима с harmony, но harmony – это не алгоритм токенизации. А в качестве алгоритма используется tiktoken. Для того, чтобы все работало правильно, OpenAI сделали для него специальный режим o200k_harmony. Разница только в лексемном словаре, но не в подходе. На практике все очень просто. Проговорим кратко:
– Если запускаете модель через готовых интеграторов (HuggingFace, Ollama и тд), все форматирование будет выполнено автоматически – Если запускаете через свои скрипты или торч, форматировать надо вручную. Для удобства OpenAI выпустили специальную либу openai-harmony – С дообучением то же самое: датасет должен быть в формате harmony, здесь также используем openai-harmonyА теперь главное: зачем OpenAI harmony? Тут все довольно очевидно. Это стратегический ход. Если все в опенсорс сообществе перейдут на Harmony, он станет единым стандартом для диалогов и агентов, как когда‑то API OpenAI стало общим форматом работы с моделями. А кто определяет формат — тот и заказывает музыку: все агенты пишутся под Harmony, OpenAI укрепляется на рынке даже за пределами своих моделей, а разработчиков легко переводить с open‑source на коммерческие продукты компании, потому что переписывать ничего не нужно. Вот так как-то Документация тут, если что
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
