Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
Mostrar más📈 Análisis del canal de Telegram Data Secrets
El canal Data Secrets (@data_secrets) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 90 903 suscriptores, ocupando la posición 1 396 en la categoría Tecnologías y Aplicaciones y el puesto 6 159 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 90 903 suscriptores.
Según los últimos datos del 02 julio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 682, y en las últimas 24 horas de 66, conservando un alto alcance.
- Estado de verificación: Verificado (confirmado oficialmente por Telegram)
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 25.82%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 18.73% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 23 466 visualizaciones. En el primer día suele acumular 17 021 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 304.
- Intereses temáticos: El contenido se centra en temas clave como claude, openai, контекст, стартап, llm.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 03 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
В принципе, учитывая, что такие компании-разработчики, как Microsoft, сами не производят никакого оборудования, их можно полностью моделировать с помощью ИИ.То есть: нет офисов, нет персонала. Вся компания – ИИ. Цель – полностью автоматизировать разработку ПО настолько, чтобы можно было конкурировать с гигантами. Короче смело, ничего не скажешь. Патентные заявки на торговую марку уже оформлены. Сейчас в xAI набирают сотрудников под это направление.
<context>Я начинающий разработчик ПО</context> <task>Объяснить что происходит в этом коде</task> <code> while True: i++ </code>Особенно полезно, когда у вас много контекста или много разных условий (ну, например, правил оформления кода). 3. Если вы с нуля пишете какой-то код или текст с GPT-5, полезно использовать в промптах тег <self-reflection> для того, чтобы GPT-5 оценивала сама себя. Примерно вот так:
<self_reflection> – Сначала продумай критерии оценки и убедись, что они подходят для задачи. – Проанализируй, что действительно должен делать этот код. На основе этого составь 5-6 критериев. Они должны быть максимально точными, но пользователю их не показывай. – Наконец, используй эти критерии, чтобы оценить свой ответ: подумай, как улучшить решение и доработай его. Если результат не набирает «высший балл» по всем пунктам, начни заново. </self_reflection>4. Если понимаете, что для вашей задачи высока вероятность галлюцинаций, добавляйте в промпты:
Скажи: «Я не знаю», если не можешь найти достоверных доказательств своих утверждений. Задавай мне уточняющие вопросы, пока не будешь уверен в своих ответах.cdn.openai.com/API/docs/gpt-5-for-coding-cheatsheet.pdf
Представим матрицу A, где строки – это запросы, а столбцы – документы, и на пересечении стоит 1, если документ релевантен, и 0 – если нет. Мы хотим, чтобы поиск на эмбеддингах воспроизводил именно такую матрицу «кто кому подходит». Тогда оценки похожести будут матрицей B = UᵀV, где U и V – это векторы запросов и документов в пространстве фиксированной размерности d. Но sign-rank матрицы (2A−1) может оказаться больше d, а это значит, что никакие d-мерные эмбеддинги не смогут построить B с правильными значениями. Формально: если sign-rank(A) > d, то корректное разделение релевантных и нерелевантных пар в таком пространстве просто невозможно, каким бы мегаумным ни был ваш эмбеддер.То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться. И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже. Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!). Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ. Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок 😐 Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
