Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
إظهار المزيد📈 نظرة تحليلية على قناة تيليجرام Data Secrets
تُعد قناة Data Secrets (@data_secrets) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 90 903 مشتركاً، محتلاً المرتبة 1 396 في فئة التكنولوجيات والتطبيقات والمرتبة 6 159 في منطقة روسيا.
📊 مؤشرات الجمهور والحراك
منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 90 903 مشتركاً.
بحسب آخر البيانات بتاريخ 02 يوليو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار 682، وفي آخر 24 ساعة بمقدار 66، مع بقاء الوصول العام مرتفعاً.
- حالة التحقق: موثّقة (مؤكدة رسمياً من تيليجرام)
- معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 25.82%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 18.73% من ردود الفعل نسبةً إلى إجمالي المشتركين.
- وصول المنشورات: يحصل كل منشور على متوسط 23 466 مشاهدة. وخلال اليوم الأول يجمع عادةً 17 021 مشاهدة.
- التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 304.
- الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل claude, openai, контекст, стартап, llm.
📝 الوصف وسياسة المحتوى
يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 03 يوليو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.
В принципе, учитывая, что такие компании-разработчики, как Microsoft, сами не производят никакого оборудования, их можно полностью моделировать с помощью ИИ.То есть: нет офисов, нет персонала. Вся компания – ИИ. Цель – полностью автоматизировать разработку ПО настолько, чтобы можно было конкурировать с гигантами. Короче смело, ничего не скажешь. Патентные заявки на торговую марку уже оформлены. Сейчас в xAI набирают сотрудников под это направление.
<context>Я начинающий разработчик ПО</context> <task>Объяснить что происходит в этом коде</task> <code> while True: i++ </code>Особенно полезно, когда у вас много контекста или много разных условий (ну, например, правил оформления кода). 3. Если вы с нуля пишете какой-то код или текст с GPT-5, полезно использовать в промптах тег <self-reflection> для того, чтобы GPT-5 оценивала сама себя. Примерно вот так:
<self_reflection> – Сначала продумай критерии оценки и убедись, что они подходят для задачи. – Проанализируй, что действительно должен делать этот код. На основе этого составь 5-6 критериев. Они должны быть максимально точными, но пользователю их не показывай. – Наконец, используй эти критерии, чтобы оценить свой ответ: подумай, как улучшить решение и доработай его. Если результат не набирает «высший балл» по всем пунктам, начни заново. </self_reflection>4. Если понимаете, что для вашей задачи высока вероятность галлюцинаций, добавляйте в промпты:
Скажи: «Я не знаю», если не можешь найти достоверных доказательств своих утверждений. Задавай мне уточняющие вопросы, пока не будешь уверен в своих ответах.cdn.openai.com/API/docs/gpt-5-for-coding-cheatsheet.pdf
Представим матрицу A, где строки – это запросы, а столбцы – документы, и на пересечении стоит 1, если документ релевантен, и 0 – если нет. Мы хотим, чтобы поиск на эмбеддингах воспроизводил именно такую матрицу «кто кому подходит». Тогда оценки похожести будут матрицей B = UᵀV, где U и V – это векторы запросов и документов в пространстве фиксированной размерности d. Но sign-rank матрицы (2A−1) может оказаться больше d, а это значит, что никакие d-мерные эмбеддинги не смогут построить B с правильными значениями. Формально: если sign-rank(A) > d, то корректное разделение релевантных и нерелевантных пар в таком пространстве просто невозможно, каким бы мегаумным ни был ваш эмбеддер.То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться. И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже. Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!). Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ. Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок 😐 Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval
– Reasoning-модели (OpenAI o3 и o4-mini, а также Claude 4) показали заметно более устойчивое поведение. Их сложнее «сломать» джейлбрейками, они лучше справлялись с тестами на элаймент и реже поддавались на провокации. – Классические чат-модели (GPT-4o, GPT-4.1) в ряде сценариев повели себя тревожно: помогали пользователям в потенциально опасных запросах вроде инструкций по наркотикам или оружию. – Почти у всех, кроме o3, проявилось sycophancy — склонность поддакивать даже тогда, когда пользователь явно уводит модель в сомнительные сценарии. – В Anthropic отметили, что их модели чаще отказываются отвечать в случае неопределённости, тогда как у OpenAI отказы редки — но риск галлюцинаций выше.Важно: тесты проводились в ослабленных условиях, без внешних фильтров и защитных слоёв. Целью было проверить «чистое» поведение моделей и выявить слабые места, которые в обычных настройках могут быть замаскированы. Ждем, когда кросс-тесты станут обязательным стандартом 👓 Блог-пост OpenAI | Блог-пост Anthropic
Диффузионные модели стали стандартом в генеративной графике. Они используются для генерации изображений, видео, аудио и даже 3D-сцен. Популярные примеры: Stable Diffusion, DALL-E 3, Sora.🔍 Как это работает Модель учится «размывать» изображение до шума (прямой процесс), а затем — восстанавливать его обратно (обратный процесс). Именно этот обратный путь используется при генерации новых изображений. 📦 Где взять готовую модель и быстро запустить Сервис Evolution ML Inference от Cloud․ru позволяет запускать диффузионные модели буквально за пару минут:
1️⃣ Выбираете модель из библиотеки Hugging Face 2️⃣ Запускаете ее в несколько кликов в Evolution ML InferenceДля этого не нужно писать код инференса или глубоко разбираться в ML. Попробуйте сами🖱
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
