Data Secrets
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN
نمایش بیشتر📈 تحلیل کانال تلگرام Data Secrets
کانال Data Secrets (@data_secrets) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 90 893 مشترک است و جایگاه 1 401 را در دسته فناوری و برنامهها و رتبه 6 182 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 90 893 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 01 ژوئیه, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 628 و در ۲۴ ساعت گذشته برابر 36 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید شده (به صورت رسمی توسط تلگرام)
- نرخ تعامل (ER): میانگین تعامل مخاطب 26.37% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 19.13% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 23 954 بازدید دریافت میکند. در اولین روز معمولاً 17 375 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 318 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند claude, openai, контекст, стартап, llm تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 02 ژوئیه, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
В принципе, учитывая, что такие компании-разработчики, как Microsoft, сами не производят никакого оборудования, их можно полностью моделировать с помощью ИИ.То есть: нет офисов, нет персонала. Вся компания – ИИ. Цель – полностью автоматизировать разработку ПО настолько, чтобы можно было конкурировать с гигантами. Короче смело, ничего не скажешь. Патентные заявки на торговую марку уже оформлены. Сейчас в xAI набирают сотрудников под это направление.
<context>Я начинающий разработчик ПО</context> <task>Объяснить что происходит в этом коде</task> <code> while True: i++ </code>Особенно полезно, когда у вас много контекста или много разных условий (ну, например, правил оформления кода). 3. Если вы с нуля пишете какой-то код или текст с GPT-5, полезно использовать в промптах тег <self-reflection> для того, чтобы GPT-5 оценивала сама себя. Примерно вот так:
<self_reflection> – Сначала продумай критерии оценки и убедись, что они подходят для задачи. – Проанализируй, что действительно должен делать этот код. На основе этого составь 5-6 критериев. Они должны быть максимально точными, но пользователю их не показывай. – Наконец, используй эти критерии, чтобы оценить свой ответ: подумай, как улучшить решение и доработай его. Если результат не набирает «высший балл» по всем пунктам, начни заново. </self_reflection>4. Если понимаете, что для вашей задачи высока вероятность галлюцинаций, добавляйте в промпты:
Скажи: «Я не знаю», если не можешь найти достоверных доказательств своих утверждений. Задавай мне уточняющие вопросы, пока не будешь уверен в своих ответах.cdn.openai.com/API/docs/gpt-5-for-coding-cheatsheet.pdf
Представим матрицу A, где строки – это запросы, а столбцы – документы, и на пересечении стоит 1, если документ релевантен, и 0 – если нет. Мы хотим, чтобы поиск на эмбеддингах воспроизводил именно такую матрицу «кто кому подходит». Тогда оценки похожести будут матрицей B = UᵀV, где U и V – это векторы запросов и документов в пространстве фиксированной размерности d. Но sign-rank матрицы (2A−1) может оказаться больше d, а это значит, что никакие d-мерные эмбеддинги не смогут построить B с правильными значениями. Формально: если sign-rank(A) > d, то корректное разделение релевантных и нерелевантных пар в таком пространстве просто невозможно, каким бы мегаумным ни был ваш эмбеддер.То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться. И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже. Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!). Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ. Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок 😐 Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval
– Reasoning-модели (OpenAI o3 и o4-mini, а также Claude 4) показали заметно более устойчивое поведение. Их сложнее «сломать» джейлбрейками, они лучше справлялись с тестами на элаймент и реже поддавались на провокации. – Классические чат-модели (GPT-4o, GPT-4.1) в ряде сценариев повели себя тревожно: помогали пользователям в потенциально опасных запросах вроде инструкций по наркотикам или оружию. – Почти у всех, кроме o3, проявилось sycophancy — склонность поддакивать даже тогда, когда пользователь явно уводит модель в сомнительные сценарии. – В Anthropic отметили, что их модели чаще отказываются отвечать в случае неопределённости, тогда как у OpenAI отказы редки — но риск галлюцинаций выше.Важно: тесты проводились в ослабленных условиях, без внешних фильтров и защитных слоёв. Целью было проверить «чистое» поведение моделей и выявить слабые места, которые в обычных настройках могут быть замаскированы. Ждем, когда кросс-тесты станут обязательным стандартом 👓 Блог-пост OpenAI | Блог-пост Anthropic
Диффузионные модели стали стандартом в генеративной графике. Они используются для генерации изображений, видео, аудио и даже 3D-сцен. Популярные примеры: Stable Diffusion, DALL-E 3, Sora.🔍 Как это работает Модель учится «размывать» изображение до шума (прямой процесс), а затем — восстанавливать его обратно (обратный процесс). Именно этот обратный путь используется при генерации новых изображений. 📦 Где взять готовую модель и быстро запустить Сервис Evolution ML Inference от Cloud․ru позволяет запускать диффузионные модели буквально за пару минут:
1️⃣ Выбираете модель из библиотеки Hugging Face 2️⃣ Запускаете ее в несколько кликов в Evolution ML InferenceДля этого не нужно писать код инференса или глубоко разбираться в ML. Попробуйте сами🖱
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
