ar
Feedback
Machine learning Interview

Machine learning Interview

الذهاب إلى القناة على Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Machine learning Interview

تُعد قناة Machine learning Interview (@machinelearning_interview) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 30 034 مشتركاً، محتلاً المرتبة 4 565 في فئة التكنولوجيات والتطبيقات والمرتبة 21 957 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 30 034 مشتركاً.

بحسب آخر البيانات بتاريخ 10 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار 23، وفي آخر 24 ساعة بمقدار -8، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 19.73‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 10.07‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 5 925 مشاهدة. وخلال اليوم الأول يجمع عادةً 3 024 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 41.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل claude, llm, контекст, hermes, nvidia.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 11 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

30 034
المشتركون
-824 ساعات
-297 أيام
+2330 أيام
أرشيف المشاركات
⚡️ NVIDIA представила Nemotron 3 Super и архитектура у модели очень необычная. Это модель на 120B параметров, но во время раб
⚡️ NVIDIA представила Nemotron 3 Super и архитектура у модели очень необычная. Это модель на 120B параметров, но во время работы активны только 12B. Такой результат достигается за счёт гибридной архитектуры Mamba + Transformer + MoE, которая позволяет получать высокую производительность при гораздо меньших вычислениях. Что особенно выделяется:контекстное окно до 1 миллиона токенов36 баллов в Artificial Analysis Intelligence Index — выше, чем у GPT-OSS-120B • примерно на 10% больше throughput на GPU • можно выбирать режим рассуждений: полный, облегчённый или отключённый — контролируя стоимость запроса • модель обучена с нуля в NVFP4 precision, что впервые используется в этой линейке • полностью открытые веса, данные и рецепты обучения — 83 балла в Openness Index Но самое интересное - стратегия NVIDIA. Компания больше не гонится за самыми большими моделями. Вместо этого ставка делается на максимальную эффективность. Всего 12B активных параметров на 2× H100 дают уровень reasoning, который сопоставим с моделями, имеющими в 3–8 раз больше активных параметров. Модель уже доступна на DeepInfra и Lightning AI со скоростью до 484 токенов в секунду. https://artificialanalysis.ai/models/nvidia-nemotron-3-super-120b-a12b

Repost from Machinelearning
⚡️ Иран объявил дата-центры Google, Microsoft и NVIDIA легитимными военными целями. Связанное с КСИР иранское агентство Tasnim опубликовало список объектов для возможных будущих ударов. В него впервые официально вошла ближневосточная инфраструктура американских IT-гигантов: Google, Amazon, Microsoft, NVIDIA, IBM и Oracle. Под угрозой оказались региональные офисы компаний, дата-центры и исследовательские лаборатории. Иранская сторона объясняет этот шаг тем, что вычислительная инфраструктура корпораций тесно связана с военными и экономическими операциями США и Израиля. По заявлению агентства, текущие региональные конфликты перерастают в полноценные инфраструктурные войны, в связи с чем список потенциальных IT-мишеней будет постепенно расширяться. aljazeera.com ✔️ Microsoft вступилась за Anthropic в споре с Пентагоном. Корпорация подала ходатайство в суд Сан-Франциско в поддержку Anthropic, который Министерство обороны США признало угрозой для цепочек поставок. Microsoft просит суд заморозить решение Пентагона и наложить временный запрет на блокировку текущих государственных контрактов. По заявлению Microsoft, немедленный запрет на использование технологий Anthropic вынудит IT-компании экстренно перестраивать архитектуру своих продуктов. Это грозит серьезными сбоями в работе ИИ-инструментов, которые уже внедрены и активно используются американскими военными. Временная отсрочка позволит избежать хаоса и обеспечит более безопасный переходный период для оборонного ведомства. Действия Microsoft продиктованы прямым финансовым интересом. В ноябре корпорация объявила о планах вложить в Anthropic до 5 млрд. долларов, параллельно оставаясь ключевым инвестором их главного конкурента - OpenAI. cnbc.com ✔️ NVIDIA выпустила открытую модель Nemotron 3 Super. Модель на 120В на архитектуре МоЕ с 12 млрд. активных параметров была создана специально для автономных агентов, выполняющих сложные многоступенчатые задачи. Под капотом гибрид из слоев Mamba, которые экономят память, и классических трансформеров, отвечающих за глубокий логический вывод. Модель получила контекстное окно на 1 млн. токенов. Дополнительно внедрена функция мульти-токеновой генерации, ускоряющая выдачу результатов в 3 раза. Nemotron 3 Super под открытой лицензией NVIDIA доступна на HuggingFace. Ее интеграцию уже начали Perplexity, Palantir, Siemens и другие крупные IT-компании. developer.nvidia.com ✔️ Perplexity анонсировала автономную ИИ-систему на базе Mac mini. ИИ-поисковик предложил концепцию агента, который работает круглосуточно без участия пользователя. Personal Computer интегрируется с локальными файлами и приложениями на выделенном Mac mini, автономно выполняя сложные рабочие процессы. Система построена на гибридной архитектуре: взаимодействие с десктопом происходит локально, а тяжелые вычисления перенесены на серверы Perplexity. Ядро платформы - собственный движок оркестрации, который автоматически переключается между передовыми моделями для решения задач. Контролировать ИИ-помощника можно удаленно с любого устройства. Особое внимание уделили безопасности: внедрены функция экстренного отключения, ведение детального аудита всех сессий и ручное подтверждение для чувствительных действий системы. Записаться в лист ожидания проекта можно по ссылке. PerplexityAI в сети Х ✔️ Anthropic запустила свой исследовательский институт. Новое аналитическое подразделение Anthropic Institute займется изучением глобального влияния ИИ на экономику, безопасность и общество. Возглавил инициативу сооснователь стартапа Джек Кларк. Институт сфокусируется на трансформации рынка труда, рисках злоупотребления технологиями, а также на механизмах сохранения человеческого контроля над саморазвивающимися ИИ-системами. В команду вошли около 30 специалистов из существующих отделов Anthropic, включая группу стресс-тестирования Frontier Red Team. К проекту уже присоединились бывшие исследователи из Google DeepMind и OpenAI. anthropic.com @ai_machinelearning_big_data #news #ai #ml

NVIDIA: LLM получат “память как у человека” и начнут учиться прямо во время ответа 🔥 NVIDIA выпустили очень сильный материал
NVIDIA: LLM получат “память как у человека” и начнут учиться прямо во время ответа 🔥 NVIDIA выпустили очень сильный материал: Reimagining LLM Memory: Using Context as Training Data Unlocks Models That Learn at Test-Time Суть проблемы: мы постоянно слышим про 128K / 1M токенов контекста… но в реальности LLM всё равно: - повторяют ошибки - забывают важные детали - требуют “скинь весь контекст заново” И вот что предлагают NVIDIA: Контекст = обучающие данные Обычный трансформер читает контекст как “текст”. NVIDIA предлагают читать его как данные для обучения. То есть модель не просто смотрит на историю — а компрессит её в свои веса через next-token prediction. Этот подход называется: TTT-E2E (Test-Time Training End-to-End) Почему это прорыв Фактически это новая форма памяти: модель может адаптироваться внутри одной сессии и “становиться умнее” прямо во время выполнения задачи. Главный кайф: скорость на длинном контексте TTT-E2E даёт постоянную стоимость инференса (без взрыва по latency), поэтому при длинных окнах это очень выгодно: - ~2.7x быстрее, чем full attention на 128K токенов - ~35x быстрее на 2M токенов (H100) Как это меняет RAG Классический RAG: “ищем в базе → вставляем в контекст → читаем”. TTT: “прочитали → и записали опыт внутрь модели”. То есть это ближе к тому, как работает человек: мы не держим всё в голове дословно — мы обновляем мозг опытом. Вывод: контекстные окна будут расти, но настоящая “память” LLM — это модели, которые умеют учиться на контексте в моменте. И NVIDIA прямо сейчас толкают индустрию в эту сторону. https://developer.nvidia.com/blog/reimagining-llm-memory-using-context-as-training-data-unlocks-models-that-learn-at-test-time/

Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователе
Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователем, даже когда тот неправ. Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini. Результат оказался одинаковым для всех. Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек. Это значит, что когда люди спрашивают AI о: - конфликте с партнёром - проблемах на работе - сложных личных решениях модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать. Исследователи заметили и более тревожный эффект. Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её. Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI. Одной группе дали “угождающую” модель (sycophantic AI), другой — нейтральную. Результат: люди, общавшиеся с угождающей моделью, стали - реже извиняться - реже идти на компромисс - хуже видеть позицию другого человека AI фактически усиливал их собственные предубеждения. Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей. Это создаёт опасный цикл: пользователи предпочитают AI, который говорит им, что они правы → компании оптимизируют модели под удовлетворённость пользователей → модели становятся ещё более льстивыми → люди всё меньше склонны к саморефлексии. Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях. И слишком часто получают один и тот же ответ: “Ты прав.” Даже когда это не так. https://arxiv.org/abs/2510.01395

⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую у
+1
⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую управлять интерфейсами: desktop, мобильными приложениями и браузером. Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI. Доступно 6 размеров моделей: • 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought) • 8B / 32B Thinking — более сильное планирование и reasoning По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов: • OSWorld-Verified — 56.5 (32B-Instruct) • AndroidWorld — 71.6 (8B-Thinking) • VisualWebArena — 46.6 • WebArena — 48.4 (32B-Thinking) • ScreenSpot-Pro — 80.3 с двухэтапным crop refine • OSWorld-MCP — 47.6 • MobileWorld — 46.8 Архитектура обучения строится на трех ключевых идеях: • Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов • Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг • MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse Фактически это еще один шаг к полностью автономным AI-агентам, которые могут работать с интерфейсами так же, как человек. Models: modelscope.cn/models/iic/GUI-Owl-1.5-8B-Instruct GitHub: github.com/X-PLUG/MobileAgent

DeepSeek продолжает постоянно обновлять модель, которая сейчас используется в их веб-версии и приложении. По словам пользоват
DeepSeek продолжает постоянно обновлять модель, которая сейчас используется в их веб-версии и приложении. По словам пользователя на одном из китайских форумов, за последние несколько дней модель заметно улучшилась в задачах по математике и программированию на его собственном бенчмарке. Некоторые пользователи также отмечают, что модель стала лучше справляться с генерацией воксельных структур. Похоже, DeepSeek обновляет модель в продакшене почти в реальном времени, постепенно улучшая её качество без громких официальных релизов.

Модель с триллионом параметров буквально «удалила половину своего мозга» и стала умнее. Yuan3.0 Ultra**-— новая open-source м
Модель с триллионом параметров буквально «удалила половину своего мозга» и стала умнее. Yuan3.0 Ultra**-— новая open-source мультимодальная **MoE-модель от Yuan Lab. Всего 1010 млрд параметров, но при инференсе активны только 68.8 млрд. На бенчмарках RAG она обошла GPT-5.2, Gemini 3.1 Pro и Claude Opus 4.6 с заметным отрывом. Например: - 67.4% на Docmatix против 56.8% у GPT-4o Что умеет модель: - Enterprise RAG - 68.2% средней точности на 10 задачах поиска - Анализ сложных таблиц - 62.3% на бенчмарке MMTab - Text-to-SQL - 83.9% на Spider 1.0 - Мультимодальный анализ документов с контекстом 64K Ключевая инновация — Layer-Adaptive Expert Pruning (LAEP). Во время предобучения у MoE возникает сильный дисбаланс: некоторые эксперты получают в 500 раз больше токенов, чем другие. LAEP постепенно удаляет малоиспользуемых экспертов слой за слоем, что позволяет: - сократить 33% параметров - увеличить эффективность обучения на 49% Также исследователи улучшили метод “fast-thinking” RL. Теперь система больше награждает ответы, которые: - правильные - используют меньше шагов рассуждения Это позволило: - уменьшить количество выходных токенов на 14.38% - повысить точность на 16.33% Главный сигнал из этого исследования: MoE-модели начинают сжимать себя прямо во время обучения, а не после. Если pruning станет частью pretraining, стоимость обучения триллионных моделей может резко снизиться. https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

🖥 Большинство “парсеров” умирают через 2 дня. Ты научишься делать те, которые живут в проде. Это не про BeautifulSoup ради г
🖥 Большинство “парсеров” умирают через 2 дня. Ты научишься делать те, которые живут в проде. Это не про BeautifulSoup ради галочки. Это про системы сбора данных, которые: • не падают от мелких правок на сайте • собирают данные в разы быстрее • обновляют всё сами по расписанию • обходят ограничения и баны • выглядят как сервис, а не хаос из файлов Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться. В итоге ты сможешь: • забирать данные для своих проектов • автоматизировать чужую рутину • делать инструменты для аналитики • брать коммерческие заказы на сбор данных Это навык, который напрямую превращается в деньги. Не “знаю Python”, а умею добывать данные из интернета профессионально. 🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

photo content

+2
Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели. Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей. Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных. Исследователи предложили метод Bayesian Teaching: модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях. Что получилось: - LLM начинают лучше обновлять свои предположения, когда получают новую информацию. - Навык переносится на другие задачи, даже если модель обучали на одном типе задач. - Улучшается принятие решений в условиях неопределённости. Например, после такого обучения модель, обученная на задаче рекомендаций авиаперелётов, смогла применять тот же принцип рассуждений к выбору отелей и даже к онлайн-шопингу, хотя эти задачи сложнее и для них трудно задать точную байесовскую модель. Главный вывод исследования: LLM можно учить стратегиям рассуждения, а не только фактам. И если обучить модель копировать правильную логику (например, байесовскую), она может переносить этот способ мышления на новые задачи. https://research.google/blog/teaching-llms-to-reason-like-bayesians/

C

photo content

⚡️ Claude Code для Уолл-стрит Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исслед
⚡️ Claude Code для Уолл-стрит Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исследование компании без участия человека. Вы задаёте вопрос, например: *NVIDIA недооценена по DCF?* Дальше система работает сама: - строит план исследования - подтягивает актуальные рыночные данные - загружает финансовую отчётность за 5 лет - считает ключевые метрики и мультипликаторы - проверяет свои же расчёты на ошибки - формирует итоговый инвестиционный вывод И всё это — автономно. Как это устроено: Dexter разбивает задачу на несколько этапов: - получает текущие цены - анализирует исторические P/E - сравнивает с отраслевыми значениями - проводит оценку (включая DCF) - проверяет согласованность данных - собирает всё в финальный аналитический тезис Внутри — несколько агентов: - один планирует исследование - второй выполняет сбор и расчёты - третий проверяет корректность цифр - четвёртый пишет итоговый отчёт Система умеет: - читать отчёты SEC (10-K, 10-Q, 8-K) - работать с реальными финансовыми метриками - делать полноценную DCF-оценку По сути, это как команда аналитиков: один ставит задачи, второй ищет данные, третий проверяет расчёты, четвёртый пишет отчёт. Только вся команда - это AI, и запускается прямо в терминале. https://github.com/virattt/dexter

💼 Бизнес-ужин для тех, кто запускает ИИ-проекты или только планирует это сделать На встрече команда провайдера ИТ-инфраструк
💼 Бизнес-ужин для тех, кто запускает ИИ-проекты или только планирует это сделать На встрече команда провайдера ИТ-инфраструктуры Selectel: • поделится трендами и вызовами в машинном обучении; • объяснит, как инференс превращает модели в деньги; • презентует инфраструктурные продукты для запуска ИИ-проектов. 👥Для собственников бизнеса, топ-менеджеров, технических директоров и ML-специалистов 🗓 18 марта, 19:00 📍Новосибирск Смотрите полную программу и регистрируйтесь: https://slc.tl/2wqj0 Участие бесплатное, но нужно дождаться подтверждения вашей регистрации Реклама. АО "Селектел". erid:2W5zFJBzqEh

⚡️ Liquid AI представила LFM2.5-1.2B-Thinking - компактную reasoning-модель на 1.17 млрд параметров, которая работает менее ч
⚡️ Liquid AI представила LFM2.5-1.2B-Thinking - компактную reasoning-модель на 1.17 млрд параметров, которая работает менее чем на 900 МБ RAM и примерно в 2 раза быстрее сопоставимых моделей. Модель ориентирована на небольшие устройства и edge-сценарии: • конкурентные результаты на reasoning-бенчмарках • подходит для агентных систем • умеет оркестрировать инструменты • извлекает данные • запускает локальные workflow без облачных вычислений Это ещё один шаг к тому, чтобы умные агенты жили прямо на устройстве - быстро, автономно и без зависимости от cloud-API. https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb

Repost from Machinelearning
🌟 GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами. Microsoft, UIUC и UNC-Chapel Hill разработали с
+3
🌟 GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами. Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами. Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:
Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса). Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.
🟡 Для решения первой проблемы предложили Action-Aware SFT Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика. 🟡Для второй - Conservative RL на базе GRPO с двумя дополнениями. KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий. 🟡Для трейна собрали датасет GUI-Libra-81K. Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных. Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B. 🟡Результаты Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld. GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей. Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Набор датасетов 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #GUILibra #Microsoft

📌 Microsoft Research и Salesforce показали проблему, о которой редко говорят: диалог резко снижает надёжность LLM. В исследо
📌 Microsoft Research и Salesforce показали проблему, о которой редко говорят: диалог резко снижает надёжность LLM. В исследовании протестировали 15 топ-моделей (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) на 200 000+ симулированных разговоров. Результат: - Один запрос → ~90% качества - Многотуровый диалог → ~65% Важно: дело не в «умности» модели. Способность решать задачи снизилась всего на ~15%. Главная проблема — надёжность: количество ошибок и сбоев выросло на 112%. Почему диалог ломает модели: - Модель начинает отвечать до того, как вы дали полный контекст - Первое неверное предположение закрепляется и тянется дальше - Теряется часть информации из середины разговора - Длинные ответы добавляют новые допущения → растёт вероятность ошибок Что не помогает: - reasoning-модели (o3, DeepSeek R1) - больше «thinking tokens» - температура = 0 Практический вывод: Если нужна стабильность, давайте весь контекст, требования и ограничения одним сообщением, а не через длинную переписку. Большинство бенчмарков тестирует single-turn в идеальных условиях. В реальных диалогах надёжность падает у всех моделей и это критично для AI-агентов и продакшена. https://arxiv.org/abs/2505.06120

Как развернуть приватную LLM в Kubernetes Selectel приглашает на вебинар, где покажут, весь путь до готового интерфейса, наст
Как развернуть приватную LLM в Kubernetes Selectel приглашает на вебинар, где покажут, весь путь до готового интерфейса, настройки мониторинга, распределенных моделей, интеграции и даже автоматизации инфраструктуры. 📅 12 марта, 12:00 📍Онлайн 👥Для DevOps и SRE-инженеров, Архитекторов и менеджеров ИТ-инфраструктуры. 👉Смотрите полную программу и регистрируйтесь: https://slc.tl/ak8d6 Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events Реклама. АО "Селектел". erid:2W5zFGuQF4d

ByteDance выпустила новую open-source модель для генерации изображений. По первым отзывам, она показывает результаты лучше, ч
ByteDance выпустила новую open-source модель для генерации изображений. По первым отзывам, она показывает результаты лучше, чем Qwen-Image и Z-Image. Главная особенность — модель работает в autoregressive-режиме. Это означает, что изображение создаётся поэтапно, как текст в LLM, а не одним «шумовым» проходом, как в диффузионных моделях. Такой подход даёт: - лучшее понимание сцены и объектов - более логичную композицию - стабильность персонажей и деталей - более «осмысленную» генерацию Похожий принцип уже используют современные системы вроде GPT-Image и других новых генераторов. GitHub: https://github.com/shallowdream204/BitDance

📌 Tencent выпустил новую open-source модель WeDLM-8B-Instruct : WeDLM-8B-Instruct: модель на ~8 млрд параметров, настроенная
+1
📌 Tencent выпустил новую open-source модель WeDLM-8B-Instruct : WeDLM-8B-Instruct: модель на ~8 млрд параметров, настроенная для диалогов и выполнения команд. Работает быстрее многих авто-регрессионных моделей и хорошо подходит для практических задач. 🚀 Плюсы - параллельная генерация — меньше задержек - поддержка KV-кэша и современных оптимизаций - в ряде задач быстрее аналогов (до 3–6× на бенчмарках) 📊 Производительность Модель показывает уверенные результаты на бенчмарках по логике, коду и знаниям, опережая базовые версии в своём классе. 📌 Характеристики - 8B параметров - контекст до 32 768 токенов - лицензия Apache-2.0 🔧 Как начать Можно запускать через собственный движок WeDLM или через стандартный Transformers API. 👉 Подходит тем, кто хочет быстро и локально развернуть мощную LLM. Ссылка: https://huggingface.co/tencent/WeDLM-8B-Instruct