Machine learning Interview

前往频道在 Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

显示更多

网络:Machinelearning 俄罗斯21 939 技术与应用4 569...

📈 Telegram 频道 Machine learning Interview 的分析概览

频道 Machine learning Interview (@machinelearning_interview) 俄语语言赛道中的是活跃参与者。目前社区聚集了 30 037 名订阅者，在 技术与应用 类别中位列第 4 569，并在 俄罗斯 地区排名第 21 939 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 30 037 名订阅者。

根据 11 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 39，过去 24 小时变化为 8，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 18.49%。内容发布后 24 小时内通常能获得 8.84% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 5 554 次浏览，首日通常累积 2 656 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 39。
主题关注点： 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

凭借高频更新（最新数据采集于 12 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

30 037

订阅者

+824 小时

-117 天

+3930 天

5 554

帖子浏览量

~ 2 65624 小时

~ 3 84048 小时

18.49%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

30 036

🧠 Интеллектуальный маршрутизатор для LLM Semantic Router направляет запросы к OpenAI API на основе семантического понимания, выбирая наиболее подходящие модели из пула. Использует классификацию BERT для повышения точности вывода и предлагает функции безопасности, такие как обнаружение PII и защита от jailbreak. 🚀 Основные моменты: - Авто-выбор моделей для оптимизации запросов - Инструменты выбора на основе контекста запроса - Обнаружение и защита от PII - Кэширование семантических представлений для ускорения обработки 📌 GitHub: https://github.com/vllm-project/semantic-router #python

30 036

Как выбрать IT-инфраструктуру для ML и как внедрить MLOps? Реальные бизнес-кейсы Присоединяйтесь к Selectel Tech Day 8 октября, чтобы узнать о лучших практиках масштабирования ML-проектов и актуальных трендах инфраструктурного ML. На отдельном ML-треке обсудят: 🔺Как превратить экспериментальные модели в стабильные продакшн-системы. 🔺Как оценить эффективность внедрения ML-решений. 🔺Какая инфраструктура закроет все потребности ML-проектов. Вас ждет насыщенная программа: содержательные доклады, экспертная дискуссия и воркшоп. Участие бесплатное, нужно только зарегистрироваться → Реклама. АО "Селектел". erid:2W5zFGUvC1W

30 036

🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить. 📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой. Как это устроено: 1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями. 2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так. 📊 Результаты: - У Llama-3-8B точность выросла с 28% до 94% на задачах планирования. - Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно». 💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку. ⚡ Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения. 🟠Статья: https://arxiv.org/abs/2509.13351

30 036

🚀 Подборка свежих моделей и датасетов на Hugging Face (16 сентября) Здесь интересные релизы из разных областей: текст, аудио, изображения и даже видео. ✨ Модели: - https://huggingface.co/ibm-granite/granite-docling-258M — универсальный инструмент для работы с документами (конвертация и Q&A). - https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base — мощная аудио-модель для понимания и генерации. - https://huggingface.co/OpenGVLab/ScaleCUA-3B — мультимодальная модель (картинка → текст). - https://huggingface.co/decart-ai/Lucy-Edit-Dev — модель для редактирования видео. - https://huggingface.co/inclusionAI/Ling-flash-2.0 — текстовая модель на 103B параметров. Эта подборка удобна, чтобы быстро посмотреть, что вышло нового и полезного за последние дни. 🔗 Полный список доступен здесь: https://huggingface.co/collections/merve/sep-16-releases-68d13ea4c547f02f95842f05

30 036

Repost from Machinelearning

🐳 А вот и обновленная DeepSeek-V3.1-Terminus Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией. Доступна в приложении и в веб-версии и через API. 🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus @ai_machinelearning_big_data #DeepSeek #opensource #llm

30 036

🚀 DeepFaceLab — главный open-source инструмент для создания deepfake-видео 📌 Факты: - Более 95% всех deepfake сделаны через DeepFaceLab - Поддержка Windows, Linux и Google Colab - Основан на TensorFlow, с гибкой модульной архитектурой - Реалистичные результаты — уровень киноэффектов - Репозиторий получил 18.5k⭐ и 669 форков - С ноября 2024 проект в архиве, но доступен для изучения Автор: iperov — один из первых разработчиков, сделавших face-swap доступным для всех. 🔗 Репозиторий: https://github.com/iperov/DeepFaceLab 💡 Используй для обучения, экспериментов и ресерча — это основа всех современных deepfake-технологий.

30 036

⚡️ Kyvo — новая универсальная модель от Caltech Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ. 🔍 Что делает Kyvo - Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение. - Объединяет текст, изображения и 3D в одно общее представление. - Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции. - Использует специальные кодировки для более точного восстановления форм объектов. 🧪 На чём проверяли - Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes. - Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы. ✅ Чем интересна: - Универсальность: одна модель - много задач и форматов данных. - Гибкость: одинаково хорошо работает и в генерации, и в понимании. - Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D. 🔗 Ссылки - Статья на arXiv: https://arxiv.org/abs/2506.08002 - Проект: https://glab-caltech.github.io/kyvo/ - GitHub: https://github.com/glab-caltech/kyvo

30 036

🆕 PDF Arranger — лёгкий и удобный инструмент для работы с PDF. ✨ Возможности: - Объединение и разделение файлов - Поворот и обрезка страниц - Перестановка и удаление страниц - Интуитивный drag-and-drop интерфейс 💻 Доступен для Linux, Windows (включая портативную версию) и BSD. Полностью опенсорс (GPL-3.0). Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек. 📌 GitHub #PDF #opensource #Linux #devtools @machinelearning_interview

30 036

⚡️SQL на собеседованиях: где тренироваться Принесли вам отличный ресурс, который собрал огромное количество практических задач по SQL. Там можно найти всё: от базовых упражнений до сложных вопросов, включая отдельный блок с заданиями от FAANG. Но самое ценное здесь не сами вопросы, а структура подачи: - Формулировка задачи в формате собеседования - Подробное решение с объяснением - Встроенный редактор, чтобы попробовать свои силы прямо на месте И главное — доступ полностью бесплатный. Начать тренироваться

30 036

🧰 Исследователи Microsoft изучили, как агенты работают с Model Context Protocol (MCP), и выявили проблему: когда инструментов слишком много, агенты начинают мешать друг другу. 💡 Это назвали tool-space interference. Как проявляется: - перегруженные меню инструментов - чрезмерно большие выходные данные - запутанные параметры - дублирующиеся названия - расплывчатые ошибки 📉 В исследовании: - Некоторые серверы предлагали до 256 инструментов, хотя оптимально — меньше 20. При больших меню точность падала на 85%. - Один инструмент выдавал в среднем 557,766 токенов за ответ, 16 инструментов возвращали более 128,000 токенов. Это ломало модели и снижало точность на 91%. - Сильно вложенные параметры (до 20 уровней) мешали работе. При «разглаживании» схем успех вырастал на 47%. - Обнаружено 775 дублирующихся названий инструментов, слово «search» встречалось в 32 серверах. ✅ Решения от Microsoft: - группировать инструменты в меньшие наборы - кэшировать схемы - использовать namespaces для уникальных названий - ограничивать размер ответов и упрощать параметры - стандартизировать ошибки и поддерживать передачу ресурсов 📊 В отчётах видно, что умное использование неймспейсов ускоряло выполнение задач на 40%. Вывод: меньше инструментов, чище параметры и структурированные ответы = агенты начинают сотрудничать, а не путаться друг у друга под ногами. https://www.microsoft.com/en-us/research/blog/tool-space-interference-in-the-mcp-era-designing-for-agent-compatibility-at-scale/

30 036

⚡️ Tongyi DeepResearch показал, что AI-агенты способны выполнять реальную исследовательскую работу на синтетических данных. Результаты: - Humanity’s Last Exam (HLE): 32.9% в академических задачах на рассуждение - BrowseComp: 43.4% в сложных задачах веб-исследований - Китайский вариант: 46.7% - xbench-DeepSearch: 75% в пользовательских поисковых задачах Это снижает затраты, повышает доступность и открывает новые сферы применения — от науки и права до навигации. 🔗 Homepage: https://tongyi-agent.github.io 🔗 Blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/ 🔗 Model HuggingFace: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B 🔗 Model ModelScope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B 🔗 GitHub Repo: https://github.com/Alibaba-NLP/DeepResearch #AI #DeepResearch #Tongyi #agents #syntheticdata

30 036

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально. SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле. Как это работает: - Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью. - Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения. - Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO). - Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных. - Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений. Подробнее: 🟢Проект: https://tencent.github.io/srpo-project-page/ 🟢Статья: https://arxiv.org/abs/2509.06942 🟢Модель: https://huggingface.co/tencent/SRPO 🟢Код: https://github.com/Tencent-Hunyuan/SRPO @machinelearning_interview #SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

30 036

🚀 ИИ ускоряет кодинг, но стопорится на людях ИИ уже заметно меняет работу команд разработчиков: они закрывают на 21% больше задач и мёржат на 98% больше pull request’ов. Но есть проблема: время на ревью выросло на 91%. Получается, что главный тормоз теперь — человеческое одобрение кода. Пока процессы проверки, тестирования и релизов остаются старыми, весь выигрыш от ИИ сводится на нет. Это и есть закон Амдала в действии: система движется только со скоростью своего самого медленного звена. Чтобы ИИ реально раскрыл потенциал в разработке, нужно модернизировать весь цикл разработки, а не только генерацию кода. 🔗 Подробнее: https://faros.ai/blog/ai-software-engineering

30 036

Интегрируй ML-модель в продакшн без боли и ошибок! Практикум для разработчиков и ML-инженеров, которые устали от «экспериментов в Jupyter» и хотят переходить к реальным решениям! 16 сентября в 19:00 приглашаем на встречу по интеграции моделей с внешним миром и написанию API вместе с экспертом Игорем Стурейко — разработчиком модели прогнозирования технического состояния газотранспортной системы ПАО Газпром. На практикуме вы: 👨‍💻перенесёте модель из Jupyter notebook в полноценный Python-класс 👨‍💻создадите API и подготовите эндпоинты 👨‍💻напишете валидатор для входящих параметров 👨‍💻протестируете работу модели как отдельного сервиса. Все участники получают 7% скидку на любой курс OTUS + бонус: карьерные треки для ML-специалистов Записывайся на практикум: https://tglink.io/f23f042d888d Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJKYFGC

30 036

🇫🇷 Интервью Артура Менша (CEO и сооснователя Mistral AI) Ключевые моменты: - Крупное финансирование: Mistral привлекла €1.7 млрд, из них €1.3 млрд вложила ASML. Оценка компании превысила €10 млрд. - Стратегический альянс: партнёрство с ASML направлено на повышение точности литографических машин. ИИ будет использоваться в производстве полупроводников, включая управление плазмой и другие критичные процессы. - Модель бизнеса: - базовые модели остаются open source, - доход строится на корпоративных продуктах, консалтинге и облачной инфраструктуре. - Использование капитала: новые средства пойдут на масштабирование вычислений во Франции и международное развитие. - Принципы и ценности: Mistral подчёркивает независимость, развитие европейского ИИ в сотрудничестве с индустриальными чемпионами, прозрачность в управлении пользовательской памятью. В интервью звучит критика «пассивного UX» и концентрации доступа к информации в руках нескольких американских платформ. ⚡ Mistral позиционирует себя как флагман европейского ИИ с глобальными амбициями. youtube.com/watch?v=bvX5m4wRiZM

30 036

🎉 Победители розыгрыша: 1. Санёк (@ZDAR7777)

30 036

❓ Как большие языковые модели могут избежать катастрофического забывания во время файнтюнига? Ответы пишите в комменариях👇 🤔 Проблема Катастрофическое забывание возникает, когда модель во время дообучения на новых данных теряет уже выученные знания. Ещё хуже ситуация с коллапсом модели — когда в датасет начинают попадать тексты, сгенерированные самой LLM: это искажает данные, стирает редкие примеры и усиливает ошибки. ✅ Подходы на практике: 1️⃣ LoRA / параметро-эффективное дообучение: - Обновляются не все веса, а только адаптеры. - Это снижает риск забывания базовых знаний, сохраняя при этом гибкость для дообучения. 2️⃣Dynamic replay / rehearsal (динамическое повторное смешивание) - К кастомному датасету подмешивают данные из предобучения. - Обычно берут в 2–3 раза больше примеров из базового корпуса. - Так сохраняется «фон» общих знаний модели. 3️⃣ Dataset mixing (смешивание датасетов) - Не дают модели «зарыться» в узкий домен. - Сочетание специализированных и базовых данных удерживает баланс. 4️⃣ Variation across epochs (вариативность между эпохами) - На каждой эпохе берут новые сэмплы из предобученного корпуса. - Это повышает разнообразие и снижает риск переобучения к конкретному подмножеству. 📌 Как ответить на собеседовании «Чтобы избежать забывания, используют LoRA (параметро-эффективное дообучение), динамический replay с базовыми данными (в пропорции 1:2 или 1:3), а также варьируют сэмплы из pretrain-корпуса между эпохами. Это сохраняет старые знания и даёт гибкость для новых». @machinelearning_interview #AI #LLM #MachineLearning #Forgetting #FineTuning

30 036

🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**. Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти: - чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов), - данные приходится постоянно хранить и перегонять, - у GPU вычисления быстрые, но пропускная способность памяти ограничена. Новый метод XQuant предлагает интересное решение: * Что делает XQuant** Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V). ⚡️Этот X: - меньше по размеру, - лучше сжимается (легко квантовать до низких бит). При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения. При генерации токенов Keys и Values просто пересчитываются из X. Это дает: ✔️ Экономию памяти в 2 раза ✔️ Точность модели почти без потерь качесва XQuant-CL - это улучшенная версия - Хранит только небольшие разницы между слоями, так как они очень похожи. - Экономия достигает 10–12.5x. - Потеря качества минимальна: всего 0.01–0.1 perplexity. ➡️ Результаты - В 10–12.5 раз меньше памяти, чем FP16 - Точность близка к FP16 - Превосходит лучшие методы квантования KV cache XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново». Современные GPU умеют считать быстрее, чем работать с памятью. Поэтому лучше чуть больше считать, но значительно меньше хранить. 📌 Подробнее: https://arxiv.org/abs/2508.10395

30 036

🐍 Изучаем MCP на Python — серия уроков от Microsoft Пошаговое руководство для Python-разработчиков по Model Context Protocol (MCP): как понять концепцию и построить свой MCP-сервер в интерактивном формате. 📚 Репозиторий с гайдом #python #MCP #tutorial #developers

30 036

Не все баги чинятся Ctrl+Z! 😅 Но если рядом — правильная команда, а на экране — продуманный до мелочей код, который решит любые таски, то всё реально. Сбер поможет и с классными коллегами, и с интересными задачами — здесь все открытые вакансии. А здесь поздравление от Сбера: team.congratulate("С Днём программиста! 💚”)