Machine learning Interview

رفتن به کانال در Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

نمایش بیشتر

شبکه:Machinelearning روسيا21 939 فناوری و برنامه‌ها4 569...

📈 تحلیل کانال تلگرام Machine learning Interview

کانال Machine learning Interview (@machinelearning_interview) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 30 037 مشترک است و جایگاه 4 569 را در دسته فناوری و برنامه‌ها و رتبه 21 939 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 30 037 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 11 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 39 و در ۲۴ ساعت گذشته برابر 8 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 18.49% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 8.84% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 5 554 بازدید دریافت می‌کند. در اولین روز معمولاً 2 656 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 39 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند claude, llm, контекст, hermes, nvidia تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 12 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

30 037

مشترکین

+824 ساعت

-117 روز

+3930 روز

5 554

نمایش های پست

~ 2 65624 ساعت

~ 3 84048 ساعت

18.49%

نرخ مشارکت

~ 1

پست های در روز

Ads index

beta

آرشیو پست ها

30 036

🧠 Интеллектуальный маршрутизатор для LLM Semantic Router направляет запросы к OpenAI API на основе семантического понимания, выбирая наиболее подходящие модели из пула. Использует классификацию BERT для повышения точности вывода и предлагает функции безопасности, такие как обнаружение PII и защита от jailbreak. 🚀 Основные моменты: - Авто-выбор моделей для оптимизации запросов - Инструменты выбора на основе контекста запроса - Обнаружение и защита от PII - Кэширование семантических представлений для ускорения обработки 📌 GitHub: https://github.com/vllm-project/semantic-router #python

30 036

Как выбрать IT-инфраструктуру для ML и как внедрить MLOps? Реальные бизнес-кейсы Присоединяйтесь к Selectel Tech Day 8 октября, чтобы узнать о лучших практиках масштабирования ML-проектов и актуальных трендах инфраструктурного ML. На отдельном ML-треке обсудят: 🔺Как превратить экспериментальные модели в стабильные продакшн-системы. 🔺Как оценить эффективность внедрения ML-решений. 🔺Какая инфраструктура закроет все потребности ML-проектов. Вас ждет насыщенная программа: содержательные доклады, экспертная дискуссия и воркшоп. Участие бесплатное, нужно только зарегистрироваться → Реклама. АО "Селектел". erid:2W5zFGUvC1W

30 036

🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить. 📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой. Как это устроено: 1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями. 2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так. 📊 Результаты: - У Llama-3-8B точность выросла с 28% до 94% на задачах планирования. - Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно». 💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку. ⚡ Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения. 🟠Статья: https://arxiv.org/abs/2509.13351

30 036

🚀 Подборка свежих моделей и датасетов на Hugging Face (16 сентября) Здесь интересные релизы из разных областей: текст, аудио, изображения и даже видео. ✨ Модели: - https://huggingface.co/ibm-granite/granite-docling-258M — универсальный инструмент для работы с документами (конвертация и Q&A). - https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base — мощная аудио-модель для понимания и генерации. - https://huggingface.co/OpenGVLab/ScaleCUA-3B — мультимодальная модель (картинка → текст). - https://huggingface.co/decart-ai/Lucy-Edit-Dev — модель для редактирования видео. - https://huggingface.co/inclusionAI/Ling-flash-2.0 — текстовая модель на 103B параметров. Эта подборка удобна, чтобы быстро посмотреть, что вышло нового и полезного за последние дни. 🔗 Полный список доступен здесь: https://huggingface.co/collections/merve/sep-16-releases-68d13ea4c547f02f95842f05

30 036

Repost from Machinelearning

🐳 А вот и обновленная DeepSeek-V3.1-Terminus Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией. Доступна в приложении и в веб-версии и через API. 🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus @ai_machinelearning_big_data #DeepSeek #opensource #llm

30 036

🚀 DeepFaceLab — главный open-source инструмент для создания deepfake-видео 📌 Факты: - Более 95% всех deepfake сделаны через DeepFaceLab - Поддержка Windows, Linux и Google Colab - Основан на TensorFlow, с гибкой модульной архитектурой - Реалистичные результаты — уровень киноэффектов - Репозиторий получил 18.5k⭐ и 669 форков - С ноября 2024 проект в архиве, но доступен для изучения Автор: iperov — один из первых разработчиков, сделавших face-swap доступным для всех. 🔗 Репозиторий: https://github.com/iperov/DeepFaceLab 💡 Используй для обучения, экспериментов и ресерча — это основа всех современных deepfake-технологий.

30 036

⚡️ Kyvo — новая универсальная модель от Caltech Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ. 🔍 Что делает Kyvo - Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение. - Объединяет текст, изображения и 3D в одно общее представление. - Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции. - Использует специальные кодировки для более точного восстановления форм объектов. 🧪 На чём проверяли - Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes. - Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы. ✅ Чем интересна: - Универсальность: одна модель - много задач и форматов данных. - Гибкость: одинаково хорошо работает и в генерации, и в понимании. - Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D. 🔗 Ссылки - Статья на arXiv: https://arxiv.org/abs/2506.08002 - Проект: https://glab-caltech.github.io/kyvo/ - GitHub: https://github.com/glab-caltech/kyvo

30 036

🆕 PDF Arranger — лёгкий и удобный инструмент для работы с PDF. ✨ Возможности: - Объединение и разделение файлов - Поворот и обрезка страниц - Перестановка и удаление страниц - Интуитивный drag-and-drop интерфейс 💻 Доступен для Linux, Windows (включая портативную версию) и BSD. Полностью опенсорс (GPL-3.0). Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек. 📌 GitHub #PDF #opensource #Linux #devtools @machinelearning_interview

30 036

⚡️SQL на собеседованиях: где тренироваться Принесли вам отличный ресурс, который собрал огромное количество практических задач по SQL. Там можно найти всё: от базовых упражнений до сложных вопросов, включая отдельный блок с заданиями от FAANG. Но самое ценное здесь не сами вопросы, а структура подачи: - Формулировка задачи в формате собеседования - Подробное решение с объяснением - Встроенный редактор, чтобы попробовать свои силы прямо на месте И главное — доступ полностью бесплатный. Начать тренироваться

30 036

🧰 Исследователи Microsoft изучили, как агенты работают с Model Context Protocol (MCP), и выявили проблему: когда инструментов слишком много, агенты начинают мешать друг другу. 💡 Это назвали tool-space interference. Как проявляется: - перегруженные меню инструментов - чрезмерно большие выходные данные - запутанные параметры - дублирующиеся названия - расплывчатые ошибки 📉 В исследовании: - Некоторые серверы предлагали до 256 инструментов, хотя оптимально — меньше 20. При больших меню точность падала на 85%. - Один инструмент выдавал в среднем 557,766 токенов за ответ, 16 инструментов возвращали более 128,000 токенов. Это ломало модели и снижало точность на 91%. - Сильно вложенные параметры (до 20 уровней) мешали работе. При «разглаживании» схем успех вырастал на 47%. - Обнаружено 775 дублирующихся названий инструментов, слово «search» встречалось в 32 серверах. ✅ Решения от Microsoft: - группировать инструменты в меньшие наборы - кэшировать схемы - использовать namespaces для уникальных названий - ограничивать размер ответов и упрощать параметры - стандартизировать ошибки и поддерживать передачу ресурсов 📊 В отчётах видно, что умное использование неймспейсов ускоряло выполнение задач на 40%. Вывод: меньше инструментов, чище параметры и структурированные ответы = агенты начинают сотрудничать, а не путаться друг у друга под ногами. https://www.microsoft.com/en-us/research/blog/tool-space-interference-in-the-mcp-era-designing-for-agent-compatibility-at-scale/

30 036

⚡️ Tongyi DeepResearch показал, что AI-агенты способны выполнять реальную исследовательскую работу на синтетических данных. Результаты: - Humanity’s Last Exam (HLE): 32.9% в академических задачах на рассуждение - BrowseComp: 43.4% в сложных задачах веб-исследований - Китайский вариант: 46.7% - xbench-DeepSearch: 75% в пользовательских поисковых задачах Это снижает затраты, повышает доступность и открывает новые сферы применения — от науки и права до навигации. 🔗 Homepage: https://tongyi-agent.github.io 🔗 Blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/ 🔗 Model HuggingFace: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B 🔗 Model ModelScope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B 🔗 GitHub Repo: https://github.com/Alibaba-NLP/DeepResearch #AI #DeepResearch #Tongyi #agents #syntheticdata

30 036

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально. SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле. Как это работает: - Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью. - Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения. - Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO). - Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных. - Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений. Подробнее: 🟢Проект: https://tencent.github.io/srpo-project-page/ 🟢Статья: https://arxiv.org/abs/2509.06942 🟢Модель: https://huggingface.co/tencent/SRPO 🟢Код: https://github.com/Tencent-Hunyuan/SRPO @machinelearning_interview #SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

30 036

🚀 ИИ ускоряет кодинг, но стопорится на людях ИИ уже заметно меняет работу команд разработчиков: они закрывают на 21% больше задач и мёржат на 98% больше pull request’ов. Но есть проблема: время на ревью выросло на 91%. Получается, что главный тормоз теперь — человеческое одобрение кода. Пока процессы проверки, тестирования и релизов остаются старыми, весь выигрыш от ИИ сводится на нет. Это и есть закон Амдала в действии: система движется только со скоростью своего самого медленного звена. Чтобы ИИ реально раскрыл потенциал в разработке, нужно модернизировать весь цикл разработки, а не только генерацию кода. 🔗 Подробнее: https://faros.ai/blog/ai-software-engineering

30 036

Интегрируй ML-модель в продакшн без боли и ошибок! Практикум для разработчиков и ML-инженеров, которые устали от «экспериментов в Jupyter» и хотят переходить к реальным решениям! 16 сентября в 19:00 приглашаем на встречу по интеграции моделей с внешним миром и написанию API вместе с экспертом Игорем Стурейко — разработчиком модели прогнозирования технического состояния газотранспортной системы ПАО Газпром. На практикуме вы: 👨‍💻перенесёте модель из Jupyter notebook в полноценный Python-класс 👨‍💻создадите API и подготовите эндпоинты 👨‍💻напишете валидатор для входящих параметров 👨‍💻протестируете работу модели как отдельного сервиса. Все участники получают 7% скидку на любой курс OTUS + бонус: карьерные треки для ML-специалистов Записывайся на практикум: https://tglink.io/f23f042d888d Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJKYFGC

30 036

🇫🇷 Интервью Артура Менша (CEO и сооснователя Mistral AI) Ключевые моменты: - Крупное финансирование: Mistral привлекла €1.7 млрд, из них €1.3 млрд вложила ASML. Оценка компании превысила €10 млрд. - Стратегический альянс: партнёрство с ASML направлено на повышение точности литографических машин. ИИ будет использоваться в производстве полупроводников, включая управление плазмой и другие критичные процессы. - Модель бизнеса: - базовые модели остаются open source, - доход строится на корпоративных продуктах, консалтинге и облачной инфраструктуре. - Использование капитала: новые средства пойдут на масштабирование вычислений во Франции и международное развитие. - Принципы и ценности: Mistral подчёркивает независимость, развитие европейского ИИ в сотрудничестве с индустриальными чемпионами, прозрачность в управлении пользовательской памятью. В интервью звучит критика «пассивного UX» и концентрации доступа к информации в руках нескольких американских платформ. ⚡ Mistral позиционирует себя как флагман европейского ИИ с глобальными амбициями. youtube.com/watch?v=bvX5m4wRiZM

30 036

🎉 Победители розыгрыша: 1. Санёк (@ZDAR7777)

30 036

❓ Как большие языковые модели могут избежать катастрофического забывания во время файнтюнига? Ответы пишите в комменариях👇 🤔 Проблема Катастрофическое забывание возникает, когда модель во время дообучения на новых данных теряет уже выученные знания. Ещё хуже ситуация с коллапсом модели — когда в датасет начинают попадать тексты, сгенерированные самой LLM: это искажает данные, стирает редкие примеры и усиливает ошибки. ✅ Подходы на практике: 1️⃣ LoRA / параметро-эффективное дообучение: - Обновляются не все веса, а только адаптеры. - Это снижает риск забывания базовых знаний, сохраняя при этом гибкость для дообучения. 2️⃣Dynamic replay / rehearsal (динамическое повторное смешивание) - К кастомному датасету подмешивают данные из предобучения. - Обычно берут в 2–3 раза больше примеров из базового корпуса. - Так сохраняется «фон» общих знаний модели. 3️⃣ Dataset mixing (смешивание датасетов) - Не дают модели «зарыться» в узкий домен. - Сочетание специализированных и базовых данных удерживает баланс. 4️⃣ Variation across epochs (вариативность между эпохами) - На каждой эпохе берут новые сэмплы из предобученного корпуса. - Это повышает разнообразие и снижает риск переобучения к конкретному подмножеству. 📌 Как ответить на собеседовании «Чтобы избежать забывания, используют LoRA (параметро-эффективное дообучение), динамический replay с базовыми данными (в пропорции 1:2 или 1:3), а также варьируют сэмплы из pretrain-корпуса между эпохами. Это сохраняет старые знания и даёт гибкость для новых». @machinelearning_interview #AI #LLM #MachineLearning #Forgetting #FineTuning

30 036

🧠 Для многих AI-моделей узким местом становится не вычислительная мощность, а **память**. Сегодня большие языковые модели тормозят не из-за нехватки FLOPs, а из-за памяти: - чем длиннее контекст, тем больше растёт KV cache (ключи и значения токенов), - данные приходится постоянно хранить и перегонять, - у GPU вычисления быстрые, но пропускная способность памяти ограничена. Новый метод XQuant предлагает интересное решение: * Что делает XQuant** Вместо того чтобы хранить Key и Value,, метод сохраняет только X - входной вектор активации слоя (то, что подаётся в слой до вычисления Q, K, V). ⚡️Этот X: - меньше по размеру, - лучше сжимается (легко квантовать до низких бит). При генерации следующего токена K и V не берутся из памяти, а пересчитываются из X через те же самые матричные умножения. При генерации токенов Keys и Values просто пересчитываются из X. Это дает: ✔️ Экономию памяти в 2 раза ✔️ Точность модели почти без потерь качесва XQuant-CL - это улучшенная версия - Хранит только небольшие разницы между слоями, так как они очень похожи. - Экономия достигает 10–12.5x. - Потеря качества минимальна: всего 0.01–0.1 perplexity. ➡️ Результаты - В 10–12.5 раз меньше памяти, чем FP16 - Точность близка к FP16 - Превосходит лучшие методы квантования KV cache XQuant превращает задачу: из «таскаем огромный KV-кэш» в ▶️«храним компактный X и пересчитываем нужное заново». Современные GPU умеют считать быстрее, чем работать с памятью. Поэтому лучше чуть больше считать, но значительно меньше хранить. 📌 Подробнее: https://arxiv.org/abs/2508.10395

30 036

🐍 Изучаем MCP на Python — серия уроков от Microsoft Пошаговое руководство для Python-разработчиков по Model Context Protocol (MCP): как понять концепцию и построить свой MCP-сервер в интерактивном формате. 📚 Репозиторий с гайдом #python #MCP #tutorial #developers

30 036

Не все баги чинятся Ctrl+Z! 😅 Но если рядом — правильная команда, а на экране — продуманный до мелочей код, который решит любые таски, то всё реально. Сбер поможет и с классными коллегами, и с интересными задачами — здесь все открытые вакансии. А здесь поздравление от Сбера: team.congratulate("С Днём программиста! 💚”)