Data Portal | DS & ML

前往频道在 Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

显示更多

网络:IT Portal 俄罗斯75 941 技术与应用13 882

8 407

订阅者

-724 小时

-77 天

-430 天

951

帖子浏览量

~ 57524 小时

~ 69048 小时

11.31%

参与率

~ 2

每日帖子数

Ads index

beta

帖子存档

8 405

⚡️ ВАЙБ-КОДИНГ теперь в Telegram! Ребята сделали крутейший канал, где на наглядных примерах и понятном языке рассказывают как войти в новую эру разработки с ИИ, делятся полезными фишками и инструментами Подписывайтесь: @vibecoding_tg

8 405

Представили QVAC Fabric LLM — фреймворк, который приносит полноценный AI-инференс и файнтюнинг прямо на ваше железо. Запускайте и дообучайте современные модели вроде Llama 3 и Gemma 3 на ноутбуке, на обычной видеокарте и даже на смартфоне. Без облака. Без компромиссов. Вы полностью контролируете свои данные. QVAC Fabric LLM — это open source. Децентрализованный, гипермасштабируемый, антихрупкий, пользовательский AI. QVAC. Ваше устройство. Ваш AI. Подробнее: https://huggingface.co/blog/qvac/fabric-llm-finetune?twclid=2-k3wh4blsp5fzsaopgq5p2cl3 👉 @DataSciencegx

8 405

Тензоры играют ключевую роль в физике, машинном обучении и даже в биологии. Эйнштейн однажды умолял друга помочь ему разобраться в них, опасаясь, что сходит с ума. Джозеф Хоулетт объясняет, как они работают: разбираемся 👉 @DataSciencegx

8 405

Теорема Никомаха 1³ + 2³ + 3³ + ... + n³ = (1 + 2 + 3 + ... + n)² Сумма кубов первых n натуральных чисел всегда равна квадрату суммы этих же чисел. Для n = 3: (1 + 2 + 3)² = 6² = 36 = 1 + 8 + 27 👉 @DataSciencegx

8 405

Нейронный процессор (NPU) это специализированный чип, оптимизированный под быстрые параллельные вычисления, в первую очередь под матричные и векторные операции. В теории вероятностей и статистике NPU ускоряют такие задачи, как симуляции методом Монте-Карло и байесовский вывод. В машинном обучении они ускоряют обучение нейросетей и инференс при низком энергопотреблении. В реальной жизни NPU обеспечивают работу таких функций, как разблокировка по лицу, распознавание речи, умные камеры, автопилот и локальный предиктивный ИИ на смартфонах, автомобилях и IoT-устройствах. 👉 @DataSciencegx

8 405

Команда показала, как использовать Claude Code для обучения open-source LLM под ключ. Они подключили навыки Hugging Face к Claude Code, и агент смог запускать полный цикл обучения моделей end-to-end. Самое интересное, это работает не только с Claude, но и с Codex, Cursor и Gemini CLI. Как это выглядит на практике: - ты даешь агенту задачу дообучить модель на датасете, можно указать свой или поручить агенту найти его самому - агент сам подбирает железо под размер модели и проверяет датасет - обучение запускается на облачных GPU, в режиме теста или полноценного прогона - прогресс в реальном времени отображается через дашборд Trackio - чекпоинты автоматически пушатся в Hugging Face Уже можно попробовать в своем любимом кодинг-агенте. 👉 @DataSciencegx

8 405

MCP теперь поддерживает аутентификацию через OAuth2. Это большое обновление! Хочу поделиться полноценным примером (с кодом), чтобы можно было быстро разобраться как этим пользоваться. Суть в следующем: Не стоит строить агентные приложения, которые получают доступ к ресурсам без нормальных ограничений. С аутентификацией вы можете: • вызывать сторонние API от имени пользователя • выполнять действия, которые должны быть отслеживаемыми • применять разные разрешения для разных ролей Вот демо интернет-магазина на MCP, собранное с WorkOS AuthKit и nextjs. В этом примере можно: • подключиться к MCP-серверу • пройти аутентификацию через AuthKit • заказать футболку с помощью MCP-инструментов • посмотреть детали заказа, если у вас роль администратора Весь необходимый код лежит в репозитории: https://fandf.co/4psHKyo 👉 @DataSciencegx

8 405

Apple выложила CLaRa на Hugging Face. Новая унифицированная RAG-модель со встроенной семантической компрессией документов (16x и 128x). Она генерирует ответы напрямую из сжатых представлений, достигая SOTA-результатов и при этом сильно уменьшая длину контекста. CLaRa показывает топовый уровень в компрессии и reranking-е, нередко обгоняя текстовые бейслайны, и уменьшает контекст до 16 раз. Подробности в статье, модель можно попробовать тут: https://huggingface.co/papers/2511.18659 👉 @DataSciencegx

8 405

Self-Hosted vs Managed PostgreSQL Облачный провайдер Cloud.ru приглашает на вебинар 9 декабря в 11:00 по мск, где честно сравнят два подхода в управлении базами данных и разберут, с какими сложностями можно столкнуться при переходе на Managed PostgreSQL и как их избежать.

В программе: 😶‍🌫️ в чем ключевые отличия в эксплуатации Self-Hosted и Managed PostgreSQL 😶‍🌫️ какие задачи полностью автоматизирует облачный провайдер, а что остается под вашим контролем даже в managed-сервисе 😶‍🌫️ как быстро развернуть отказоустойчивый кластер Managed PostgreSQL в Cloud․ru и подключить к нему тестовое приложение

А в практической части будут создавать кластер с нуля с демонстрацией всех этапов настройки и подключения. Зарегистрироваться

8 405

calculus jokes. 👉 @DataSciencegx

8 405

Если она понимает математику, лежащую в основе диффузии, женись на ней. 👉 @DataSciencegx

8 405

Mistral выпустили Ministral 3 — новую линейку reasoning- и instruct-моделей! Ministral 3 доступны в версиях 3B, 8B и 14B, есть поддержка vision и топовая производительность в своём классе. Модель 14B можно запускать локально на машине с 24 ГБ RAM. Гайд + ноутбук: https://docs.unsloth.ai/new/ministral-3 GGUF-сборки: https://huggingface.co/collections/unsloth/ministral-3 👉 @DataSciencegx

8 405

Сегодня Supabase представили Vector Buckets. Новый вариант хранилища, который сочетает надежность и экономичность Amazon S3 с встроенным similarity search. http://supabase.com/blog/vector-buckets 👉 @DataSciencegx

8 405

Твой контейнер вообще не содержит GPU-драйверов Тогда как PyTorch внутри него вообще использует GPU хоста? Сначала нужно понимать, что происходит на стороне хоста NVIDIA-драйвер в ядре отдает GPU через device-файлы: /dev/nvidia0, /dev/nvidiactl и так далее Любое приложение общается с GPU именно через эти device-файлы PyTorch не лезет напрямую в драйвер Он работает через CUDA Runtime (libcudart.so) это высокоуровневый API, который берет на себя аллокации, запуск kernel-ов и синхронизации Эта runtime-библиотека лежит внутри твоего контейнера Весь стек выглядит так: PyTorch → CUDA Runtime → CUDA Driver → /dev/nvidia0 → ядро → GPU Runtime живет в контейнере Драйвер живет на хосте Как они связываются? Смотрим на запуск контейнера: Containerd → containerd-shim → OCI-runtime (runc) → контейнер Но если драйвер на хосте, а runtime в контейнере, как приложение получает доступ ко всему сразу? Ответ: OCI-хуки Спека OCI определяет хуки — код, который запускается на разных этапах жизненного цикла контейнера: prestart/createRuntime createContainer startContainer poststart poststop NVIDIA использует эти хуки, чтобы подмешивать поддержку GPU Перед стартом контейнера хук делает следующее: 1. Монтирует GPU-девайсы (/dev/nvidia*) 2. Подкладывает в контейнер драйверные библиотеки с хоста 3. Проставляет нужные переменные окружения 4. Настраивает device-cgroups Твое приложение ещё даже не запустилось Всем этим занимается NVIDIA Container Toolkit Он перехватывает создание контейнера и аккуратно встраивает всё, что нужно для работы с GPU Твой образ остается обычным. GPU-возможности появляются в рантайме Вот такой фокус 😔 👉 @DataSciencegx

8 405

Bagging vs Boosting в машинном обучении, наглядное объяснение 👉 @DataSciencegx

8 405

👋 Привет! Меня зовут Олег, и я руковожу командой разработки ML-платформы в Авито. У нас бывали ситуации, когда разные команды автономно создавали одинаковые инструменты. Это дублировало усилия и съедало ресурсы. Знаете, как мы избавились от этой проблемы? Создали ML-платформу. Теперь все инструменты лежат там, а не в столах у команд. А ещё мы разработали решение для оптимизации ресурсов, которое сэкономило 30% вычислительных мощностей. Эту разработку выложили в открытый доступ 🌐 Предлагаем прочитать статью о том, какую платформу создали в Авито, чтобы вдохновиться и создать подобное решение у себя. Читать статью →

8 405

Это настоящая золотая жила AI-ресурсов от MongoDB! (бесплатно и ориентировано на реальные задачи AI-инжиниринга) Поднимать AI-прототипы локально – это весело. Можно быстро экспериментировать, пушить код и пробовать разные модели почти без подготовки окружения. Но когда начинаешь делать AI для реальных пользователей, всё становится сложнее. Нужно учитывать хранение данных, эффективный ретривал, производительность, безопасность и масштабируемое управление контекстом. AI-хаб ресурсов от MongoDB очень круто закрывает этот гэп в обучении. Он даёт целую экосистему гайдов, демо и учебных треков, спроектированных для разработчиков, которые хотят строить продакшн-AI-приложения на надёжной дата-инфраструктуре. Два особенно полезных ресурса, с которых стоит начать: 1. Основы векторного поиска в MongoDB: разберитесь, как реально работает семантический поиск,, и соберите рабочий поисковый pipeline. 2. Построение агентов с памятью на MongoDB, Fireworks AI и LangChain: обучите агента вспоминать прошлые взаимодействия и подтягивать контекст напрямую из ваших операционных данных. Что делает эту библиотеку ещё интереснее – контент не ограничивается только AI. Он проводит через все вспомогательные компоненты, которые нужны для запуска AI в проде, например: ↳ Архитектуры хранения для AI-приложений ↳ Индексация и ретривал с высокой пропускной способностью ↳ Кэширование для ускорения инференса ↳ Лучшие практики безопасности для AI-датапайплайнов ↳ End-to-end примеры с реальными датасетами Все туториалы ориентированы на построение рабочих систем, а не просто объяснение концепций. Ссылка: https://www.mongodb.com/resources/use-cases/artificial-intelligence 👉 @DataSciencegx

8 405

Microsoft. Google. AWS. Все пытаются решить одну и ту же задачу для AI-агентов: Как построить графы знаний, которые будут достаточно быстрыми для LLM-приложений в реальном времени? FalkorDB — это опенсорс графовая база данных, которая решает эту проблему, переосмысливая сам принцип работы графов. Она использует разреженные матрицы и линейную алгебру, а не классический обход графа! Разберёмся, почему она такая быстрая: Традиционные графовые базы хранят связи как связанные узлы и обходят их по одному хопу. Но здесь есть проблема: Когда вы делаете запрос на связи, база данных проходит по узлам и рёбрам, буквально следуя по карте. Для огромных графов знаний, на которых работают AI-агенты, это создаёт серьёзное узкое место. А что если представить весь граф как математическую структуру? Здесь появляются разреженные матрицы. Разреженная матрица хранит только существующие связи. Никакого лишнего места, никаких ненужных данных И вот где происходит прорыв: Когда ваш граф представлен как разреженная матрица, вы можете выполнять запросы с помощью линейной алгебры, а не обхода. Запросы превращаются в математические операции, а не покроковый переход по узлам. Математика быстрее обхода. Гораздо быстрее. Плюс разреженные матрицы позволяют невероятно эффективно использовать память. Вы храните только то, что существует, поэтому можете держать огромные графы знаний в памяти, не прожигая ресурсы. Тогда почему бы просто не использовать Vector Search? Vector search быстрый, но он фиксирует только наивное сходство. Он умеет находить паттерны, но не видит структуру. Графы фиксируют тонкие отношения между сущностями. Это гарантирует, что контекст, который вы поднимаете для агента, точный и релевантный, а не просто похожий. И вот что даёт вам FalkorDB: ↳ Сверхбыстрая мультитенантная графовая база данных ↳ Эффективное хранение через разреженные матрицы ↳ Совместимость с OpenCypher (тот же язык запросов, что и в Neo4j) ↳ Специально создана для LLM-приложений и памяти агентов ↳ Работает поверх Redis для простого деплоя Старт занимает всего одну Docker-команду. Я протестировал это через их Python-клиент, разница в производительности заметна сразу. Если вы строите AI-агентов, которым нужен доступ к связанным данным в реальном времени, это точно стоит попробовать. И главное, это 100% опенсорс. GitHub: FalkorDB 👉 @DataSciencegx

8 405

Нашел шикарную штуку для всех, кто хочет прокачаться в математике для диплернинга — вот этот раздел Ноль воды, только то что нужно для работы в ML. Мат.анализ, лин.алгебра, теория вероятностей — всё в удобном формате и сразу с кодом Отдельный приятный момент: можно выбрать диалект, на котором будут показывать примеры (PyTorch, Keras или MXNET). Кстати, другие главы там не менее достойные 🤓 👉 @DataSciencegx

8 405

Поздравляем, вы на 1 шаг ближе к работе мечты 🥳 Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉 Avito Career — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов. Подписывайтесь, чтобы найти ту самую работу ✨