Data Portal | DS & ML

رفتن به کانال در Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

نمایش بیشتر

شبکه:IT Portal روسيا75 941 فناوری و برنامه‌ها13 882

8 404

مشترکین

-724 ساعت

-77 روز

-430 روز

951

نمایش های پست

~ 57524 ساعت

~ 69048 ساعت

11.31%

نرخ مشارکت

~ 2

پست های در روز

Ads index

beta

آرشیو پست ها

8 402

Microsoft обновила годный курс по генеративному ИИ Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ https://github.com/microsoft/generative-ai-for-beginners 👉 @DataSciencegx

8 402

Apple выкатили мощный опенсорс-инструмент для визуализации эмбеддингов — Embedding Atlas — и он неожиданно крут для всех, кто работает с большими датасетами текст + метаданные Это очень напоминает Atlas от Nomic, но до него я так и не дошёл 😅 Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом. В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода! Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную: - UMAP-проекции - Фасетный поиск по метаданным (например, «страна vs. цена») - Ховер + тултип по сырым точкам - Интерактивные фильтры, гистограммы и оверлеи кластеров - Кросс-линк между scatterplot и таблицей Под капотом: • Быстрый рендер через WebGPU (с фолбеком на WebGL) • Поиск по семантической близости в пространстве эмбеддингов • Контуры плотности (kernel density) для поиска кластеров и аномалий Всё просто: загружаешь .jsonl или .csv с текстом + вектором + метаданными — остальное он сделает сам: кластеризация, автолейблы, UI-лейаут и всё остальное. По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи. Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом. https://apple.github.io/embedding-atlas/overview.html 👉 @DataSciencegx

8 402

Repost from IT Portal

Откопал LeetCode для Data Science DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯 @IT_Portal

8 402

Если тебе нравится разрабатывать всё с нуля — думаю, тебе зайдёт проект MiniTorch. В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код Сайт проекта: https://minitorch.github.io YouTube: тык 👉 @DataSciencegx

8 402

📘 На Stepik вышел курс — «Vector DB & RAG Developer» Хотите внедрять поиск «по смыслу» и строить RAG-ботов, как в топ-продуктах 2025-го? Этот курс даст всё необходимое. 🔍 Что вы получите: • Полный стек: Qdrant, Weaviate, FAISS и OpenAI API • Сборка RAG-чат-бота шаг за шагом — от эмбеддингов до продакшн-деплоя • 200+ интерактивных заданий и кейсов: оптимизация Recall@K, мультимодальный поиск, CI/CD • Лабораторные работы с ручным рецензированием • Готовые шаблоны кода на Python — копируйте и запускайте 🎓 Cертификат Stepik — добавьте в резюме или LinkedIn 🚀 Начните сегодня и получите скидку 25 % в течение 72 часов 👉 Пройти курс на Stepik

8 402

Трансформеры с нуля Это один из лучших разборов, который начинает с абсолютного нуля и подробно объясняет каждую деталь архитектуры модели https://e2eml.school/transformers.html 👉 @DataSciencegx

8 402

Сделай Claude Code в 10 раз мощнее Code Context — это плагин для MCP, который добавляет семантический поиск по коду в Claude Code, Gemini CLI или любого другого AI-кодового ассистента. Полная индексация кодовой базы обеспечивает более глубокий контекст и улучшенную генерацию кода. Полностью опенсорс https://github.com/zilliztech/code-context 👉 @DataSciencegx

8 402

8 402

Если вам сложно понять, как на самом деле работают GPU (как это было у меня), — это отличный старт Статья отлично объясняет, что такое гриды, блоки, варпы, SM, различие между CUDA-ядрами и тензорными ядрами, а также межсоединения GPU Всё изложено предельно ясно и по существу. Основано на курсе Stanford CS336 https://dev.to/lewis_won/demystifying-gpus-from-core-architecture-to-scalable-systems-419l 👉 @DataSciencegx

8 402

Наивный RAG vs. графового RAG — наглядное объяснение: 👉 @DataSciencegx

8 402

🕊🕊🕊🕊🕊🕊🕊🕊🕊🕊 Каналы с IT мероприятиями Подписывайся, чтобы не пропустить 👨‍💻 1. IT мероприятия для стажеров и студентов 2. IT мероприятия по РФ 3. IT мероприятия и хакатоны 4. Бесплатные IT мероприятия 5. IT мероприятия онлайн 6. IT мероприятия Москва 7. IT мероприятия Санкт Петербург

8 402

Машинное обучение: книга систематически охватывает методы обучения с учителем, байесовские подходы и генеративные/обучение без учителя. 🔸Практические советы по построению моделей и этические аспекты интегрированы в изложение на всём протяжении. 🔸Предлагает хорошо проиллюстрированный, строгий, но при этом доступный путь к фундаментальным основам современного машинного обучения. https://github.com/uu-sml/sml-book-page/blob/master/book/sml-book-draft-latest.pdf 👉 @DataSciencegx

8 402

Это сборник из 300 кейсов по проектированию ML-систем в реальном мире — от Stripe, Spotify, Netflix, Meta и других. Отлично подходит для собеседований и чтобы разобраться, как всё устроено в боевых условиях https://github.com/Engineer1999/A-Curated-List-of-ML-System-Design-Case-Studies 👉 @DataSciencegx

8 402

Двое из самых годных авторов [3blue1brown и welch labs] выложили совместное видео Потрясающее разложение диффузионных моделей: наглядно, интуитивно, элегантно Есть русские субтитры 40 минут кайфа тут: https://youtu.be/iv-5mZ_9CPY 👉 @DataSciencegx

8 402

Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс). mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude Совместим с Ollama, LangChain и другими. GitHub репозиторий → https://github.com/mcp-use/mcp-use 👉 @DataSciencegx

8 402

Если вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля. И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля. Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/ 👉 @DataSciencegx

8 402

E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥 🗓 Регистрация: https://cnrlink.com/ecup25dataportal 💻 Формат участия: онлайн 👥 Команда: от 1 до 5 человек 🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS. Что вас ждёт: 🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России. 🔹 Обмен опытом с экспертами Ozon Tech. 🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку. Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде. 1️⃣ Рекомендации: предсказание следующей покупки пользователя 2️⃣ Логистика: автопланирование курьеров 3️⃣ Контроль качества: автоматическое выявление поддельных товаров Регистрация на платформе Codenrock: https://cnrlink.com/ecup25dataportal

8 402

Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science. В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое. Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython 👉 @DataSciencegx

8 402

Вы когда-нибудь задумывались о том, что с помощью ИИ можно значительно ускорить время, затрачиваемое на поиск информации и повысить точность бизнес-решений? На вебинаре “Будущее бизнеса с RAG и LLM: автоматизация, выгоды и новые возможности искусственного интеллекта” мы покажем конкретные кейсы, а также сравним облачные и локальные решения. В том числе: 1. Разберём примеры автоматизации поддержки, аналитики и работы с коопоративными знаниями. 2. Обсудим выгоды, которые получают компании, и шаги по подготовке компании к внедрению ИИ. Вебинар будет полезен тем, кто ищет практическое применение ИИ в компании уже сегодня. 📅 17 июля в 14:00 по Москве ➡️ Зарегистрироваться Слушатели вебинара получат запись и презентацию выступающего, которые можно использовать в работе! Реклама. ООО "ДССЛ-ПЕРВЫЙ". ИНН 7701081730. erid: 2W5zFJBYMqz

8 402

Комбинация из трёх курсов, охватывающих важную математику для ML и DL. Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами. https://www.youtube.com/watch?v=0z6AhrOSrRs 👉 @DataSciencegx