Data Portal | DS & ML
رفتن به کانال در Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
نمایش بیشتر8 404
مشترکین
-724 ساعت
-77 روز
-430 روز
آرشیو پست ها
Microsoft обновила годный курс по генеративному ИИ
Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ
https://github.com/microsoft/generative-ai-for-beginners
👉 @DataSciencegx
+1
Apple выкатили мощный опенсорс-инструмент для визуализации эмбеддингов — Embedding Atlas — и он неожиданно крут для всех, кто работает с большими датасетами текст + метаданные
Это очень напоминает Atlas от Nomic, но до него я так и не дошёл 😅
Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.
В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!
Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:
- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей
Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий
Всё просто: загружаешь
.jsonl или .csv с текстом + вектором + метаданными — остальное он сделает сам: кластеризация, автолейблы, UI-лейаут и всё остальное.
По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.
Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.
https://apple.github.io/embedding-atlas/overview.html
👉 @DataSciencegxRepost from IT Portal
Откопал LeetCode для Data Science
DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях
Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании
Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯
@IT_Portal
Если тебе нравится разрабатывать всё с нуля — думаю, тебе зайдёт проект MiniTorch.
В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код
Сайт проекта: https://minitorch.github.io
YouTube: тык
👉 @DataSciencegx
📘 На Stepik вышел курс — «Vector DB & RAG Developer»
Хотите внедрять поиск «по смыслу» и строить RAG-ботов, как в топ-продуктах 2025-го? Этот курс даст всё необходимое.
🔍 Что вы получите:
• Полный стек: Qdrant, Weaviate, FAISS и OpenAI API
• Сборка RAG-чат-бота шаг за шагом — от эмбеддингов до продакшн-деплоя
• 200+ интерактивных заданий и кейсов: оптимизация Recall@K, мультимодальный поиск, CI/CD
• Лабораторные работы с ручным рецензированием
• Готовые шаблоны кода на Python — копируйте и запускайте
🎓 Cертификат Stepik — добавьте в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25 % в течение 72 часов
👉 Пройти курс на Stepik
Трансформеры с нуля
Это один из лучших разборов, который начинает с абсолютного нуля и подробно объясняет каждую деталь архитектуры модели
https://e2eml.school/transformers.html
👉 @DataSciencegx
Сделай Claude Code в 10 раз мощнее
Code Context — это плагин для MCP, который добавляет семантический поиск по коду в Claude Code, Gemini CLI или любого другого AI-кодового ассистента.
Полная индексация кодовой базы обеспечивает более глубокий контекст и улучшенную генерацию кода.
Полностью опенсорс
https://github.com/zilliztech/code-context
👉 @DataSciencegx
👨👨👨👨👨👨👨👨👨👨
Каналы с Junior IT вакансиями
и стажировками
Подписывайся и забирай свой оффер 🤘
1. IT вакансии по СНГ
2. Стажировки и вакансии по России и миру
3. IT стажировки и волонтерства
4. IT стажировки по СНГ
5. IT стажировки в топовых компаниях мира
6. Удалённые IT вакансии и стажировки
7. Python вакансии и стажировки
8. БИГТЕХ вакансии и стажировки
9. Design вакансии и стажировки
10. QA вакансии и стажировки
11. Junior вакансии и стажировки
12. Frontend вакансии и вопросы собесов
13. Вакансии и стажировки для аналитиков
14. Вакансии в русских стартапах за границей
15. Вакансии и стажировки для DevOps
16. Вакансии, которых нет на ХХ.РУ
Если вам сложно понять, как на самом деле работают GPU (как это было у меня), — это отличный старт
Статья отлично объясняет, что такое гриды, блоки, варпы, SM, различие между CUDA-ядрами и тензорными ядрами, а также межсоединения GPU
Всё изложено предельно ясно и по существу.
Основано на курсе Stanford CS336
https://dev.to/lewis_won/demystifying-gpus-from-core-architecture-to-scalable-systems-419l
👉 @DataSciencegx
🕊🕊🕊🕊🕊🕊🕊🕊🕊🕊
Каналы с IT мероприятиями
Подписывайся,
чтобы не пропустить 👨💻
1. IT мероприятия для стажеров и студентов
2. IT мероприятия по РФ
3. IT мероприятия и хакатоны
4. Бесплатные IT мероприятия
5. IT мероприятия онлайн
6. IT мероприятия Москва
7. IT мероприятия Санкт Петербург
Машинное обучение: книга систематически охватывает методы обучения с учителем, байесовские подходы и генеративные/обучение без учителя.
🔸Практические советы по построению моделей и этические аспекты интегрированы в изложение на всём протяжении.
🔸Предлагает хорошо проиллюстрированный, строгий, но при этом доступный путь к фундаментальным основам современного машинного обучения.
https://github.com/uu-sml/sml-book-page/blob/master/book/sml-book-draft-latest.pdf
👉 @DataSciencegx
Это сборник из 300 кейсов по проектированию ML-систем в реальном мире — от Stripe, Spotify, Netflix, Meta и других.
Отлично подходит для собеседований и чтобы разобраться, как всё устроено в боевых условиях
https://github.com/Engineer1999/A-Curated-List-of-ML-System-Design-Case-Studies
👉 @DataSciencegx
+3
Двое из самых годных авторов [3blue1brown и welch labs] выложили совместное видео
Потрясающее разложение диффузионных моделей: наглядно, интуитивно, элегантно
Есть русские субтитры
40 минут кайфа тут: https://youtu.be/iv-5mZ_9CPY
👉 @DataSciencegx
Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс).
mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude
Совместим с Ollama, LangChain и другими.
GitHub репозиторий → https://github.com/mcp-use/mcp-use
👉 @DataSciencegxЕсли вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля.
И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля.
Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое
https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/
👉 @DataSciencegx
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
🗓 Регистрация: https://cnrlink.com/ecup25dataportal
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25dataportal
Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста
Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science.
В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое.
Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython
👉 @DataSciencegx
Вы когда-нибудь задумывались о том, что с помощью ИИ можно значительно ускорить время, затрачиваемое на поиск информации и повысить точность бизнес-решений? На вебинаре “Будущее бизнеса с RAG и LLM: автоматизация, выгоды и новые возможности искусственного интеллекта” мы покажем конкретные кейсы, а также сравним облачные и локальные решения. В том числе:
1. Разберём примеры автоматизации поддержки, аналитики и работы с коопоративными знаниями.
2. Обсудим выгоды, которые получают компании, и шаги по подготовке компании к внедрению ИИ.
Вебинар будет полезен тем, кто ищет практическое применение ИИ в компании уже сегодня.
📅 17 июля в 14:00 по Москве
➡️ Зарегистрироваться
Слушатели вебинара получат запись и презентацию выступающего, которые можно использовать в работе!
Реклама. ООО "ДССЛ-ПЕРВЫЙ". ИНН 7701081730. erid: 2W5zFJBYMqz
Комбинация из трёх курсов, охватывающих важную математику для ML и DL.
Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами.
https://www.youtube.com/watch?v=0z6AhrOSrRs
👉 @DataSciencegx
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
