Data Portal | DS & ML
Открыть в Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
Больше8 404
Подписчики
-724 часа
-77 дней
-430 день
Архив постов
Открыт приём в 6-й набор Sber500!
Ищем молодые стартапы в AI, DeepTech, FinTech и смежных сферах.
Программа проходит онлайн на английском языке, длится примерно 3 месяца и полностью бесплатна.
Что ждёт участников:
• Онлайн-буткемп для 150 стартапов, где эксперты помогут скорректировать стратегию, подготовиться к масштабированию, укрепить позиции на рынке и найти партнёров для пилотирования.
• Лучшие 25 команд продолжат работу с поддержкой менторов с международным опытом и получат доступ к инвесторам.
• В финале 25 участников представят свои проекты на Демо-дне в Москве представителям корпораций и фондов, получат PR-поддержку.
⚠️ Да, форма заявки объёмная — и это не случайно. Чем больше усилий вложите сейчас, тем выше шансы пройти отбор и получить реальный шанс масштабировать ваш проект!
Дедлайн продлён до 9 июня
Подать заявку → https://short-link.me/-I9D
Создаёте что-то по-настоящему амбициозное? Присоединяйтесь!
Одна команда для сборки, деплоя и масштабирования AI-агентов!
xpander — это готовый к использованию Backend-as-a-Service для агентов: управляет памятью, инструментами, многопользовательскими состояниями, событиями, ограничениями и многим другим.
Совместим с LlamaIndex, Langchain, CrewAI, Google ADK — и не только.
Полностью с открытым исходным кодом
https://github.com/xpander-ai/xpander.ai
👉 @DataSciencegx
Яндекс B2B Tech выкатил YTsaurus — крутейшую платформу для обработки данных любого размера: от пары гигабайт до эксабайтных хранилищ
Под капотом классический MapReduce, ClickHouse, Apache Spark и прочие вкусности. Подходит как для ETL, так и для ML-моделей с миллиардами параметров. Работает облачно (управляемый сервис с поддержкой) и on-premise — выбирай, что по душе.
Внутри Яндекса эту штуку пилят уже с 2010 года — на ней и YandexGPT обучают, и поисковый индекс держат, и промо на Маркете обсчитывают. В общем, отлажено на боевых нагрузках, а не в песочнице.
Ранний доступ уже открыт, заявку кидать здесь
Семинарская серия Stanford MLSys
Это самый практичный, технически насыщенный и содержательный ресурс, который я нашёл по теме реальных ML-систем. И всё это бесплатно доступно на YouTube.
Что внутри:
🔹 Эффективное обучение и развёртывание масштабных LLM
🔹 LoRAX, FlashAttention → более быстрые, дешёвые и компактные модели
🔹 Квантование и стратегии развёртывания на edge-устройствах
🔹 Full-stack ML: инфраструктура, инструменты и MLOps
🔹 Ориентированные на данные пайплайны и поведенческое тестирование
🔹 Как проектирование аппаратного обеспечения влияет на современные ML-системы
Среди докладчиков — инженеры и исследователи из Stanford, Netflix, Hugging Face и Snorkel.
Сохраните в закладки. Поделитесь с тем, кто глубоко погружён в ML-инфраструктуру или развёртывание. Это настоящая находка.
https://www.youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq
👉 @DataSciencegx
5 техник дообучения LLM
Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.
Вот 5 оптимальных способов дообучения LLM:
1) LoRA — вместо того чтобы дообучать всю матрицу весов
W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).
2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.
3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.
4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.
5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.
👉 @DataSciencegx🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся.
Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.
Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.
Посты про конвертер (ч.1, ч.2)
Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.
Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.
Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.
Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.
Matrix Cookbook от Университета Ватерлоо — это краткая «шпаргалка», содержащая сотни матричных тождеств, производных, разложений и статистических формул, к которым вы будете обращаться всякий раз, когда линейная алгебра становится сложной.
Идеально подходит в качестве настольного справочника для ускорения вывода формул и математических расчётов в машинном обучении
https://github.com/AniruddhaChattopadhyay/Books/blob/main/matrixcookbook.pdf
👉 @DataSciencegx
Возможность для специалистов по Data Science.
Яндекс Практикум ищет экспертов!
Яндекс Практикум — сервис современного онлайн-образования, где обучают актуальным цифровым профессиям. Сейчас есть возможность присоединиться к команде в роли автора курса.
Что делает автор курса?
Разрабатывает уроки, тесты, чек-листы, а если шире, то его задача так упаковать свой опыт, чтобы заинтересовать, объяснять и мотивировать.
В Практикуме понимают уровень загрузки опытного специалиста, поэтому условия максимально комфортные: удалёнка, гибкий график и частичная занятость от 10 часов в неделю — не помешает ни основной работе, ни отдыху.
От кандидата ожидают:
✔️ Техническое образование (преимущественно в области ML).
✔️ Опыт работы Data scientist или на смежных позициях от 3-х лет.
✔️ Непреодолимое желание делиться знаниями и опытом, рассказывать сложное доступно и понятно. Так, чтобы вас поняли люди без опыта в этой сфере.
→ Откликнуться
Hugging Face выкатили бесплатный курс по MCP (Model Context Protocol) — всё, что нужно, чтобы разобраться, как это работает и как использовать на практике.
Покажут, что такое MCP, как коннектить LLM-ки, как разворачивать свои MCP-сервера. Без воды, только суть.
Курс бесплатный. Ссылка: https://huggingface.co/learn/mcp-course/unit0/introduction
👉 @DataSciencegx
Нарыл годную визуализацию для тех, кто хочет на пальцах понять, как устроены LLM. Тут можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон в 3D
Есть GPT-2, nanoGPT, GPT-2 XL и GPT-3
Лучше запускать с компа, на мобиле не так красиво
👉 @DataSciencegx
Каждый год говорят, что Python устарел. Но на деле:
🔹 Google, YouTube, Netflix используют Python в своих сервисах
🔹 Разработчики в Data Science и AI активно применяют Python
🔹 Кибербезопасность – многие инструменты для пентеста создаются именно на Python
Если вы интересуетесь разработкой или хотите освоить новый язык программирования, обратите внимание на бесплатный мини-курс по Python от Skillbox. Он поможет разобраться в базовых навыках и научит применять их на практике.
Переходите по ссылке и регистрируйтесь: https://epic.st/GikkaQ?erid=2VtzqxP2NNp
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
Нашел видеоуроки по построению DeepSeek с нуля — уже вышло 25 выпусков. Объясняется неплохо, можно смотреть вместе с руководством по построению DeepSeek с нуля на HuggingFace.
Ссылка: http://youtube.com/watch?v=QWNxQIq0hMo&list=PLPTV0NXA_ZSiOpKKlHCyOq9lnp-dLvlms
👉 @DataSciencegx
Эти лекции были записаны 10 лет назад, но до сих пор, вероятно, остаются одними из лучших по следующим темам — теория информации и распознавание образов.
Основаны на книге Information Theory, Inference, and Learning Algorithm
https://www.youtube.com/playlist?list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6
👉 @DataSciencegx
Создание трансформера с нуля
https://github.com/DorsaRoh/Machine-Learning
Реализация и подробное объяснение трансформера, с расчётом на полное отсутствие предварительных знаний.
Приятного изучения ✌️
👉 @DataSciencegx
⚡ Новые каналы с вакансиями и стажировками для джунов
В этих каналах публикуются все свежие вакансии и стажировки
🔺 ВАКАНСИИ
Горячие вакансии с привлекательными офферами для джуниор разработчиков, аналитиков, дизайнеров и QA-специалистов.
👉 ПОДПИСАТЬСЯ
🔺СТАЖИРОВКИ
Стажировки для начинающих специалистов в IT независимо от возраста!
👉 ПОДПИСАТЬСЯ
🔺IT interns
Свежие стажировки для junior специалистов в топовых компании России и мира
👉 ПОДПИСАТЬСЯ
🔺Junojobs
Вакансии и стажировки для junior-разработчиков на удалёнке.
👉 ПОДПИСАТЬСЯ
🔺БИГТЕХ
Junior вакансии и стажировки в крупнейших IT-компаниях мира: NVidia, Apple, T-банк, Яндекс, Google и т. д.
👉 ПОДПИСАТЬСЯ
🔺Ква инженер - QA junior
Отборные джун вакансии и стажировки для QA, тестировщиков.
👉 ПОДПИСАТЬСЯ
Один из лучших гайдов по выборке в больших языковых моделях (LLM Sampling) вышел, написанный создателем движка инференса Aphrodite (этот парень реально обожает сэмплеры)
https://rentry.org/samplers
👉 @DataSciencegx
Внутренности PyTorch
Подробное руководство о том, как разобраться в кодовой базе PyTorch и начать вносить вклад в её развитие
https://blog.ezyang.com/2019/05/pytorch-internals/
👉 @DataSciencegx
Repost from IT Portal
Топ на выходные: 3 сайта с задачками для прокачки ML-навыков
Линейная алгебра, machine и deep learning — разный уровень сложности: задачи отсортированы по Easy, Mediums и Hard. Автоматическая проверка и подсказки в комплекте
Deep-ML, Tensorgym и ML cекция на NeetCode — не благодарите
@IT_Portal
Вот как запустить модель случайного леса на GPU
Hummingbird компилирует обученные традиционные модели машинного обучения в тензорные вычисления. Это позволяет запускать их на аппаратных ускорителях, таких как GPU, для более быстрой инференции.
Инференция в 40 раз быстрее всего за 2 строки кода
👉 @DataSciencegx
Ты знаешь язык, уверен в архитектуре, проектируешь сложные системы, а оффер всё равно уходит другому?
❓Почему так происходит? Читай ответ в нашем гайде.
Тимлиды IT_One собрали в одном файле самые частые ошибки, которые допускают даже опытные кандидаты.
🔥Гайд покажет, как выйти на новый уровень: продавать себя дороже, расти в управлении и попадать в лучшие проекты.
Как получить полезный материал? В закрепленном сообщении канала IT_One!
реклама. ООО "ИТ1-Решения" ИНН: 9717134195, erid: 2VtzqubZXTG
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
