Data Portal | DS & ML

Открыть в Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

Больше

Сеть:IT Portal Россия75 941 Технологии и приложения13 882

8 404

Подписчики

-724 часа

-77 дней

-430 день

951

Просмотры поста

~ 57524 часа

~ 69048 часов

11.31%

Коэффициент вовлеченности

~ 2

Постов в день

Ads index

beta

Архив постов

8 405

Открыт приём в 6-й набор Sber500! Ищем молодые стартапы в AI, DeepTech, FinTech и смежных сферах. Программа проходит онлайн на английском языке, длится примерно 3 месяца и полностью бесплатна. Что ждёт участников: • Онлайн-буткемп для 150 стартапов, где эксперты помогут скорректировать стратегию, подготовиться к масштабированию, укрепить позиции на рынке и найти партнёров для пилотирования. • Лучшие 25 команд продолжат работу с поддержкой менторов с международным опытом и получат доступ к инвесторам. • В финале 25 участников представят свои проекты на Демо-дне в Москве представителям корпораций и фондов, получат PR-поддержку. ⚠️ Да, форма заявки объёмная — и это не случайно. Чем больше усилий вложите сейчас, тем выше шансы пройти отбор и получить реальный шанс масштабировать ваш проект! Дедлайн продлён до 9 июня Подать заявку → https://short-link.me/-I9D Создаёте что-то по-настоящему амбициозное? Присоединяйтесь!

8 405

Одна команда для сборки, деплоя и масштабирования AI-агентов! xpander — это готовый к использованию Backend-as-a-Service для агентов: управляет памятью, инструментами, многопользовательскими состояниями, событиями, ограничениями и многим другим. Совместим с LlamaIndex, Langchain, CrewAI, Google ADK — и не только. Полностью с открытым исходным кодом https://github.com/xpander-ai/xpander.ai 👉 @DataSciencegx

8 405

Яндекс B2B Tech выкатил YTsaurus — крутейшую платформу для обработки данных любого размера: от пары гигабайт до эксабайтных хранилищ Под капотом классический MapReduce, ClickHouse, Apache Spark и прочие вкусности. Подходит как для ETL, так и для ML-моделей с миллиардами параметров. Работает облачно (управляемый сервис с поддержкой) и on-premise — выбирай, что по душе. Внутри Яндекса эту штуку пилят уже с 2010 года — на ней и YandexGPT обучают, и поисковый индекс держат, и промо на Маркете обсчитывают. В общем, отлажено на боевых нагрузках, а не в песочнице. Ранний доступ уже открыт, заявку кидать здесь

8 405

Семинарская серия Stanford MLSys Это самый практичный, технически насыщенный и содержательный ресурс, который я нашёл по теме реальных ML-систем. И всё это бесплатно доступно на YouTube. Что внутри: 🔹 Эффективное обучение и развёртывание масштабных LLM 🔹 LoRAX, FlashAttention → более быстрые, дешёвые и компактные модели 🔹 Квантование и стратегии развёртывания на edge-устройствах 🔹 Full-stack ML: инфраструктура, инструменты и MLOps 🔹 Ориентированные на данные пайплайны и поведенческое тестирование 🔹 Как проектирование аппаратного обеспечения влияет на современные ML-системы Среди докладчиков — инженеры и исследователи из Stanford, Netflix, Hugging Face и Snorkel. Сохраните в закладки. Поделитесь с тем, кто глубоко погружён в ML-инфраструктуру или развёртывание. Это настоящая находка. https://www.youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq 👉 @DataSciencegx

8 405

5 техник дообучения LLM Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре. Вот 5 оптимальных способов дообучения LLM: 1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты). 2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти. 3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм. 4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов. 5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает. 👉 @DataSciencegx

8 405

🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся. Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат. Как он это сделал: 1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG». 2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик. 3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма. Посты про конвертер (ч.1, ч.2) Что из этого получилось: — Доход $500 в месяц с тенденцией роста. — Более $10K заработано на конвертере. — $0 на рекламу, всего $40 в месяц на сервер. Выводы: — Люди платят за удобство, даже если есть бесплатные аналоги. — Продукт функционирует автоматически с минимальной поддержкой. — Быстрая и экономичная проверка идеи может быть успешной. Результаты из комьюнити билдеров: — Более 400 запусков по этой методике. — Некоторые продукты уже набрали от 50К до 100К+ пользователей. Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.

8 405

Matrix Cookbook от Университета Ватерлоо — это краткая «шпаргалка», содержащая сотни матричных тождеств, производных, разложений и статистических формул, к которым вы будете обращаться всякий раз, когда линейная алгебра становится сложной. Идеально подходит в качестве настольного справочника для ускорения вывода формул и математических расчётов в машинном обучении https://github.com/AniruddhaChattopadhyay/Books/blob/main/matrixcookbook.pdf 👉 @DataSciencegx

8 405

Возможность для специалистов по Data Science. Яндекс Практикум ищет экспертов! Яндекс Практикум — сервис современного онлайн-образования, где обучают актуальным цифровым профессиям. Сейчас есть возможность присоединиться к команде в роли автора курса. Что делает автор курса? Разрабатывает уроки, тесты, чек-листы, а если шире, то его задача так упаковать свой опыт, чтобы заинтересовать, объяснять и мотивировать. В Практикуме понимают уровень загрузки опытного специалиста, поэтому условия максимально комфортные: удалёнка, гибкий график и частичная занятость от 10 часов в неделю — не помешает ни основной работе, ни отдыху. От кандидата ожидают: ✔️ Техническое образование (преимущественно в области ML). ✔️ Опыт работы Data scientist или на смежных позициях от 3-х лет. ✔️ Непреодолимое желание делиться знаниями и опытом, рассказывать сложное доступно и понятно. Так, чтобы вас поняли люди без опыта в этой сфере. → Откликнуться

8 405

Hugging Face выкатили бесплатный курс по MCP (Model Context Protocol) — всё, что нужно, чтобы разобраться, как это работает и как использовать на практике. Покажут, что такое MCP, как коннектить LLM-ки, как разворачивать свои MCP-сервера. Без воды, только суть. Курс бесплатный. Ссылка: https://huggingface.co/learn/mcp-course/unit0/introduction 👉 @DataSciencegx

8 405

Нарыл годную визуализацию для тех, кто хочет на пальцах понять, как устроены LLM. Тут можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон в 3D Есть GPT-2, nanoGPT, GPT-2 XL и GPT-3 Лучше запускать с компа, на мобиле не так красиво 👉 @DataSciencegx

8 405

Каждый год говорят, что Python устарел. Но на деле: 🔹 Google, YouTube, Netflix используют Python в своих сервисах 🔹 Разработчики в Data Science и AI активно применяют Python 🔹 Кибербезопасность – многие инструменты для пентеста создаются именно на Python Если вы интересуетесь разработкой или хотите освоить новый язык программирования, обратите внимание на бесплатный мини-курс по Python от Skillbox. Он поможет разобраться в базовых навыках и научит применять их на практике. Переходите по ссылке и регистрируйтесь: https://epic.st/GikkaQ?erid=2VtzqxP2NNp Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

8 405

Нашел видеоуроки по построению DeepSeek с нуля — уже вышло 25 выпусков. Объясняется неплохо, можно смотреть вместе с руководством по построению DeepSeek с нуля на HuggingFace. Ссылка: http://youtube.com/watch?v=QWNxQIq0hMo&list=PLPTV0NXA_ZSiOpKKlHCyOq9lnp-dLvlms 👉 @DataSciencegx

8 405

Эти лекции были записаны 10 лет назад, но до сих пор, вероятно, остаются одними из лучших по следующим темам — теория информации и распознавание образов. Основаны на книге Information Theory, Inference, and Learning Algorithm https://www.youtube.com/playlist?list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6 👉 @DataSciencegx

8 405

Создание трансформера с нуля https://github.com/DorsaRoh/Machine-Learning Реализация и подробное объяснение трансформера, с расчётом на полное отсутствие предварительных знаний. Приятного изучения ✌️ 👉 @DataSciencegx

8 405

⚡ Новые каналы с вакансиями и стажировками для джунов В этих каналах публикуются все свежие вакансии и стажировки 🔺 ВАКАНСИИ Горячие вакансии с привлекательными офферами для джуниор разработчиков, аналитиков, дизайнеров и QA-специалистов. 👉 ПОДПИСАТЬСЯ 🔺СТАЖИРОВКИ Стажировки для начинающих специалистов в IT независимо от возраста! 👉 ПОДПИСАТЬСЯ 🔺IT interns Свежие стажировки для junior специалистов в топовых компании России и мира 👉 ПОДПИСАТЬСЯ 🔺Junojobs Вакансии и стажировки для junior-разработчиков на удалёнке. 👉 ПОДПИСАТЬСЯ 🔺БИГТЕХ Junior вакансии и стажировки в крупнейших IT-компаниях мира: NVidia, Apple, T-банк, Яндекс, Google и т. д. 👉 ПОДПИСАТЬСЯ 🔺Ква инженер - QA junior Отборные джун вакансии и стажировки для QA, тестировщиков. 👉 ПОДПИСАТЬСЯ

8 405

Один из лучших гайдов по выборке в больших языковых моделях (LLM Sampling) вышел, написанный создателем движка инференса Aphrodite (этот парень реально обожает сэмплеры) https://rentry.org/samplers 👉 @DataSciencegx

8 405

Внутренности PyTorch Подробное руководство о том, как разобраться в кодовой базе PyTorch и начать вносить вклад в её развитие https://blog.ezyang.com/2019/05/pytorch-internals/ 👉 @DataSciencegx

8 405

Repost from IT Portal

Топ на выходные: 3 сайта с задачками для прокачки ML-навыков Линейная алгебра, machine и deep learning — разный уровень сложности: задачи отсортированы по Easy, Mediums и Hard. Автоматическая проверка и подсказки в комплекте Deep-ML, Tensorgym и ML cекция на NeetCode — не благодарите @IT_Portal

8 405

Вот как запустить модель случайного леса на GPU Hummingbird компилирует обученные традиционные модели машинного обучения в тензорные вычисления. Это позволяет запускать их на аппаратных ускорителях, таких как GPU, для более быстрой инференции. Инференция в 40 раз быстрее всего за 2 строки кода 👉 @DataSciencegx

8 405

Ты знаешь язык, уверен в архитектуре, проектируешь сложные системы, а оффер всё равно уходит другому? ❓Почему так происходит? Читай ответ в нашем гайде. Тимлиды IT_One собрали в одном файле самые частые ошибки, которые допускают даже опытные кандидаты. 🔥Гайд покажет, как выйти на новый уровень: продавать себя дороже, расти в управлении и попадать в лучшие проекты. Как получить полезный материал? В закрепленном сообщении канала IT_One! реклама. ООО "ИТ1-Решения" ИНН: 9717134195, erid: 2VtzqubZXTG