cookie

Utilizamos cookies para mejorar tu experiencia de navegación. Al hacer clic en "Aceptar todo", aceptas el uso de cookies.

avatar

Data Science Мастерская

Сообщество Data Science на русском языке. — обучающие материалы — последние новости из мира DS — обзоры компаний, подборки вакансий и многое другое

Mostrar más
Publicaciones publicitarias
1 156
Suscriptores
-524 horas
-177 días
-6 31330 días

Carga de datos en curso...

Tasa de crecimiento de suscriptores

Carga de datos en curso...

Photo unavailableShow in Telegram
Яндекс разработал и опубликовал библиотеку YaFSDP — собственное решение для ускорения обучения больших языковых моделей. При обучении LLM возникает проблема сложности вычислений и коммуникаций GPU в кластере. Большие расчёты должны синхронизироваться на разных видеокартах, а для этого сами устройства должны обмениваться информацией, чтобы не считать два раза одно и то же. Если GPU делают это неэффективно, то они теряют до 30% недоутилизированной мощности. Библиотека YaFSDP позволяет ускорить обучение больших языковых моделей до 25%. С её помощью можно тратить меньше времени на обучение и расходовать меньше ресурсов графических процессоров (GPU). Подробнее о том, как менялись подходы к оптимизации ресурсов можно прочитать в статье на «Хабре».
Mostrar todo...
ClickHouse: полезные лайфхаки ClickHouse - это колоночная СУБД для OLAP (online-analytical processing). Большинство аналитиков, которых я знаю, в восторге от ClickHouse, хотя его администрирование имеет свои нюансы и подводные камни. В этой статье я расскажу, что такое ClickHouse и почему я считаю его идеально подходящим мощным инструментом для аналитики, а также поделюсь tips & tricks из моего опыта. Поехали. Читать статью
Mostrar todo...
ClickHouse: полезные лайфхаки

Я начала пользоваться ClickHouse до того, как это стало мэйнстримом: первый раз я столкнулась c этой базой данных лет 8 назад. C тех пор я уверена, что это лучшая DB для аналитики. Большинство...

Photo unavailableShow in Telegram
Яндекс запустил Lite-версию генеративной текстовой модели YandexGPT 3 YandexGPT 3 Lite — это облегчённая версия генеративной модели Яндекса нового поколения. Особенность таких Lite-моделей заключается в более высокой скорости ответов, что позволяет решать простые задачи бизнеса буквально в режиме реального времени. Поэтому нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат: например, бот-консультант на сайте, система подсказок для операторов колл-центров или суммаризатор результатов деловых встреч. ✈️ По данным замеров, YandexGPT 3 Lite стала ещё быстрее и точнее — и она уже доступна в режиме release candidate на облачной платформе Yandex Cloud. То есть клиенты могут протестировать её и плавно внедрить в свои продукты через API уже в ближайшее время. Одним из ключевых этапов обучения модели стало выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). В статье на Хабре - детали реализации Alignment и RL.
Mostrar todo...
MLOps. Зачем он нужен и как с ним работать? Обзор полезных инструментов MLOps — это ответвление от DevOps, ряд практик и инструментов, характерных для ML-сферы. По ссылке гайд, рассказывающий о том, что это такое и зачем это нужно.
Mostrar todo...
MLOps. Зачем он нужен и как с ним работать? Обзор полезных инструментов

Когда впервые сталкиваешься с понятием MLOps, нет абсолютно никакого понимания, а зачем это вообще нужно. В разного рода выступлениях, посвященных этой теме, рассказывают о важности воспроизводимости...

Как использовать нейросети в обучении с подкреплением? В чем недостатки классических алгоритмов и как нейросети помогают их решить? Узнайте на открытом практическом уроке от OTUS, где мы разберем: - как реализовать алгоритм Q-learning на базе нейросети и что нам это даст; - различные виды функции потерь и реализацию для алгоритма DQN (Deep Q-learning); - дополнительные условия архитектуры нейросети, моделирующей поведение агента в алгоритме DQN. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд и преподаватель. Встречаемся 13 июня в 20:00 мск в рамках курса «Reinforcement Learning». Все участники вебинара получат специальную цену на обучение! Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://vk.cc/cxzwhc Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Mostrar todo...
00:04
Video unavailableShow in Telegram
VRT: A Video Restoration Transformer Github: https://github.com/jingyunliang/vrt Paper: https://arxiv.org/abs/2201.12288
Mostrar todo...
ezgif-2-20df3d937b.mp44.92 KB
Photo unavailableShow in Telegram
Интересуетесь современными моделями прогнозирования временных рядов? Присоединяйтесь к открытому вебинару 11 июня в 20:00 мск и узнайте все о современных моделях прогнозирования типа TimesNet и TimeGPT! Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд и преподаватель. На занятии вы познакомитесь с основными принципами использования трансформерных моделей в прогнозировании временных рядов и даже попробуете обучить свою модель на их основе. Не упустите возможность узнать о последних тенденциях в этой области и применить их на практике! Занятие посвящено старту курса «Machine Learning. Advanced». Все участники вебинара получат специальную цену на обучение! Записывайтесь сейчас, а мы потом напомним. Участие бесплатно: https://vk.cc/cxywbU Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Mostrar todo...
Data Scientist (Pricing) в Lamoda Tech Мы в поиске Data Scientist в команду Pricing. Чем предстоит заниматься: — Развивать систему динамического ценообразования; — Заниматься построением системы конкурентного ценообразования (матчинг), включающей в себя как модели DL (NLP/CV), так и классический ML; — Использовать модели эластичности в других бизнес продуктах: ранжировании, пополнении стока, промо (купоны) и персональном ценообразовании; — Предлагать новые инициативы, связанные с развитием data-driven подхода в отделе коммерции. Стэк технологий: Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch. Почему у нас классно: — Хорошо выстроенные процессы: квартальное планирование по методологии OKR, двухнедельные спринты, регулярные стендапы и проектные встречи для синхронизации; — Сильная команда middle и senior специалистов, развитое DS-сообщество, где есть возможность обмениваться знаниями на внутренних митапах; — У нас представлен полный жизненный цикл разработки data-driven продуктов с применением ML — от идеи и генерации гипотез до запуска АБ тестов. В части разработки онлайн-сервисов и деплоя моделей нам помогает команда инженеров. Мы ожидаем: — Опыт в области анализа данных и машинного обучения (от 2 лет); — Опыт работы с SQL, Hadoop, Hive, Spark; — Владение Python, Linux, методами работы с большими данными; — Опыт работы как минимум с 2 ML библиотеками: Scikit-learn, CatBoost/XGBoost, PyTorch, Spark ML; — Знания теории вероятностей и математической статистики; — Знания в области машинного обучения, прогнозного моделирования и методов статистического анализа; — Знание алгоритмов и структур данных; — Высшее образование в области прикладной математики, информационных технологий, информатики и т.п; • Английский язык на уровне технического чтения. Как мы работаем: — Пишем на Python 3.6+ и PySpark 3.0; — Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyrerHub и есть доступ к Hadoop-кластеру; — Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов; — Используем Airflow для управления ML-пайплайнами и запуском их по расписанию; — В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач; — Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов; — В компании внедрена культура принятия решений на основании данных и все изменения тестируем через АБ-эксперименты. Откликнуться: https://budu.jobs/vacancy/b26cd0da-148a-431f-a0df-d24cafb78907?vlid=b1f069d6-12ed-408d-9d2b-2fec08c8e2ac
Mostrar todo...
Photo unavailableShow in Telegram
📈7 ключевых книг по визуализации данных Способность аналитика эффективно обрабатывать и представлять данные становится критически важной. Визуализация не просто улучшает понимание сложных наборов данных, но и помогает в принятии обоснованных бизнес-решений. В статье на vc.ru (на русском) и Medium (на английском) Азиз Абдрахимов, Product Analytics Lead из QIC digital hub, делится своим топом ключевых книг, которые должны быть в арсенале каждого аналитика.
Mostrar todo...
Photo unavailableShow in Telegram
## Открой дверь в мир технологий с Технобутик! 🗝️ Технобутик - твой проводник в бескрайнюю вселенную: * 💫 Новейших технологий: будь в курсе последних разработок и инноваций. * 🌐 Интернет-культуры:  погрузись в мир мемов, трендов и онлайн-сообществ. * 🧠 Умных нейросетей:  узнай, как искусственный интеллект меняет нашу жизнь. * 🚀 И многого другого! Подписывайся и расширяй свои горизонты вместе с нами! ➡️ @Technobutik
Mostrar todo...
Elige un Plan Diferente

Tu plan actual sólo permite el análisis de 5 canales. Para obtener más, elige otro plan.