Data Science Мастерская

Сообщество Data Science на русском языке. — обучающие материалы — последние новости из мира DS — обзоры компаний, подборки вакансий и многое другое

Rusia232 692Ruso244 635Tecnologías y Aplicaciones34 159

Publicaciones publicitarias

1 156

Suscriptores

-524 horas

-177 días

-6 31330 días

1 138

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

98.53%

Tasa de compromiso

Sin datos24 horas

Sin datos48 horas

446

Menciones

Sin datos7 días

Sin datos30 días

Sin datos

Mensajes por día

Sin datos

Reacciones

Sin datos

Comentarios

Sin datos

Republicar

Suscriptores
Cobertura postal
ER - ratio de compromiso

Carga de datos en curso...

Photo unavailableShow in Telegram

Яндекс разработал и опубликовал библиотеку YaFSDP — собственное решение для ускорения обучения больших языковых моделей. При обучении LLM возникает проблема сложности вычислений и коммуникаций GPU в кластере. Большие расчёты должны синхронизироваться на разных видеокартах, а для этого сами устройства должны обмениваться информацией, чтобы не считать два раза одно и то же. Если GPU делают это неэффективно, то они теряют до 30% недоутилизированной мощности. Библиотека YaFSDP позволяет ускорить обучение больших языковых моделей до 25%. С её помощью можно тратить меньше времени на обучение и расходовать меньше ресурсов графических процессоров (GPU). Подробнее о том, как менялись подходы к оптимизации ресурсов можно прочитать в статье на «Хабре».

Mostrar todo...

ClickHouse: полезные лайфхаки ClickHouse - это колоночная СУБД для OLAP (online-analytical processing). Большинство аналитиков, которых я знаю, в восторге от ClickHouse, хотя его администрирование имеет свои нюансы и подводные камни. В этой статье я расскажу, что такое ClickHouse и почему я считаю его идеально подходящим мощным инструментом для аналитики, а также поделюсь tips & tricks из моего опыта. Поехали. Читать статью

Mostrar todo...

ClickHouse: полезные лайфхаки

Я начала пользоваться ClickHouse до того, как это стало мэйнстримом: первый раз я столкнулась c этой базой данных лет 8 назад. C тех пор я уверена, что это лучшая DB для аналитики. Большинство...

Photo unavailableShow in Telegram

Яндекс запустил Lite-версию генеративной текстовой модели YandexGPT 3 YandexGPT 3 Lite — это облегчённая версия генеративной модели Яндекса нового поколения. Особенность таких Lite-моделей заключается в более высокой скорости ответов, что позволяет решать простые задачи бизнеса буквально в режиме реального времени. Поэтому нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат: например, бот-консультант на сайте, система подсказок для операторов колл-центров или суммаризатор результатов деловых встреч. ✈️ По данным замеров, YandexGPT 3 Lite стала ещё быстрее и точнее — и она уже доступна в режиме release candidate на облачной платформе Yandex Cloud. То есть клиенты могут протестировать её и плавно внедрить в свои продукты через API уже в ближайшее время. Одним из ключевых этапов обучения модели стало выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). В статье на Хабре - детали реализации Alignment и RL.

Mostrar todo...

MLOps. Зачем он нужен и как с ним работать? Обзор полезных инструментов MLOps — это ответвление от DevOps, ряд практик и инструментов, характерных для ML-сферы. По ссылке гайд, рассказывающий о том, что это такое и зачем это нужно.

Mostrar todo...

MLOps. Зачем он нужен и как с ним работать? Обзор полезных инструментов

Когда впервые сталкиваешься с понятием MLOps, нет абсолютно никакого понимания, а зачем это вообще нужно. В разного рода выступлениях, посвященных этой теме, рассказывают о важности воспроизводимости...

Как использовать нейросети в обучении с подкреплением? В чем недостатки классических алгоритмов и как нейросети помогают их решить? Узнайте на открытом практическом уроке от OTUS, где мы разберем: - как реализовать алгоритм Q-learning на базе нейросети и что нам это даст; - различные виды функции потерь и реализацию для алгоритма DQN (Deep Q-learning); - дополнительные условия архитектуры нейросети, моделирующей поведение агента в алгоритме DQN. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд и преподаватель. Встречаемся 13 июня в 20:00 мск в рамках курса «Reinforcement Learning». Все участники вебинара получат специальную цену на обучение! Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://vk.cc/cxzwhc Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Mostrar todo...

00:04

Video unavailableShow in Telegram

VRT: A Video Restoration Transformer Github: https://github.com/jingyunliang/vrt Paper: https://arxiv.org/abs/2201.12288

Mostrar todo...

ezgif-2-20df3d937b.mp44.92 KB

Photo unavailableShow in Telegram

Интересуетесь современными моделями прогнозирования временных рядов? Присоединяйтесь к открытому вебинару 11 июня в 20:00 мск и узнайте все о современных моделях прогнозирования типа TimesNet и TimeGPT! Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд и преподаватель. На занятии вы познакомитесь с основными принципами использования трансформерных моделей в прогнозировании временных рядов и даже попробуете обучить свою модель на их основе. Не упустите возможность узнать о последних тенденциях в этой области и применить их на практике! Занятие посвящено старту курса «Machine Learning. Advanced». Все участники вебинара получат специальную цену на обучение! Записывайтесь сейчас, а мы потом напомним. Участие бесплатно: https://vk.cc/cxywbU Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Mostrar todo...

Data Scientist (Pricing) в Lamoda Tech Мы в поиске Data Scientist в команду Pricing. Чем предстоит заниматься: — Развивать систему динамического ценообразования; — Заниматься построением системы конкурентного ценообразования (матчинг), включающей в себя как модели DL (NLP/CV), так и классический ML; — Использовать модели эластичности в других бизнес продуктах: ранжировании, пополнении стока, промо (купоны) и персональном ценообразовании; — Предлагать новые инициативы, связанные с развитием data-driven подхода в отделе коммерции. Стэк технологий: Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch. Почему у нас классно: — Хорошо выстроенные процессы: квартальное планирование по методологии OKR, двухнедельные спринты, регулярные стендапы и проектные встречи для синхронизации; — Сильная команда middle и senior специалистов, развитое DS-сообщество, где есть возможность обмениваться знаниями на внутренних митапах; — У нас представлен полный жизненный цикл разработки data-driven продуктов с применением ML — от идеи и генерации гипотез до запуска АБ тестов. В части разработки онлайн-сервисов и деплоя моделей нам помогает команда инженеров. Мы ожидаем: — Опыт в области анализа данных и машинного обучения (от 2 лет); — Опыт работы с SQL, Hadoop, Hive, Spark; — Владение Python, Linux, методами работы с большими данными; — Опыт работы как минимум с 2 ML библиотеками: Scikit-learn, CatBoost/XGBoost, PyTorch, Spark ML; — Знания теории вероятностей и математической статистики; — Знания в области машинного обучения, прогнозного моделирования и методов статистического анализа; — Знание алгоритмов и структур данных; — Высшее образование в области прикладной математики, информационных технологий, информатики и т.п; • Английский язык на уровне технического чтения. Как мы работаем: — Пишем на Python 3.6+ и PySpark 3.0; — Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyrerHub и есть доступ к Hadoop-кластеру; — Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов; — Используем Airflow для управления ML-пайплайнами и запуском их по расписанию; — В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач; — Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов; — В компании внедрена культура принятия решений на основании данных и все изменения тестируем через АБ-эксперименты. Откликнуться: https://budu.jobs/vacancy/b26cd0da-148a-431f-a0df-d24cafb78907?vlid=b1f069d6-12ed-408d-9d2b-2fec08c8e2ac

Mostrar todo...

Photo unavailableShow in Telegram

📈7 ключевых книг по визуализации данных Способность аналитика эффективно обрабатывать и представлять данные становится критически важной. Визуализация не просто улучшает понимание сложных наборов данных, но и помогает в принятии обоснованных бизнес-решений. В статье на vc.ru (на русском) и Medium (на английском) Азиз Абдрахимов, Product Analytics Lead из QIC digital hub, делится своим топом ключевых книг, которые должны быть в арсенале каждого аналитика.

Mostrar todo...

Repost from Технобутик

Photo unavailableShow in Telegram

## Открой дверь в мир технологий с Технобутик! 🗝️ Технобутик - твой проводник в бескрайнюю вселенную: * 💫 Новейших технологий: будь в курсе последних разработок и инноваций. * 🌐 Интернет-культуры: погрузись в мир мемов, трендов и онлайн-сообществ. * 🧠 Умных нейросетей: узнай, как искусственный интеллект меняет нашу жизнь. * 🚀 И многого другого! Подписывайся и расширяй свои горизонты вместе с нами! ➡️ @Technobutik

Mostrar todo...

Elige un Plan Diferente

Tu plan actual sólo permite el análisis de 5 canales. Para obtener más, elige otro plan.