Start Career in DS

رفتن به کانال در Telegram

Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям. Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :) Автор: @RAVasiliev № 5141779667

نمایش بیشتر

روسيا56 238 فناوری و برنامه‌ها10 709...

📈 تحلیل کانال تلگرام Start Career in DS

کانال Start Career in DS (@start_ds) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 11 647 مشترک است و جایگاه 10 709 را در دسته فناوری و برنامه‌ها و رتبه 56 238 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 11 647 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 25 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -31 و در ۲۴ ساعت گذشته برابر -4 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 31.66% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً N/A% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 0 بازدید دریافت می‌کند. در اولین روز معمولاً 0 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 0 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند learning, llm, хабре, ментор, объяснение تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям. Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :) Автор: @RAVasiliev № 5141779667”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 26 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

11 647

مشترکین

-424 ساعت

-47 روز

-3130 روز

3 687

نمایش های پست

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد48 ساعت

31.66%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

11 647

🐶 Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные У Andrey Karpathy есть такой твит:

How to become expert at thing: 1 iteratively take on concrete projects and accomplish them depth wise, learning “on demand” (ie don’t learn bottom up breadth wise) 2 teach/summarize everything you learn in your own words 3 only compare yourself to younger you, never to others

, в котором ясно сказано, что, чтобы по-настоящему «зашарить в теме», нужно взять проект и усердно работать над ним

Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия.

Вообще, про Pet-проекты и их важность в резюме мы уже писали один обзорный пост, но хотим напомнить ещё: в этот раз подробно разберем каждый этап создания пет-проекта, чтобы у вас больше не осталось причин не делать его: сегодня обсудим идею проекта и откуда можно взять данные для него # Идея – Если идей нет, то участвуйте во всяких хакатонах (можно посмотреть актуальные на сайте хакатоны.рус или ods.ai) и kaggle-чемпионатах – Не думайте, берите и делайте! У ODS 25 июля стартует хакатон, в котором команды вайбкодят пет-проекты – найти себе единомышленников можно в их чате @ods_pet_projects, зарегистрироваться можно в форме до 24 июля, а посмотреть проекты прошлых лет можно тут – Очень важно, чтобы идея резонировала с вами. Вместо того, чтобы брать скучную идею, лучше подольше подумать над ней – Чтобы найти такую идею, можно обратиться к ChatGPT/Perplexity, рассказать им свои интересы и увлечения, и с какой-то вероятностью вы получите что-то действительно годное – Копировать чужую идею – норм. Если вам что-то интересно, но это уже существует, ничего страшного, как минимум вы разберетесь в том, как это работает подробнее, как максимум – сделаете лучше # Данные Можно чуть заморочиться и тянуть данные через api (например, у HeadHunter), но мы собрали супер-подборку, откуда можно напрямую скачать годные данные в удобном формате: – Kaggle Datasets: датасеты на любой вкус, многие из которых уже стали классикой ML-жанра – Google Dataset: поможет найти необходимый датасет и подскажет, где и в каком формате можно скачать – Исследования 2ГИС: содержит стату по сферам экономики в городах России, удобно экспортируется в Excel – Google Trends: отличный вариант, если хочется поисследовать популярность чего-либо. Можно выгрузить динамику популярности, популярность по субрегионам, "еще по теме" и похожие запросы в формате csv. – Датасет с отзывами на Яндекс картах: хороший вариант потренироваться в NLP – BI Portal Росстата: собранная статистика по РФ и агрегированные датасетов, которые можно экспортировать в Excel или CSV А еще нашли для вас годную репу на гитхабе со сборником PET-проектов по DS. Советуем сначала посмотреть идеи, оформления и лучшие практики там, перед тем как начать делать свой проект. Насмотренность порождает качество! Ставьте 🔥, и пишите в комментарии самые абсурдные идеи для пет проектов) Как только пост наберет больше 50 огонечков, дропаем следующую часть

11 647

Школа Аналитиков-Разработчиков Яндекса До 27 апреля можно подать заявку на бесплатный интенсив, выпускники которого становятся аналитиками в Яндексе. Это ШАР, где мы рассказываем, как свободно работать с данными, извлекать из них смыслы и принимать на их основе обоснованные решения. Впервые в этом году участникам ШАРа можно выбрать направление: Data Engineering или Data Science. Стартуем 2 июня со всеми, кто пройдёт отбор. Сначала лекции и домашки, потом командный проект с участниками других направлений. Всего в этом году Яндекс запускаем семь Летних школ для разработчиков, менеджеров, девопсов и т.д. ШАР — это шанс прокачаться и попасть на стажировку в Яндекс (или сразу в штат) и познакомиться с новыми близкими по духу ребятами. Детали, отзывы и кнопка Подать заявку здесь: https://yandex.ru/yaintern/schools/analytics

11 647

Магистратура МФТИ и Авито по Data Science 😎 МФТИ и Авито проводят День Открытых Дверей по магистратуре «Прикладное машинное обучение и анализ данных»! Когда: 8 апреля Где: МФТИ, Долгопрудный, Институтский пер., 9, стр. 3, главный корпус, ауд. 119 Во сколько: начало в 18:30 (сбор с 18:15) Что будет: — Коллеги расскажут про программу, поотвечают на насущные вопросы — Можно будет пообщаться с экспертами программы и бывшими студентами — Неформальный нетворкинг за пиццей: разговоры о карьере и не только Чем хороша программа: — Фокус на практику, преподаватели — одни из лучших экспертов рынка — Бесплатное обучение (2 года) — Возможность попасть на стажировку в Авито по фаст-треку — 25 000 ₽ стипендия для лучших, общежитие для иногородних студентов Зарегистрироваться можно тут

11 647

ML Cup 2025 от Авито с призвым фондом 1,2 миллиона рублей! Коллеги из Авито проводят интересный kaggle-like чемпионат, предлагаем вам поучаствовать 🙂 Что будет на капе: - Денежный призовой фонд - Автоматизированная оценка решений - 2 практические задачи: Задачи есть две на выбор: 1. Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию. 2. Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию. Можно выбрать одну или обе задачи для решения. Участвовать можно как индивидуально, так и в команде до 4 человек. Загружать можно до 5 решений в день. Зарегистрироваться можно по ссылкам выше 🙂

11 647

Всем привет! Хотим снова посоветовать вам канал Макса @zasql_python - продуктового аналитика в Яндекс Лавке. В своем блоге он пишет про различные интересные вещи, связанные с ML, A/B тестами + старается актуализировать трек обучения для вкатышей в аналитику / DS. Вот, например, его пост с роадмапом в продуктовой аналитике 🥰 По A/B тестам вышла еще часть постов (дополнительно к тем, которые были): 1. Про ухудшающие A/B тесты 2. Про сравнение байесовского и частотного A/B тестирования Помимо этого он выпускал различные посты по продуктовой части: 1. Каннибализация продуктов 2. Разбор хэндбука Duolingo со стратегией 3. Разбор концепции из книги Hooked 4. Пенетрация пользователей в продукте И другие посты, которые направлены на рост аналитика внутри продукта + ML. Макс очень сильно топит за взаимодействие аналитики с бизнесом. На эту тематику у него также есть посты. Если вам это откликнулось, подписывайтесь, здесь много всего интересного

11 647

📢 Опросник о зарплатах в Data Science Женя из @not_boring_ds запустил клёвый опрос, который поможет лучше понять текущее состояние рынка в российском DS. Приглашаем вас принять участие и внести свой вклад! 📝 Что внутри опроса? Затрагивает ключевые аспекты вашей работы: опыт, текущая роль, тип данных, с которыми работаете, уровень зарплаты и степень удовлетворенности. На прохождение опроса уйдет буквально 5 минут. Будем пристально следить за результатами и обязательно поделимся с вами первыми! ❤️ [Ссылка на опросник]

11 647

🔥 Кто такой ML-инженер в 2025 году? Машинное обучение не стоит на месте — требования к ML-специалистам растут, появляются новые стандарты. Как не выпасть из профессии и оставаться востребованным? Ребята из ИТМО и karpov. courses обсудят это на бесплатном митапе 26 февраля в 18:00 (мск). Что будет на митапе: — главные тренды ML-индустрии в 2025 году; — как ML меняет бизнес, в частности FinTech и ритейл; — какие навыки нужны ML-инженеру для развития в профессии; — как попасть на совместную программу от karpov. courses и ИТМО. Кто спикеры: — Анатолий Карпов — основатель karpov. courses, самый популярный эксперт в России в сфере аналитики по версии NEWHR, автор курсов по DS; — Дмитрий Ботов — руководитель магистратуры по AI в ИТМО × Napoleon IT, сооснователь AI Talent Hub. Зарегистрироваться можно здесь. Реклама. Университет ИТМО ИНН:7813045547 erid:2Vtzqv4Fqst

11 647

Что такое Git и зачем он нужен Data Scientist'у Git — важный инструмент разработки, который необходим каждому, кто пишет код, включая DS-специалистам. Git - это система (программа), которая позволяет отслеживать и вести изменения в файлах вашего проекта. Git - преимущественно используется в разработке, но иногда и в других областях. 🗂 Репозиторий - это хранилище вашего кода для одного или нескольких проектов. Git позволяет хранить репозитории локально или использовать специальные веб-сайты: GitHub, Bitbucket, GitLab. 🔝 Основные преимущества Git: 1. Контроль версий — возможность фиксировать каждое изменение в проекте и возвращаться к любой версии кода. 2. Работа в команде — удобная командная разработка без конфликтов в коде. 3. Воспроизводимость — возможность фиксировать состояние кода и данных. 4. Портфолио/Трудоустройство — работодатели часто используют GitHub, как способ оценить навыки кандидата 5. Безопасность — код хранится не только на вашем компьютере, но и в удаленном репозитории. 📚Дополнительные материалы по теме: - Подборка постов про Git от нашего канала🤗 - [RU] Официальная документация Git на русском - [RU] Интерактивный тренажер с доступной теорией и практикой ключевых концепций Git - [ENG] Официальная документация по GitHub (подойдет как новичкам для знакомство с платформой, так и опытным юзерам для продвинутого использования) - [RU] Git за полчаса - руководство для начинающих - [RU] Репозиторий с советами и трюками по Git Ставьте ❤️ и 🔥под данным постом! И не забывайте делиться полезными ресурсами по Git в комментариях!

11 647

📚 Weekend offer в Яндексе На связи Рома Васильев, создатель этого канала. Проводим 1-2 марта оффер выходного дня для аналитиков в Яндексе, будем нанимать в том числе и в мою команду (аналитики международного Поиска)! Что будет: - В субботу (1 марта) - технические секции (будут алгоритмы, секция на написание кода для анализа данных и секция по теорверу-матстату-аналитике) - В воскресенье (2 марта) - финалы с командами и офферы Почему оно стоит того: - Многие жалуются на то, что секции в Яндексе долгие и томные, а тут есть возможность порешать всё за 2 дня. - Нанимают сейчас в разные клёвые команды Большого Яндекса (Поиск, Алиса, Карты и тд) - Яндекс предлагает вполне хорошие условия Как готовиться: - Вспомнить алгоритмы на python можно например тут, плюс хорошо бы освежить в голове написание кода для анализа данных - Вспомнить теорию по теорверу и матстату можно на основе постов в нашем канале (например тут) 🙂 - Подумать о том, как грамотно рассказать о себе и своём опыте на финале Где зарегистрироваться: Вот тут

11 647

🎯 Как вкатиться в NLP: подборка основных RoadMaps 🔥Современный мир Data Science стремительно меняется, и чтобы оставаться востребованным специалистом, важно следить за актуальными трендами. Для этого мы собрали подборку RoadMaps по развитию в NLP и готовы поделиться им с вами! 0⃣ [ENG] NLP-Course от Лены Войты Не RoadMap, но этот курс заслуживает, чтобы быть в подборке. Курс затрагивает ключевые NLP-темы: Word Embeddings, классификация текстов, языковое моделирование и многое другое. Хватит с головой, чтобы погрузиться в NLP. 1️⃣ [ENG] Step-by-Step RoadMap по NLP Дорожная карта поэтапно описывает основные шаги изучения NLP, начиная от базовых тем (текст пре-процессинг, векторное представление текста, описание основные NLP задач) и заканчивая более продвинутыми (деплой NLP-моделей, Transfromers, LLM-библиотеки и MLOps для NLP). 2️⃣ [ENG] RoadMap to Learn NLP and LLMs RoadMap погружает в NLP, рассказывая об основных принципах, методах и алгоритмах, используемыми в NLP (токенизация, стемминг, лемматизация, NER и многое другое). Также в источнике есть блоки о продвинутом NLP с Deep Learning, сопровождая все темы дополнительными источниками для изучения. 3️⃣ [ENG] Git-репозиторий с RoadMap по NLP RoadMap 2019 года, но в нем содержится избыточный набор тем по Text Mining, Probability & Statistics и classic-ML. Покрывает все базовые концепции классического NLP для изучения более продвинутых и современных тем. 4️⃣ [RU] Git-репозиторий c NLP Compass на русском Репозиторий содержит несколько ключевых информативных диаграмм, которые постоянно обновляются: - Python-библиотеки при работе с NLP - Диаграмма Эйлера-Венна по навыкам и обязанностям от NLP-разработчика до исследователя - Большая дорожная карта по NLP (есть даже современные ТОП-темы - PEFT, Промпт-инжиниринг) В добавок в репозитории есть огромный набор NLP-туториалов по разным темам. 5️⃣ [ENG] GIt-репозиторий с LLM-курсами и RoadMaps Репозиторий содержит огромный набор курсов и источников по современному NLP и LLMs. Курсы разбиты по трем разным уровням: LLM Fundamentals, LLM Scientist, LLM Engineer. Также есть RoadMaps по каждому уровню с доп. источниками и ссылками на Colab с кодом. Не забывайте ставить ❤️ и 🔥за крутые подборки! Пишите комментарии и делитесь своими ресурсами! До встречи👋

11 647

🔥 Сборники тестовых заданий и видео разборы реальных тестовых 👇 📦 Сборник тестовых заданий для Product Analyst и Data Analyst - задачи с реальных собеседований с решением, задачи разделены про грейдам, сферам компаний и тематикам: аб тесты, SQL, Python, логика и тд 📦 [eng/ru]Home assignments for data science positions - тестовые задания от разных компаний, на позицию, связанную с DS. Например, задания от Альфабанка, МТС, Wargaming, Uber 📹 Решаем реальное тестовое задание позицию Data Scientist - решение тестового задания, которое сгенерировал чат GPT. Чистка данных и заполнение пропусков, построение random forest и обучение модели 📹 Разбор тестового задания на позицию junior аналитика данных - Анатолий Карпов сам решает тестовое, нужно провести базовый когортный анализ, пример использования Pandas (генерация данных, фильтрация, группировка) 📹 Разбор тестового задания на позицию junior-аналитика в Банк ВТБ - разбор от школы Simulative, нужно оценить эффективность маркетинговой кампании, пример использования Pandas и sqlite3 (фильтрация, группировка, агрегация) 📹 Разбираем тестовое задание в OZON на джуниор-аналитика - разбор от школы Simulative, несколько задач: генерация датасета, подсчет среднего значения, алгоритмическая задача, задача на знание статистики. Используется Pandas и Numpy Сохраняйте подборку! Ставьте 🔥 и ❤️!

11 647

💻 Где искать вакансии в Data-профессиях? Многие утверждают, что прохождение собеседований - чуть ли не отдельный навык, который нужно тренировать. А чтобы его тренировать, нужно ходить по собеседованиям и развивать соотвествующую мышцу 🙂 Сделали для вас подборку каналов для поиска вакансий в Data-профессиях (DS/DA/DE/ML/etc.): 1. Your Dream Data Job Вакансии на позиции в аналитике/ml/data science в российские компании . К каждой вакансии прилагается короткое описание позиции + полезная статья, релевантная к позиции. 2. Offer Inside Job Вакансии в международных компаниях с русскими фаундерами и командами. Помимо самих вакансий, у ребят есть сопровождение по составлению CV и подготовке к секциям 3. Нескучный Data Science Jobs Вакансии от Жени Смирнова с подробным описанием: от имеющегося для железа до роли data science в этой компании 4. Data Science Jobs Частые вакансии буквально на любые роли - от преподавателей на курсы по ML до руководительсиких позиций в международные компании. Оставляйте свои 🔥 если хотите вторую часть поборки!

11 647

💼 Делегировать — сложно. Капец как сложно. Памятка юного руководителя. Когда ты джун или мидл, всё просто: тебе дают задачки, ты их делаешь и закрываешь. Со стороны работа руководителя иногда кажется очень простой: сидишь, раздаешь задачки, чилишь, периодически пишешь «ну чё как там?». Однако всё совсем не так просто. Один из самых важных навыков руководителя — умение делегировать. В этом посте поделюсь с вами тем, как я это вижу и как можно развивать этот навык (на своём примере) Чтобы грамотно делегировать, нужно: 1. Понять, какой формат взаимодействия с конкретным человеком будет наиболее эффективен. К примеру, если сотрудник опытный - с ним можно работать на уровне проблем ("у нас падают показатели - разберись, пожалуйста"), а если сотрудник впервые стакливается с проектом/задачей - нужно явно проговорить план решения задачи и контрольные точки 2. Довериться другому человеку. Сделать с ним план решения задачи такой, чтобы ему было комфортно (не уходить в гиперконтроль, но и не оставлять человека один на один с непонятной задачей) 3. Уметь максимально ясно и подробно объяснить, что от человека нужно и для чего это нужно сделать. На языке, который этот человек поймет! 4. Понять, что возможно, всё не получится с первой попытки. Заложить это в сроки проекта и воспринимать спокойно 5. В противовес пункту 3 – четко определить, какое качество и скорость работы приемлемы в этой ситуации, и явно донести это до человека. Иногда — весьма строго. Если сотрудник стабильно не справляется, четко ему об этом сказать 6. Давать возможность человеку ошибаться. Гиперконтроль над сотрудником не позволяет ему учиться на своих ошибках Как лично я стараюсь развивать эти навыки (помимо основной работы): 1. Общаюсь с руководителями, на которых хочется равняться, и перенимаю лучшие практики от них 2. У меня есть команда, которая занимается проектом Start Career in DS. Стараюсь выстроить процессы в своих проектах максимально эффективно, чтобы ребята могли готовить хорошие посты, сами проверять метрики, делать контент-планы и т. д. Получается весьма хорошо! 3. Периодически беру дополнительные активности, которые позволяют поработать с новой командой. Например, в этом году мы делали Яндекс Кап, в котором пришлось собрать совершенно новую команду (которая не работала вместе ранее) 4. Преподаю. Преподавание позволяет развивать навык объяснения информации таким образом, чтобы люди могли быстро воспринимать абсолютный новый для них материал 5. Учусь. Курсы по управлению иногда кажутся набором максимально очевидных фактов, но среди них можно найти весьма полезные! К слову, недавно я прошёл очень клёвый курс по менеджменту. Оставляйте 🔥 если тема для вас интересна и стоит поделиться инсайтами из него 🙂

11 647

📚 Книги по ML/DS Мы периодически рекомендуем вам книги по DS или разыгрываем их в канале, решили собрать полезные книги в одном посте! 📚 💻 Если знакомы с DS/ML слабо и хотите чуть лучше понять где и как это может применяться: 0. Роман с Data Science Автор книги Роман Зыков - человек, который строил с нуля аналитику в Ozon.ru, а также основал свою компанию, которая занимается анализом данных. В книге он рассказывает о своих 1. Машинное обучение для бизнеса и маркетинга На пальцах про все основные возможности применения машинного обучения в классическом бизнесе (на самом деле, совсем не только в маркетинге!) 2. DS для карьериста Достаточно старая книжка, но многие советы ещё актуальны! Про то, как строить карьеру в DS 💼 Если хотите натаскаться к собеседованиям и отточить знания основ: 0. [ENG]Cracking the coding interview Тут собраны все задачки с алгоритмических интервью в корпорациях, а также ключевые идеи и подходы к их решению 1. Серия "Грокаем": сложные вещи описаны простым языком и дополнены нестандартными иллюстрациями - Грокаем алгоритмы - Грокаем машинное обучение - Грокаем глубокое обучение 2. Доверительное А/В-тестирование Ключевые идеи АВ-тестирования понятным языком 🥷 Если уже знаете основы и хотите углубить свои знания: 0. [ENG]Machine Learning System Design Книга Валерия Бабушкина и Арсения Кравченко по ML System Design. И этим всё сказано 🙂 1. [ENG]Understanding Deep Learning Книга с лекциями, презентациями и приложенными юпитер-ноутбуками для того, чтобы разобраться в DL. Часто обновляется (последний апдейт 21 November 2024) Обязательно ставьте ❤️ и 🔥 под постом, если подборка полезна!

11 647

📊 Как оценивать LLM: бенчмарки [Ч.2] В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки. ❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели. Как правило, он работает следующим образом: 1. Берут некоторый стандартный набор запросов к LLM 2. Собирают ответы модели 3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели 🗑Виды бенчмарков: 1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д. Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты. ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию 2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д. 3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки. 📚Дополнительная литература: - Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом - Материалы из прошлой статьи - Большой набор описаний наиболее популярных бенчмарков - Статья про самые популярные LLM-бенчмарки - Статья "Полный гид по бенчмаркам LLM" Обязательно ставьте ❤️ и 🔥 под постом! Пишите свои комментарии 🙂

11 647

Всем привет! Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД» Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований. Что интересного можно у них почитать: - О направлениях команд в Big Tech, работающих с ML - О популярных задачах с собеседований по направлениям ML и DS - Разбор задачи с собеседования в БКС Банк (DS)

11 647

🔗 Базовая теория по DL, которую должен знать каждый 👨‍💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей. 1️⃣ Искусственный нейрон Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации. Схему искусственного нейрона и его частей можете изучить тут. 2️⃣ Слои нейронной сети Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой). Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут. 3️⃣ Функции активации Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax. Про эти и другие функции активации читайте тут. 4️⃣ Слои нормализации Проблема взрыва и затухания градиента. Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут. 5️⃣ Dropout и Attention слои О способе решения проблемы переобучения с Dropout читайте тут. Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут. 📚 Дополнительно читаем и преисполняемся: - Наш большой справочник по Deep Learning - Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2] - Доступный курс для каждого новичка по основам нейронных сетей - Пишем свой нейрон на Python: практика для любого уровня - Основы нейронных сетей с интересным разбором разных тем - Математика, лежащая в основе нейронных сетей: серия простых статей Обязательно ставьте ❤️ и 🔥 за наш труд! Пишите комментарии и задавайте вопросы! До встречи👋

11 647

🩵 Итоги 2024 и планы на 2025! Всем привет, на связи Рома Васильев, автор этого канала 🙂 Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!) Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂 Итоги 2024: 1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!) 2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч! 3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️ 4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас! 5. В том числе сделали ряд очень хорошо залетевших постов: - Классический ML – база: справочник основных алгоритмов - Почему Polars быстрее, чем Pandas - Предлагаем вспомнить базовую математику. Справочник материалов - Открытый курс по прикладной статистике от Академии Аналитиков Авито - Leetcode по ML/DS Планы на 2025: 1. Продолжать расти и делать интересный контент в канале для вас! 2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны 3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :) Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!

11 647

🏆 Рады сообщить об окончании новогоднего квиза и поздравить участников и победителей! ⛄️ @the_vicad Получает полугодовую подписку ТГ-премиум! 🏂 @luckyrimsky @disgur00 @lena_pena_dreamer Получают в подарок книги! 💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂 🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️ Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!

11 647

🎄🪄«Новогодний квиз» [Ч.2] Общие вопросы по Machine Learning: 1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов? 2️⃣ Что такое data leakage? И какие существуют способы его избежать? 3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают. 4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели? 5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке? 👇🏻 Ждём ваших ответов под постом! Также не забывайте нас поддерживать и ставить ❤️ и 🔥!