Ebout Data Science | Дима Савелко

Відкрити в Telegram

Ebout Data Science by @ngmdite | По поводу менторства пиши на @savelkoteam

Росія107 416 Технології та додатки18 192

5 474

Підписники

+924 години

+2067 днів

+61430 день

1 863

Перегляди допису

~ 99724 години

~ 1 17848 годин

34.21%

Коефіцієнт залучення

~ 2

Дописів на день

Ads index

beta

Архів дописів

5 491

Как мы построили сервис по поиску видео контента с помощью текста

🙈

Мы командой решили написать новую статью на Habr про то, как мы создали сервис по поиску видео контента с помощью картинки - задача Text2Video Retrieval. Грубо говоря, пользователь вводит текст «собака гуляет на берегу моря», и сервис с помощью магии ИИ должен найти видео, где показано, как собака гуляет на берегу моря 🤩 Кратая суть решения состоит в том, что 💪 1️⃣ Мы собрали в БД короткие ролики 2️⃣ Описали скрины из роликов с помощью vision-language model, а QWEN-VL 3️⃣ Пользователь вводит текст «морской пейзаж при закате». 4️⃣ Encoder превращает этот текст в вектор. 5️⃣ Сервис сравнивает этот вектор с векторами из базы данных с помощью ANN. 6️⃣ Пользователь получает релевантные видео текстовому запросу. Статья написана простыми словами, с множеством картинками с пояснениями, поэтому она мега понятная для новичков, и её может почитать даже человек не в IT 🥇 Итог: Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх. Мне важно от вас услышать фидбек и рекомендации по написанию других статей.

5 491

Математика и ML в Кубике Рубика 🎲

Грубо говоря, вам нужно собрать пазл типа Кубик Рубика, но не с помощью программных алгоритмов, а с помощью алгоритмов машинного обучения и математики. Глобальная задача проетка - применить машинное обучение к теории групп Краткая суть задачи может быть описана несколькими способами 🙈 1️⃣ Нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Задача близка к прошедшему конкурсу Каггл Санта 2023. 2️⃣ Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP, SAGE. Минимальное требование 👁 Вы знакомы с Питоном, и у вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп - в идеале GAP, SAGE). Цель проекта 📞 Написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д. Почему вы должны принять участие 👍 Это отличная возможность получить уникальный опыт и стать более конкурентно способным на собеседованиях в DS. Написанная статья или готовое решение может стать значительным фактором при отборе кандидатов, так как в отличие от многих кандидатов ваша активность показывает, что вы действительно болеете Data Scientизмом и можете решать нестандартные задачи и писать статьи. Также это отличная возможность понетворкаться) Если Вам интересно участие 💪 Напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin). Чат для обсуждений: тут . Вводный доклад тут. Пояснения по RL части тут.

5 491

Почему ты теряешь деньги и время на вкат в Data Science При вкате в Data Science ребята допускают кучу ошибок на своём пути, например: 1️⃣ Я не знаю какую область мне выбрать? 🎮 2️⃣ Где и как мне учить материалы по Data Science? 🇺🇸 3️⃣ Допустим я учусь, но как мои знания будут применяться на работе ? 🙈 4️⃣ А где и как нужно искать вакансии ? А что учить на собесах ? А почему мне не пишут HR`ы ? А что спрашивают на собесах ? Мне страшно ходить на собесы, вдруг я обсренькаюсь и что дальше ??? 🎮

Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели. Как менторство может помочь именно тебе? Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора. 1️⃣ Экономия времени и денег. Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к... 🍑 2️⃣ Вы приобретёте более глубокие навыки, если будете учиться с ментором. Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант. 📞 3️⃣ Сообщество единомышленников У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой. 🎲 4️⃣ Кукухология. Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы 💪 Итог: Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство ✋ Вот видео, в котором я рассказываю про себя и свои услуги.

5 491

Наша первая статья на Habr`е Мы командой решили написать статью "Как построить MVP AI-сервис и сэкономить время" 👨‍🔬 В ней мы рассказали о том, как мы строили и проектировали MVP-сервис c дифузионной моделью внутри для одной компании. Целевой аудиторией данной статьи были продукты, бизнесмены и люди, которые не связанные с технологиями, а больше связаны с бизнесом 😁 Для нашей ЦА мы хотели подсветить следующие темы: 1️⃣ Плюсы-минусы собственной обученной нейронки над API решением 🤪 2️⃣ Как и где собрать данные, с помощью каких методов их можно предобратотать, и как проверить их качество 😐 3️⃣ Поговорили про интерфейс сервиса, каким его можно было бы представить, показали пару примеров 🙂 4️⃣ Рассказали про как работают диффузионные модели 🥰 5️⃣ Про важность baseline модели, на собственном примере показали, что не всегда порой нужно бежать и обучать модели 👅 6️⃣ Подсветили несколько аспектов использования ИИ: авторское право, поддержка, данные... 🤪 И вот что я понял во время её написания: - Ставьте и чётко формулируйте ЦА и цель статьи, делая вывод в конце чётко для вашей цели и для вашей ЦА. А то может так получится, что без изначального определения цели статьи, читатель может ожидать одно, а получить совершенно другое. И это ваша личная ответственность позаботиться о том, чтобы читатель именно то, что вы заложили изначально 💪 - Дать на проверку статью редакторам или людям, которые разбираются в публицистике. А то после недельного написания может замылиться глаз, и есть высокий шанс не заметить ошибки в статье. 😊 Итог: Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх, и мне важно от вас услышать фидбек, рекомендации по написанию других статей. А то я сейчас буду писать другую статью, и я хочу её сделать намного лучше данной, поэтому мне очень важно услышать именно ваше мнение 🥇

5 491

Я закончил школу в 20 лет

С 3 по 9 июня я был в Школе PE - это школа для тех, кто хочет начать создавать свой продукт, как-то его завернуть и правильно пушить в массы - именно такое определение я дал после прохождения школы. Сама школа проходила в Альметьевске, в кампусе АГНИ - вуза, который построила ТатНефть. Что я там получил: 1️⃣ Жёсктий нетврокинг. Я познакомился с такими классными ребятами, которые мне такую БАЗУ👑 выдавали, что я приехал от туда другим человеком. Меня подтянули по самопрезентации, по выступлению, по коммуникации, да и в целом по каким-то психологическим аспеткам - короче говоря, навалили жёсткой БАЗЫ 💪 2️⃣ Понимание болей. Раньше мне было тяжело общаться на языке бизнеса, я общался на языке Дата Сатанистов, но эксперты из Школы PE приоткрыли мне эту завесу - как правильно приподнести Data-Driven продукт бизнесу, объяснить ему какие боли он закрывает, и сколько денег он принесёт 📞 3️⃣ Расширение горизонтов. Там было кучу учёных по химии, биологии, физики и другим интересным сферам. Раньше для меня учёный - это чел в плаще, в очках и с книжкой в руках 🤓, да такие по-любому есть, но я увидел, что учёные могут быть жёсткими гигачадами, которые шарят и не только за науку, но и за бизнес, рекламу, менеджмент - можно долго перечислять в целом 🥺 4️⃣ Личная победа. Рассказывая стихотворение в подростковом возрасте, я проглатывал язык и смотрел в пол, но в Школе PE я сам себя и меня выдрачили на публичные выступление так, что я сам не ожидал от себя такого результата. За несколько вечером подготовил презу, текст, выступление и жёстко зарекламился перед топ-менеджарами ТатНефти и ИТМО. Да, не без минусов, но и плюсы гарантированно есть, и в следующих выступлениях мне точно не будет страшно 👅 Итог Не бойтесь принимать участие в подобного рода мероприятиях, знакомиться с разными людьми, расширять свой кругозор не только в вашей теме, но и смежных, не забывайте про софты, потому что нетворкинг - один из двигателей вашего развития 🎤 Лично для себя я понял, в каком направлении мне стоит улучшаться, качаться, и как дальше качать себя и своё дело 😎 Школе PE я ставлю Пять Валериев Бабушкиных из Пяти Валериев Бабушкиных Оценка: 😯 😯 😯 😯 😯 / 😯 😯 😯 😯 😯

5 491

Как торговаться на собесах 🍑

Если вы получили оффер и вам уже сказали какую ЗП вы будете получать, то не торопитесь его принимать. Вы можете спокойно за несколько секунд зарабатотать 30% к своей ЗП, а то и более. Зачем торговаться? Давайте включим простую математику, если вам предложили ЗП в 300к, а вы сторговали ЗП на 360к, 360к - 300к = 60к в месяц вы сторговали, 60к*12 месяцев = 720к, вы за несколько минут заработали 720к в разрезе года, вы просто СЛОН 🐘 Именно так у меня было с СамокатTech 🥳 Почему можно торговаться? 1️⃣ Берём большие цифры, то есть если все в среднем будут просить больше по рынку, то работодателю ничего не остаётся кроме того, как повысить заработную плату и нанимать людей, ведь вакансии надо закрывать, а фичи пилить 👷 2️⃣ К тому же бизнес зачастую имеет средства для повышения ЗП, особенно большие компании 😁 3️⃣ Ну и мы живём в той стране, в которой инфляцию нужно обгонять каждый год, а если вы не будете этого делать, то будете падать в благах, если ваша ЗП не будет меняться 👀 4️⃣ Офферы не отзывают, если вы попросите больше ЗП, запомните фразу: "Как компания ищет лучшего кандидата, так и кандидат ищет лучшего работодателя" 👁 Алгоритм торговли 💪 Допустим вам дали оффер с ЗП, тогда вы пишите следующее (взял отсюда): "Да, возращаюсь с ответом. Только вот другая компания Y сделал оффер X минут назад. У вас и у них хорошие команды и задачи. Но есть финансовый момент, что они предложили мне на Z$ больше. И выбор мой усложняется. <тут описываешь почему тебя компания зацепила>. Можете ли вы сделать что-нибудь по этому, чтобы облегчить мой выбор?" И тогда с большой долей вероятности к вам могут прийти с повышенным оффером, и да это можно делать даже тогда, когда у вас нет второго оффера, но это ваш выбор... 🤡 Вывод: Умение продать свою жопу за большие деньги - важный навык в жизни. Если вы не сделаете этого, то за вас обязательно это сделает кто-то другой 💪

5 491

Типичный день Дата Сатаниста

Меня часто на консультациях по менторству спрашивают: «Димас, расскажи про свой типичный рабочий день, чем вообще занимается Data Scientist?» Ну вот я и выдаю такую базу 👑 1️⃣ Утренняя рутина - подъём в 8 утра, выпиваю кровь девственницы и спокойно разбираю личку, отвечая людям на рабочие вопросы 🫥 2️⃣ Ресёрч статей - если необходимо, то читаю манускрипты про текущие передовые решения в нашей задаче – в общем, занимаюсь ересью 👍 3️⃣ Написание кода - после прочтения статей я пишу пиктограмму в виде программного кода, чтобы вызвать сатану всего ИИ – трансформера, и приношу ему в жертву пару сотен данных 🤪 4️⃣ Дата сатанистские обряды по зуму - я созваниваюсь со своими коллегами сатанистами, и во главе нашего лида мы разбираем, что и как мы сделали за определённый период (обычно 2-3 дня), и какие дьявольские пиктограммы нужно писать дальше 👍 Так, ладно, убираем всю ересь 🐙 В целом день Data Scientist`a состоит из тех же элементов, что и у любого другого разработчика: пишем код, созвоны, таски. Только мы иногда делаем жёсткий ресёрч статей для нахождения наиболее релевантного решения для нашей задачи 😯 Плюс DS`а заключается в том, что тут постоянно происходит развитие, прочтение статей, работа с чем-то новым, и как следствие мало рутины и тебе становиться действительно интересно выполнять такую работу 🍔

5 491

Уничтожение трансофрмеров и LLM (RoadMap) Трансформеры сейчас суются буквально везде и повсюду, поэтому их очень часто спрашивают на собесах и на них построены SOTA решения для многих областей особенно в LLM, поэтому не знать их - это не база 🙈 Это RoadMap, который вам поможет разобраться с этой трансформерами и с LLMками 🙈 Начинаем мы с изучения архитектуры трансформеров, а закончим LLMками 😘 1️⃣ Всем смотреть базу от Котенкова, здесь мы с ручкой и листком переписываем архитектуру, чтобы в полной мере понимать, как она работает 🙈 2️⃣ Трансформеры в картинках - эту статью прочитать в качестве закрепления материала от Котенкова 🙈 3️⃣ Визуализация трансформеров и визуализация Self-Attention`a после того, как прочитали русскоязычные ресурсы и поняли базовые принципы работы трансформеров, можно глянуть и англоязычную визуализацию архитектуры 🙈 4️⃣ Базовая практика от Карпатова и интерактивный прогон GPT модели - написания GPT модели с нуля от Андрюши Карпатоа, за ним повторять, каждую операцию понимать, плюс каждый шаг написания в интерактиве смотреть 🙈 5️⃣ А чо такое RLHF и ваши SFT ? - именно на этот вопрос отвечает Котенков в своём видео, здесь рассказываются, как обучаются современные LLMки, из каких этапов обучения они состоят, и что там вообще творится 🙈 Полезные дополнительные материалы: 1️⃣ Attention Is All You Need - оригинальная статья про трансформеры 🕺 2️⃣ Neural Networks: Zero to Hero - курс Андрюши Карпатова по ИИ 👀 3️⃣ Intro to Large Language Models - основная техническая подноготная в современные LLM системах от Карпатова 🤗 4️⃣ Мини-курс «Полная история семейства GPT» - курс от Котенкова по семейству GPT моделей 🤗 5️⃣ Мой Сборник Материалов - курсы, гайды и статьи на любой вкус не только в NLP, но и в NLP, CV, RecSys 👀 Теперь вы сами стали трансформером и можете объяснить, что такое Self-Attention своей маме, папе, бабушке, дедушке и даже собаке 🤵‍♂️ Если вы хотите: 💥 Получить оффер ✔️Заботать трансформеры и другие темы в DS, ML, NLP 🔝 Сделать грейд ап по зарплате и по скиллам ‼️ То приходите ко мне на менторство, первая консультация бесплатная ‼️

5 491

Дрочка и Точка Про Точку 👁 Я получил оффер в Точку на позицию NLP Researcher&Developer DS - короче NLP DS в R&D отдел. Здесь я буду решать NLP таски, разрабатывать и обучать LLMки, RAGи и другие многие интересности Сейчас я в точке не вижу минусов, только плюсы: - топ тима 😈 - топ задачи 🤪 - топ процессы 🥺 - топ экспертиза 👍 - классное погружение 🐾 - отличный офис 😊 А теперь про дрочку 🚪 Напомню, что в Сбере я работал NLP Engineer'ом, учил LLMку и делал Reward-модель для отсеивания плохих генераций. В Сбере я понял, что большие корпорации - это не про меня: - куча бюрократии 👎 - много времени занимают самые элементарные процессы 👿 - лично мне офис вообще не зашел 👊 - ограничение банком использования моделей 😡 - лично у нас в команде не было ревью и не было структурированного 🥺 планирования задач, и это я слышал от других команд тоже 😐 Но не может быть только минусов, поэтому в Сбере есть и положительные моменты: - огромные ресурсы, я хоть могу гпт-4 запускать (если разрешит система безопасности) 🥳 - там интересные и многогранные люди, у которых есть чему поучиться 🚬 - знания, которые я получил, довольно таки топовые, спасибо коллегам, которые меня натаскивали 🤪 - замедленность процессов - это и плюс, и минус, так как ты очень долго вывозишь что-то в прод, но при этом есть куча свободного времени для своих дел, например для менторства 👀 Вывод: Нет плохих и хороших компаний. Вы уже принимаете для себя, что для вас приемлемо, что нет. После Сбера я определил для себя, что мне нужно, а что не нужно. Если вы хотите тихой и спокойной разработки порой с тупорылыми процессами, то вам корпорат. Если же хотите динамики и более драйвой разработки, то в компанию поменьше. 🙈 Так же не стоит забывать, что процессы ещё очень зависят от команды, в которой вы работаете. В Сбере может попасться такая команда, которая будет обходить все минусы, и приумножать только плюсы, поэтому стоит смотреть не только на компанию, а более глубоко: команда, люди, эскпертиза и тд... 🙈 Сберу я ставлю 3 валерия бабушкиных из 5 валериев бабушкиных по личным ощущениям Оценка: 😯 😯 😯 / 😯 😯 😯 😯 😯

5 491

Кто я? ✋ Налетело кучу людей на канал за последнее время, поэтому обновляю информацию о себе 🫶 Дарова! Я Дима Савелко, мне 20 лет. На данный момент занимаю позицию Middle+ NLP Engineer в R&D отделе Точки, здесь я занимаюсь обучением LLM и разными интересными вещами в NLP. И вот несколько фактов обо мне: - Работал в: 1️⃣ Сбере (NLP) - ресёрч, обучал гигачат, делал ранжировщик генераций модели 2️⃣ Газпроме (NLP, RecSys) - ресёрчил SBERT-like модели, Topic Modeling, Deploy 3️⃣ DSM Group (NLP, Classic ML) - решал задачу матчинга - Активно занимаюсь менторством, помогаю ребятам найти работу, апнуться до мидла, сеньора 💪 - Активно введу свой бизнес нейро-сети.рф 📞 - Участник более 10 хакатонов и победитель 3 хаков 💊 - Сейчас учусь в РТУ МИРЭА на 3 курсе 💻 Вот подборка моих самых полезных постов: - Собесы: теле-2, Транснефть, Тинькофф, ДомКлик, ДомКлик, Huawei 😐 - Мой персональный сборник вопросов 👀 - Как готовится к секции ML System Design на собесах 🥰 - RoadMap по архитектуре трансформеров и LLM 🙂 - Мегаполезные ссылки на курсы, ресурсы и статьи по подготовке на собесах: ML, DL, NLP, CV, RecSys, RL 🎸 - Подготовка по алгосам 🚶‍♀️ - Типичный день датасаентиста 📞 - Как правильно торговаться 🍑

5 491

1+ выигранный хакатон или как мы уничтожили TenderHack 💪 Задача 😱 На основе названия товара выдать его характеристики пользователю. Как это выглядит со стороны пользователя: 1️⃣ Пользовель вводит название товара: '15.6" Ноутбук Acer Aspire 3 A315-44P-R2DH серебристый' (не реклама если что). Сервис исправляет его запрос при необходимости. 2️⃣ Сервис выдаёт - Модель/Производителя товара (Aspire/Acer) - Категорию товара (Ноутбуки) - Характеристику товара (60 Гц, 512 Гб, ...) 3️⃣ Пользователю предлагают исправить найденные характеристики, чтобы в дальнейшем предобучать модель Решение 🧠 1️⃣ В первую очередь мы сделали вывод модели и производителя товара на основе LLM (Command-R) просто прописав ей промпт 🙈 2️⃣ Затем долго строили модель классификации, которая бы определяла бы категорию товара - Я сразу сказал, что давайте строить на e5 с помощью ANN+cosine similarity, но результаты были ужасны... Precision@1 ~ 0.001. После этого я решил обучить модель (последний слой и LoRA) на Contrastive Learning (SimCSE), но лосс оказался настолько ужасным, что мне захотелось плакать, и я понял, что я вообще не сделал анализ данных 🤔 - После этого мой напарник бился всю ночь за е5, а после этого предложил немного поменять данные, на которых мы считаем эмбеддинги и взять Okapi BM25 + обучить токенизатор. И УРА! Оно очень хорошо работает! 🆒 - Вывод: делайте анализ данных и начинайте с наивных методов 🙈 3️⃣ Коррекция неправильного ввода пользователя делалась за счёт LLMки, просто промптонули её 🙈 4️⃣ Вывод категорий - здесь самое сложное, мы сделали RAG, где: - Retrieval - это поиск в Яндексе различных сайтов и их парсинг - Augment - Запихали всё в LLM (128к контекста) и промптонули её, чтобы она агрегировала инфу с разных доков - Generation - она выдала свою ЛЛМ-базу, тем что агрегировала результаты и выдала текст Здесь мы столкнулись с проблемой, что наш IP забанили на сайтах пока мы тестили, но по итогу мы накупили прокси и парсили через них 🙈 5️⃣ Бэк и фронт был написан гениальным человеком, который вывозил всё в соляново - Vue.js, FastAPI (Спасибо Данила) 👍 Итог 👀 Хакатон был топовый по задачам, по организации, по соперникам, по атомсфере. Были сильные решения от топ-5 команд, но зарешал фронт и технологии. Оценка хакатона 🙏 5 Валериев Бабушкина из 5 Валериев Бабушкинов 😯 😯 😯 😯 😯 / 😯 😯 😯 😯 😯

5 491

Зачем нужен ML System Design? И что это такое ? 😯

ML System Design - это план и процессы того, как имплементировать, поддерживать и расширять сервисы и продукты, которые основаны на машинном обучении. Другими словами, это реализация сервиса не через код, словами, на листочке ✨ Накой он нам нужен этот мл систем дизайн? ❓ Ну представьте, что вы строите здание. Вы можете построить какую-нибудь халупу из говна и палок без чертежа. Но небоскрёб без чертежа вы никогда не построите, а если даже и начнёте, то получите ту же самую халупку только из бетона и арматуры. Личный пример того, как не стоит строить ML System Design 😳 Существует у меня стартап с командой, который решает задачу text-video retrieval, а по русски это - достать короткое видео по тексту. Типо вбиваем "человек идёт под дождём с собаком" и сервис должен из БД достать видео, того как человек идёт под дождём с собакой. И вокруг этой задачи нам надо было сделать продукт. И самая большая и роковая ошибка - это то что мы не продумали нормальный дизайн системы. У нас было описания, что и как мы будем делать, ни нормальных бизнес-онлайн-оффлайн метрик у нас не было, ни ограничений по ответу пользователю тоже, ни MLOps`ных штук тоже не было и много чего другого. По итогу, мы сделали по нашему недоплану и получилось пук + среньк - качество гавно 🙈 - инференс лагает 🙈 - для апдейтов сервис мало к чему готов с точки зрения МЛ 🙈 - как сравнивать модель - хз 🙈 Поэтому если вы начинаете стартап или проект всегда продумайте дизайн системы, не слишком глубоко, но затрагивая его основыне аспеткы ❗️ Так же ML System Design в интервью нужен, чтобы показать сеньорность кандидата. По факту это его соло выступление но 40-60 минут, где он должен в неопределённой задаче построить систему с нуля 💪 Итог 👀 ML System Design - база, которую каждый DS должен знать не только ради собесов, но и грамотного построения системы продукта. Ставлю 5 Валериев Бабушкинов из 5 Валериев Бабушкинов 😯 😯 😯 😯 😯/😯 😯 😯 😯 😯 Если вы хотите 💥 Получить оффер ✔️Заботать темы в DS, ML, NLP 🔝 Сделать грейд ап по зарплате и по скиллам ‼️ То приходите ко мне на менторство, первая консультация бесплатная ‼️

5 491

Как могут рофлить LLMки 😀 Я хотел подсветить риски использования LLM в больших продуктах - это их бесконтрольная генерация Ребята генерировали текста к баннерам, по итогу могли получаться вот такие вот результаты (пруфы на картинках) - "запах и пятна мочи больше не проблема" при рекламе моющего средства - "взорвет ваши уши" при рекламе колонки - и самое интересное "почувствуй себя в раю" при рекламе какой-то дрочилки Модель - YaGPT + p-tuning Баннеры проходили этап модерации, поэтому естественно они не вышли на общий взор. Как итог, важно бороться с такими вещами: аномалиями и некоторого образом выбросами. Можно построить модель классификатор или ранжировщик, который будет классифицировать/ранжировать товары по "порядочности" или сразу обучать модель так, чтобы она генерировала текста без такого контекста 🧠 Выступление, кстати, фрагмент с факапами я не нашёл в записи 💻

5 491

⭐️ Глобальное уничтожение ML System Design на собеседованиях ⭐️

На собеседованиях очень часто спрашивают ML System Design, и я решил сделать гайдик по уничтожению 🔔 Введение 👀 Когда вас спрашивают про ML System Design, ваша цель - это построить пайплайн, в котором вы должны рассказать про следующие пункты: проблема, метрики, данные, сущности, pipeline, модель, deploy, a/b тесты. Вы должны построить систему на костылях, которую вы будуте улучшать каждую итерацию, то есть построили гавно из всех пунктов, превратили это гавно в павозку с костылями, пройдя по всем пунктам заново, закрывая все дыры и так далее... 🔝 Пункты: 🔥 1️⃣ Сформулировать проблему Очень важно изначально понять и сформулировать задачу для себя, чтобы понимать куда и зачем идти - Поставить бизнес задачу - тут самое главное - это понять, что от вас требуют. Задавайте вопрос: "правильно ли я понял, что..." - Обговорить ограничения - в кейсе, который вас просят задизайнить могут быть ограничения на память, на ресурсы и тд 2️⃣ Метрики Нужно дизайнить с метрик, так как вы должны понимать к чему вы идёте, и вы должны уметь как-то сравнивать модели в последующих апдейтах - Бизнес метрики - одно из самых важных, на что будет ориентироваться бизнес - Online метрики - это те метрики, которые будут измеряться во время A/B теста, чтобы понять хуже/лучше модель - Offline метрики - метрики, которая проверяются на train/test во время обучения модели 3️⃣ Данные Знаем метрики, теперь нужно разобрать какие данные у нас есть для последующего обучения моделей - Сущности - Нужно определить какие у нас сущности: пользователь, карточка товара.... - Характеристики сущностей - У каждой сущности есть свои характеристики. Для пользователя это - фио, пол, возраст и тд, для карточки товара - это цена, описание, бренд... - Сбор Данных - Как мы будем собирать данные: cпарсим, копирайтеры, возьмём из БД 4️⃣ Pipeline - Как работает сервис - Необходимо описать как сервис будет работать в целом: какие есть блоки, как они взаимодействуют между собой, что и как друг другу передаёт. 5️⃣ Модель Нужно лучше начать с бейзлайна - с самой просто задачи. Если у вас задача рекомендации, то для начала стоит просто сказать: "пусть бейзлайном будет выдача самих лучших товаров по рейтингу, чуть позже улучшим модель, опираясь на online и offline метрики". Помни, твоя задача всего интервью- построить полностью готовый пайплайн решения. После того как вы закрыли данные пункты, то улучшайте бейзлайн, рассказывая про это: - Задача - классификация, ранжирование, регрессия - Loss - для каждой задачи свой лосс - X/y - необходимо написать на каких данных вы обучаетесь - Train/Test Split - Как вы разбиваете данные для обучениия: на чём тренируетесь, на чём валидируетесь - Фичи и их сбор - Как вы собираете данные, и как вы преобразовывайте данные 6️⃣ Deploy Как вы будете деплоить, лично я обычно говорю про данные пункты, упоминая технологии. - Пайплайн хранения данных и транспорт даты - Amazon S3, MySQL, FEAST, HDFS, Kafka - Пайплайн создания фичей - Apache Spark - Пайплайн дообучения модели - Airflow - Пайплайн мониторинга - ML Flow - Архитектуры: микросервис - Docker, K8s 7️⃣ A/B Test A/B тест - это та вещь, на которую вы будете смотреть, чтобы понять, как изменяется модель в "реальном мире", а не в ноутбуке. - На какую метрику смотрим в тесте - обычно это онлайн метрика: CVR, CTR, Retention - Контрольная тестовая группа - как будем делить A выборку и B выборку, обычно я говорю "A (старая модель) - 70% выборки, B (новая модель)- 30% выборки. Главное, чтобы и в А, и в В выборке количество данных было таковым, чтобы была статистическая значимость A/B теста." - Сколько наблюдений - "Главное, чтобы и в А, и в В выборке количество данных было таковым, чтобы была статистическая значимость A/B теста." Материалы (Очень рекомендую к просмотру) 💥 ML System Design: Выпуск 1, Выпуск 2, Выпуск 3 ‼️ Если вы хотите заботать мл систем дизайн или получить оффер в вашу любимую компанию, то обращайтесь ко мне, я стал ментром. Обратившись ко мне, вы можете сэкономить кучуууу своего времени ‼️

5 491

Вопросы с собеседования ДомКлика Продолжение предыдущего поста ⭐️ Classic ML 💪 ✨ Что на выходе даёт логистическая регрессия? - Вероятность классов. тык, тык, мегатык ✨ Какая функция оптизируется в логистической регрессии ? - лог лосс, опять тык, тык, мегатык ✨ Опиши работу алгоритма дерева ? Шаг 1: Начинаем построение с корня Шаг 2: Ищем лучший предикат и смотрим на новые разбиения Шаг 3: Проваливаемся в новые вершины Шаг 4: Если выполнен критерий останова, то даем прогноз Шаг 5: Иначе - для выбранной вершины повторяем Шаги 2-5 тык, тык ✨ Что мы получаем на выходе листа при задачи классификации и при задачи регрессии ? - при задачи классификации возвращается вероятность - доля классов, в задачах регрессии среднее от значений, опять тык, тык Краткий ликбез по вопросам ниже: Смещение - говорит о том, насколько точно модель предсказывает выборку, если смещение маленькое, то модель хорошо подстроилась под выборку, если смещение большое, то она не очень подстроилась под неё Разброс - насколько хорошо модель генерилизировалась на данных, другими словами, насколько не чувствительна к изменению данных.. Маленький разброс - модель имеет обобщающую способность, большой разброс - модель плохо обобщает. ✨ Что изменится будет, если из леса решений сломалось одно дерево ? - У каждого дерева в лесе малое смещение, но большой разброс. За счёт бустрапа выборки и усреднения деревьев мы уменьшаем разброс. При удалении дерева увеличится разброс ансамбля, так мы удалили один элемент усреднения. ✨ Что изменится , если из бустинга сломалось одно дерево ? - Каждое дерево в ансамбле имеет высокое смещение, но маленький разброс, так как мы обучаем деревья маленькой глубины - они имеют хорошую обобщающую способность. При обучении бустинга на каждом шаге модель пытается улучшить свои предсказания, уменьшая остатки предыдущих моделей. Это необходимо для уменьшения смещения и улучшения качества предсказаний. Deep Learning 💪💪💪 ✨ Что такое TF-IDF, расскажи формулу ? - Кратко говоря, TF-IDF - это вектор предложения, лучше тык на базу ✨ Что такое функция активации ? И зачем она нужна ? - Функция активации - нелинейное преобразование, поэлементно применяющееся к пришедшим на вход данным. Благодаря функциям активации нейронные сети способны порождать более информативные признаковые описания, преобразуя данные нелинейным образом. Тык ✨ Что будет лучше для длинной последовательности: LSTM или GRU ? - LSTM (Long Short-Term Memory) и GRU (Gated Recurrent Unit), уже название говорит само за себя. LSTM имеет под собой более сложную архитектуру, чем GRU, что помогает ей запоминать больше, Тык Итог: Как БлицОпрос - норм, 3 Валерия Бабушкина из 5 Валериев Бабушкинов Оценка: 😯 😯 😯/😯 😯 😯 😯 😯

5 491

БлицОпрос в Домклик Блиц опрос - это обычный опросник на полчаса на базовые знания Python, Статистика, Classic ML, NLP Python 🤵‍♂️ ✨ Какие ограничения на значения ключа в dict`е ? 1) Значение должно быть не изменяемым и уникальным. Важно, чтобы от значения ключа можно было взять хеш-функцию ✨ Есть ли риски при использовании изменяемых объектов в качестве значений по умолчанию для аргументов функции в Python? 1) Изменение состояния объекта: поскольку у нас изменяемый объект в аргументе, то это тварь может взять и изменится при последующем вызове функции, поэтому будьте аккуратны с этим ✨ Что такое декоратор и каков её синтаксис? 1) Декоратор - это обёртка над функцией, которая позволяет менять поведение функций без изменения её исходного кода 2) Синтаксис прост: функция декоратора принимает в аргументы функцию, в которую мы хотим обернуть. Внутри функции декоратора находится функция, которая описывает логику декоратора, в конце мы возвращаем эту функцию. (1 картинка) Статистика 💻 ✨ Ошибка первого и второго рода - Ошибка первого рода состоит в том, что гипотеза H0 будет отвергнута, хотя на самом деле она правильная. - Ошибка второго рода состоит в том, что гипотеза H0 будет принята, но на самом деле она неправильная. ✨ Что такое p-value ? - p-value - величина, которая показывает вероятность получения наблюдаемых результатов при условии, что нулевая гипотеза верна, или вероятность ошибки в случае отклонения нулевой гипотезы. ✨ Что такое мощность критерия? - Значение b-1 называют мощностью критерия – это вероятность отвержения неправильной гипотезы. Ml и Deep Learning будут совсем скоро…💥

5 491

Repost from Сиолошная

https://openai.com/sora OpenAI воспользовались минутой слабостью, и пока я спал, потому что болела голова, порвали мир генерации видео-по-тексту. То что вы видите выше — примеры работ, сгенерированных моделью SORA. Посмотреть больше примеров можно в других каналах, а также на сайте, и в твиттере Sam Altman, где он генерит видео по запросам пользователей: https://twitter.com/sama Доступа у публики нет (я бы не ждал до окончания выборов или вообще), но будет доступна спец. командам, отвечающим за безопасность генерации: > Мы заранее делимся результатами наших исследований, чтобы начать работать и получать отзывы от людей за пределами OpenAI, а также дать общественности представление о том, какие возможности ИИ ждут нас на горизонте. Конец блогпоста OpenAI: > SORA служит основой для моделей, которые могут понимать и моделировать реальный мир, и мы считаем, что эта способность станет важной вехой на пути к достижению AGI. 🤣🤣 (Техническая статья позже сегодня)

5 491

Repost from Denis Sexy IT 🤖

Просто посмотрите на это качество, о-ф-и-г-е-т-ь У многих txt2video стартаперов FaceId сегодня не работает

5 491

Собеседование в Huawei от 270к на Data Science NLP 👀 Задачи: ✨ Первая картинка - дана функция: - Нужно определить сложность алгоритма - O(n^2) - Оптимизировать данную функцию и сказать сложность нового функции - (2 картинка), да, меня только на это и хватило.... ✨ Третья картинка - дана функция: - Нужно понять, что делает данная функция - делает матрицу-маску для нейронки, я там оставил комментарии - Оптимизировать её - тут ненмого душно и касается входных данных, но расскажу про идейку. Жирная функция np.count_nonzero(v_all == i), которую можно заменить вычисление данных из функции np.unique(v_all, return_counts=True) ✨ Дальше вопросы по моему опыту: Что такое MAP (Mean Average Precision) ? MAP - это метрика ранжирования, которая считает кумулятивная сумму Recall`а. Чем больше MAP, тем лучше ранжирования. Грубо говоря, MAP стремится к тому, чтобы правильные ответы стремились в вверх, а отрицательные ответы - вниз. ✨ Что такое LoRA? LoRA - это адаптер, которые встраивается в модель. Она нужна, чтобы не обучать модель 1000 лет, а обучить 1% от всех модели, что сокращает время в несколько раз. ✨ Какие ограничения у attention? У attention сложность - это O(2^n), но существуют разные виды его ускорений, также есть flash-attention, который очень быстро считает attention из-за правильной работы с памятью CUDA. Итог: В целом задачи интересные, особенно вторая. Также классно, что спросили по опыту, так делают редко 👉