Библиотека задач по Data Science | тесты, код, задания
Open in Telegram
Задачи и тесты по Data Science для тренировки и обучения. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/fa77bf4e Для обратной связи: @proglibrary_feeedback_bot
Show more4 014
Subscribers
-324 hours
+27 days
-230 days
Posts Archive
Что бы вы назвали главным преимуществом SVM (метод опорных векторов) перед другими алгоритмами классификации?
Что выведет код с картинки выше?
Что выведет код с картинки выше?
Каким будет вывод кода с картинки выше?
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Зачем применять функцию Softmax к логитам, которые даёт на выход модель классификации последовательностей?
✍️ Воскресный разбор сложных задач недели
1️⃣ L2-регрессия добавляет штраф к функции потерь, пропорциональный квадрату нормы коэффициентов. А L1-регрессия добавляет штраф, пропорциональный норме коэффициентов без возведения в квадрат. Таким образом, первый метод регуляризации стремится уменьшить влияние менее значимых признаков, уменьшая их коэффициенты, но редко приводит к тому, что они становятся строго равными нулю. А вот во втором случае может произойти зануление.
Поэтому если мы понимаем, что нам важны все признаки и не хотим избавляться от каких-то из них, лучше использовать L2-регрессию.
2️⃣ Давайте рассмотрим все методы трансформации данных из вопроса:
▫️Z-score — хороший выбор, если выбросы в данных не экстремальные. Однако по графику видно, что аномалии довольно значительные.
▫️Биннинг с квантильными границами — мог бы подойти, если бы данные были асимметричны, но в данном случае асимметрия частично вызвана несколькими экстремальными выбросами. Кроме того, мы хотим, чтобы модель обучилась линейной зависимости. Поэтому следует оставить показатель roomsPerPerson числовым, а не преобразовывать его в категории.
▫️Логарифмическое масштабирование — подошло бы, если бы данные подчинялись степенному закону. Однако эти данные подчиняются нормальному распределению.
▫️Clipping — подойдёт для начала анализа, так как в наборе данных присутствуют экстремальные выбросы. Можно убрать их перед применением других методов нормализации.
#разбор_задач
Привет!
Мы BAUM, российская IT-компания. Наша работа — создавать продвинутые системы хранения данных с прикладным искусственным интеллектом.
Мы завели аккаунт, где делимся своим опытом, даём советы для успешной карьеры, рассказываем об интересных событиях из нашей жизни и, конечно, публикуем вакансии.
Обещаем, что будет очень полезно и совсем не душно — подписывайся!
erid: LjN8KJCL8
Рассмотрите график выше. Какой метод трансформации данных будет наиболее эффективным для начала? Предположим, что цель – найти линейную зависимость между roomsPerPerson и ценой дома.
В каком сценарии лучше выбрать L2-регуляризацию, чем L1?
Что выведет код с картинки выше?
Выберите правильное объявление функции fun1(), чтобы код выше успешно выполнялся.
⚡️Proglib запускает канал про ИИ для генерации звука
Там мы будем рассказывать про все существующие нейросети, которые генерируют музыку и голос — с пошаговыми инструкциями, инструментами и лайфхаками.
⭐️генерация голоса и музыки
⭐️замена и перевод речи
⭐️распознавание звуков
👉Подписывайтесь!
По тренировочной выборке из 70 объектов был построен классификатор. Его качество проверили на тестовой выборке, состоящей из 30 элементов. Чему равна сумма чисел TP+FP+FN+TN из матрицы ошибок?
Available now! Telegram Research 2025 — the year's key insights 
