Библиотека собеса по Data Science | вопросы с собеседований

Open in Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Network:Книги для программистов Russia124 556 Career6 903

4 489

Subscribers

No data24 hours

+77 days

+4230 days

537

Post views

~ 27424 hours

~ 34148 hours

11.96%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

4 489

Repost from Библиотека питониста | Python, Django, Flask

🐍🛠️ 5 Python-инструментов, которые изменят ваш подход к разработке Эффективность разработки на Python во многом зависит от используемых инструментов. В этой статье мы рассмотрим пять мощных решений, способных существенно повысить продуктивность вашей работы. 👉 Читать статью

4 489

В каких случаях лучше не использовать momentum в оптимизации? Добавление momentum к градиентному спуску позволяет повысить его устойчивость и избегать маленьких локальных минимумов/максимумов. Однако есть случаи, когда его использование может быть нецелесообразным. В частности, когда модель склонна к переобучению, использование momentum может ускорить этот процесс. Кроме того, на участках, где функция ошибки имеет плато (то есть изменения градиента минимальны или отсутствуют), momentum может затруднить выход из этих областей. В каждом из этих случаев стоит рассмотреть альтернативные методы оптимизации или тщательнее настраивать гиперпараметры модели для достижения оптимального результата. #глубокое_обучение

4 489

Что означает «насыщение нейрона»? В контексте нейронных сетей, насыщением называют ситуацию, когда выход функции активации или нейрона становится очень близок к предельным значениям, которые эта функция может принимать. Это часто происходит с активационными функциями типа сигмоиды или гиперболического тангенса. В таких случаях градиенты становятся очень малыми, что приводит к замедлению или остановке обучения сети. Этот эффект особенно выражен в глубоких сетях, где насыщение может распространяться на несколько слоев, делая обучение неэффективным. Насыщение нейронов можно смягчить с помощью различных техник, таких как использование других функций активации (например, ReLU), регуляризация и различные стратегии инициализации весов. #глубокое_обучение

4 489

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта. В ней: ● Новости о прорывных исследованиях в области машинного обучения и нейросетей ● Материалы о применении ИИ в разных сферах ● Статьи об этических аспектах развития технологий ● Подборки лучших онлайн-курсов и лекций по машинному обучению ● Обзоры инструментов и библиотек для разработки нейронных сетей ● Ссылки на репозитории с открытым исходным кодом ИИ-проектов ● Фильмы, сериалы и книги 👉Подписаться👈

4 489

Repost from Библиотека питониста | Python, Django, Flask

🤔 Инварианты: проектирование эффективных алгоритмов Инварианты — мощный инструмент для анализа, оптимизации и доказательства корректности алгоритмов. Покажем, как можно их использовать для разработки максимально эффективных решений сложных задач. 🔗 Читать статью

4 489

Как рассчитать логистическую ошибку? Логистическая ошибка, также известная как логарифмическая функция потерь или кросс-энтропия, используется для оценки качества модели логистической регрессии. Этот показатель позволяет определить, насколько хорошо модель предсказывает вероятности для бинарной целевой переменной. Вот алгоритм: ▪️ Сначала модель логистической регрессии генерирует вероятность принадлежности к классу 1 для каждого наблюдения. ▪️ Затем вероятности преобразуются. Для каждого наблюдения вероятность принадлежности к классу 1 сохраняется, если целевая переменная равна 1. Если целевая переменная равна 0, используется вероятность принадлежности к классу 0, что равно единице минус прогнозируемая вероятность. ▪️Для каждой преобразованной вероятности рассчитывается отрицательный логарифм. ▪️Вычисленные отрицательные логарифмы складываются и делятся на количество наблюдений, чтобы получить среднюю логистическую ошибку. Это значение представляет собой среднюю меру расхождения между предсказанными вероятностями и фактическими классами. #машинное_обучение

4 489

Repost from Библиотека питониста | Python, Django, Flask

🤖 👀 ТОП-5 опенсорсных библиотек для компьютерного зрения в 2024 Мы отобрали 5 мощных опенсорсных библиотек, которые помогут решить широкий спектр задач: от обнаружения аномалий в изображениях до аугментации данных. 👉Читать о библиотеках подробнее в статье

4 489

Что такое implicit bias? Под этим термином понимают явление, при котором алгоритм обучения среди всех возможных моделей с нулевым эмпирическим риском выбирает определённые. Поясним на примере. 🟣 Есть линейная регрессия с квадратичной функцией потерь. Алгоритм может выбрать разные модели, которые минимизируют эту функцию потерь, но на практике он выбирает те, которые соответствуют определённым характеристикам. Например, при использовании градиентного спуска для обучения линейной регрессии, выбирается та модель, у которой коэффициенты меньше по абсолютной величине. Это происходит из-за особенностей метода оптимизации, который имеет склонность к нахождению определённых решений. Также можно сказать, что градиентный спуск с фиксированным числом шагов «предпочитает» решения малого ранга. Это связано с тем, что данный метод имеет тенденцию находить более простые и гладкие решения, особенно в условиях ограниченного числа итераций. Таким образом, implicit bias вносит свои коррективы в процесс выбора модели, даже если она теоретически не имеет эмпирического риска. #машинное_обучение

4 489

Repost from Библиотека питониста | Python, Django, Flask

🐍👍 25 лучших практик разработки на Python Материал охватывает ключевые аспекты создания качественного, эффективного и масштабируемого кода. Рассматриваются современные инструменты, методы организации проекта и техники программирования. Это перевод оригинальной статьи Modern Good Practices for Python Development 🔗 Читать статью

4 489

Что такое z-оценка? Z-оценка (z-score) — это мера в статистике, которая показывает, насколько значение отклоняется от среднего значения распределения. Она рассчитывается по формуле, указанной на картинке, где: x — значение, для которого рассчитывается z-оценка, μ — среднее значение выборки или популяции, σ — стандартное отклонение выборки или популяции. Z-score применяется для следующего: ▪️Стандартизация данных, приведение к единому масштабу. ▪️Анализ аномалий. ▪️A/B-тестирование. #статистика

4 489

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом. Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций. Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах. 👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

4 489

Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍🏫 Мишель Талагран: 5 советов молодым математикам Французский математик Мишель Талагран делится пятью ключевыми советами для молодых математиков, чтобы помочь им достичь успеха в карьере. 🔗 Прочесть всё в подробностях

4 489

Самые полезные каналы для программистов в одной подборке! Сохраняйте себе, чтобы не потерять 💾 🔥Для всех Библиотека программиста — новости, статьи, досуг, фундаментальные темы Книги для программистов IT-мемы Proglib Academy — тут мы рассказываем про обучение и курсы Азбука айтишника — здесь мы познаем азы из мира программирования 🤖Про нейросети Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка Библиотека нейротекста | ChatGPT, Gemini, Bing Библиотека нейровидео | Sora AI, Runway ML, дипфейки Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion #️⃣C# Книги для шарпистов | C#, .NET, F# Библиотека шарписта — полезные статьи, новости и обучающие материалы по C# Библиотека задач по C# — код, квизы и тесты Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel ☁️DevOps Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps Вакансии по DevOps & SRE Библиотека задач по DevOps — код, квизы и тесты Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования 🐘PHP Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP Вакансии по PHP, Symfony, Laravel Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по PHP — код, квизы и тесты 🐍Python Библиотека питониста — полезные статьи, новости и обучающие материалы по Python Вакансии по питону, Django, Flask Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Python — код, квизы и тесты ☕Java Книги для джавистов | Java Библиотека джависта — полезные статьи по Java, новости и обучающие материалы Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Java — код, квизы и тесты Вакансии для java-разработчиков 👾Data Science Книги для дата сайентистов | Data Science Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Data Science — код, квизы и тесты Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту 🦫Go Книги для Go разработчиков Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Go — код, квизы и тесты Вакансии по Go 🧠C++ Книги для C/C++ разработчиков Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++ Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по C++ — код, квизы и тесты Вакансии по C++ 💻Другие каналы Библиотека фронтендера Библиотека мобильного разработчика Библиотека хакера Библиотека тестировщика Библиотека разработчика игр | Gamedev, Unity, Unreal Engine Вакансии по фронтенду, джаваскрипт, React, Angular, Vue Вакансии для мобильных разработчиков Вакансии по QA тестированию InfoSec Jobs — вакансии по информационной безопасности 📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈 Также у нас есть боты: Бот с IT-вакансиями Бот с мероприятиями в сфере IT Мы в других соцсетях: 🔸VK 🔸YouTube 🔸Дзен 🔸Facebook * 🔸Instagram * * Организация Meta запрещена на территории РФ

4 489

А у вас уже было реальное техническое интервью на позицию дата-сайентиста/специалиста по машинному обучению?

Anonymous voting

4 489

Можете ли вы объяснить модель ARIMA? Модель ARIMA используется для прогнозирования временных рядов. Она сочетает три ключевых компонента: авторегрессию (AR), интегрирование (I) и скользящую среднюю (MA). ▪️Авторегрессия Компонент авторегрессии улавливает взаимосвязь между текущим наблюдением во временном ряду и определённым числом предыдущих наблюдений. Предполагается, что текущее значение линейно зависит от своих прошлых значений. ▪️Интегрирование Интегрирование используется для превращения временного ряда в стационарный, устраняя тренды или сезонность. ▪️Скользящая средняя Компонент скользящей средней учитывает зависимость между текущим наблюдением и ошибками предсказаний, сделанных на основе предыдущих наблюдений. Сочетая эти три компонента, модель ARIMA может улавливать различные зависимости. Стоит отметить, что существуют вариации модели ARIMA, такие как SARIMA (Seasonal ARIMA), которая включает дополнительные сезонные компоненты. #машинное_обучение

4 489

Что вы знаете о теореме Чебышева? Теорема Чебышева, или неравенство Чебышева, утверждает, что случайная величина в основном принимает значения, близкие к своему среднему. Если говорить точнее, то неравенство позволяет дать оценку вероятности того, что случайная величина примет значение, далёкое от своего среднего. Неравенство также можно интерпретировать так: вероятность того, что случайная величина X отклоняется от своего математического ожидания на более чем k стандартных отклонений, не превышает 1/k². Это утверждение справедливо для любых распределений с конечной дисперсией и не требует предположений о форме распределения. #статистика

4 489

Что такое стоп-слова в NLP и как с ними работать? Стоп-слова — это распространённые в языке слова, которые практически не несут смысловой нагрузки. Чаще всего это артикли, междометия, союзы и т.д. Например, в английском языке стоп-словами могут быть the, a и an. В рамках подготовки текста к NLP-задачам стоп-слова обычно удаляются, так как они могут добавить много шума. Универсального способа определить список стоп-слова нет. Однако можно пользоваться готовыми инструментами. Так, в библиотеке NLTK есть предустановленный список. Перед первым использованием вам понадобится его скачать: nltk.download('stopwords'). После скачивания можно его импортировать и посмотреть на сами слова. #NLP

4 489

Можно ли сделать отбор признаков с помощью регуляризации LASSO? Да, регуляризация LASSO может быть использована для отбора признаков. Она добавляет к функции потерь регуляризирующий член, который является суммой абсолютных значений коэффициентов регрессии, умноженной на коэффициент регуляризации. Это приводит к тому, что некоторые коэффициенты становятся равными нулю. Таким образом, LASSO автоматически выбирает наиболее важные признаки и исключает неинформативные, устанавливая их коэффициенты в ноль. #машинное_обучение

4 489

Вы заметили, что ваша модель недообучена. Что бы вы предприняли? Можно рассмотреть несколько методов. ▪️Увеличить сложность модели. Если речь идёт о нейросети, то можно попробовать увеличить количество слоёв или нейронов на слой. Если, например, вы используете полиномиальную регрессию, то можно взять более высокую степень полинома. ▪️Добавить больше релевантных признаков. ▪️Снизить влияние регуляризации. ▪️Увеличить продолжительность обучения. ▪️Взять больше данных (если можно). #машинное_обучение

4 489

Назовите достоинства и недостатки рекуррентных нейронных сетей 🔹Достоинства ▫️Рекуррентные нейронные сети (RNN) способный справляться с с анализом временных рядов, текста и других типов данных, которые можно назвать последовательностями. ▫️Они могут моделировать долгосрочные зависимости в данных. ▫️RNN используют одни и те же веса (W) на каждом шаге, что делает размер модели независимым от длины последовательности. 🔹Недостатки ▫️При обучении RNN часто сталкиваются с проблемой исчезающего градиента, то есть ситуацией, когда градиенты становятся экстремально малы. Также может случиться обратная ситуация: проблема взрывающегося градиента. ▫️Из-за своей структуры RNN могут быть сложны в обучении и требуют больших вычислительных ресурсов. ▫️Несмотря на то, что RNN могут запоминать предыдущие состояния, их «память» ограничена, и они могут забывать информацию через несколько шагов. #глубокое_обучение