Библиотека собеса по Data Science | вопросы с собеседований
Open in Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
Show more4 489
Subscribers
No data24 hours
+77 days
+4230 days
Posts Archive
Repost from Библиотека питониста | Python, Django, Flask
+6
🐍🛠️ 5 Python-инструментов, которые изменят ваш подход к разработке
Эффективность разработки на Python во многом зависит от используемых инструментов. В этой статье мы рассмотрим пять мощных решений, способных существенно повысить продуктивность вашей работы.
👉 Читать статью
В каких случаях лучше не использовать momentum в оптимизации?
Добавление momentum к градиентному спуску позволяет повысить его устойчивость и избегать маленьких локальных минимумов/максимумов. Однако есть случаи, когда его использование может быть нецелесообразным.
В частности, когда модель склонна к переобучению, использование momentum может ускорить этот процесс. Кроме того, на участках, где функция ошибки имеет плато (то есть изменения градиента минимальны или отсутствуют), momentum может затруднить выход из этих областей.
В каждом из этих случаев стоит рассмотреть альтернативные методы оптимизации или тщательнее настраивать гиперпараметры модели для достижения оптимального результата.
#глубокое_обучение
Что означает «насыщение нейрона»?
В контексте нейронных сетей, насыщением называют ситуацию, когда выход функции активации или нейрона становится очень близок к предельным значениям, которые эта функция может принимать. Это часто происходит с активационными функциями типа сигмоиды или гиперболического тангенса. В таких случаях градиенты становятся очень малыми, что приводит к замедлению или остановке обучения сети. Этот эффект особенно выражен в глубоких сетях, где насыщение может распространяться на несколько слоев, делая обучение неэффективным.
Насыщение нейронов можно смягчить с помощью различных техник, таких как использование других функций активации (например, ReLU), регуляризация и различные стратегии инициализации весов.
#глубокое_обучение
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
Repost from Библиотека питониста | Python, Django, Flask
🤔 Инварианты: проектирование эффективных алгоритмов
Инварианты — мощный инструмент для анализа, оптимизации и доказательства корректности алгоритмов. Покажем, как можно их использовать для разработки максимально эффективных решений сложных задач.
🔗 Читать статью
Как рассчитать логистическую ошибку?
Логистическая ошибка, также известная как логарифмическая функция потерь или кросс-энтропия, используется для оценки качества модели логистической регрессии. Этот показатель позволяет определить, насколько хорошо модель предсказывает вероятности для бинарной целевой переменной.
Вот алгоритм:
▪️ Сначала модель логистической регрессии генерирует вероятность принадлежности к классу 1 для каждого наблюдения.
▪️ Затем вероятности преобразуются. Для каждого наблюдения вероятность принадлежности к классу 1 сохраняется, если целевая переменная равна 1. Если целевая переменная равна 0, используется вероятность принадлежности к классу 0, что равно единице минус прогнозируемая вероятность.
▪️Для каждой преобразованной вероятности рассчитывается отрицательный логарифм.
▪️Вычисленные отрицательные логарифмы складываются и делятся на количество наблюдений, чтобы получить среднюю логистическую ошибку. Это значение представляет собой среднюю меру расхождения между предсказанными вероятностями и фактическими классами.
#машинное_обучение
Repost from Библиотека питониста | Python, Django, Flask
+6
🤖 👀 ТОП-5 опенсорсных библиотек для компьютерного зрения в 2024
Мы отобрали 5 мощных опенсорсных библиотек, которые помогут решить широкий спектр задач: от обнаружения аномалий в изображениях до аугментации данных.
👉Читать о библиотеках подробнее в статье
Что такое implicit bias?
Под этим термином понимают явление, при котором алгоритм обучения среди всех возможных моделей с нулевым эмпирическим риском выбирает определённые. Поясним на примере.
🟣 Есть линейная регрессия с квадратичной функцией потерь. Алгоритм может выбрать разные модели, которые минимизируют эту функцию потерь, но на практике он выбирает те, которые соответствуют определённым характеристикам. Например, при использовании градиентного спуска для обучения линейной регрессии, выбирается та модель, у которой коэффициенты меньше по абсолютной величине. Это происходит из-за особенностей метода оптимизации, который имеет склонность к нахождению определённых решений.
Также можно сказать, что градиентный спуск с фиксированным числом шагов «предпочитает» решения малого ранга. Это связано с тем, что данный метод имеет тенденцию находить более простые и гладкие решения, особенно в условиях ограниченного числа итераций.
Таким образом, implicit bias вносит свои коррективы в процесс выбора модели, даже если она теоретически не имеет эмпирического риска.
#машинное_обучение
Repost from Библиотека питониста | Python, Django, Flask
🐍👍 25 лучших практик разработки на Python
Материал охватывает ключевые аспекты создания качественного, эффективного и масштабируемого кода. Рассматриваются современные инструменты, методы организации проекта и техники программирования.
Это перевод оригинальной статьи Modern Good Practices for Python Development
🔗 Читать статью
Что такое z-оценка?
Z-оценка (z-score) — это мера в статистике, которая показывает, насколько значение отклоняется от среднего значения распределения.
Она рассчитывается по формуле, указанной на картинке, где:
x — значение, для которого рассчитывается z-оценка,
μ — среднее значение выборки или популяции,
σ — стандартное отклонение выборки или популяции.
Z-score применяется для следующего:
▪️Стандартизация данных, приведение к единому масштабу.
▪️Анализ аномалий.
▪️A/B-тестирование.
#статистика
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
+6
👨🏫 Мишель Талагран: 5 советов молодым математикам
Французский математик Мишель Талагран делится пятью ключевыми советами для молодых математиков, чтобы помочь им достичь успеха в карьере.
🔗 Прочесть всё в подробностях
Самые полезные каналы для программистов в одной подборке!
Сохраняйте себе, чтобы не потерять 💾
🔥Для всех
Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования
🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion
#️⃣C#
Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel
☁️DevOps
Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
🐘PHP
Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты
🐍Python
Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты
☕Java
Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков
👾Data Science
Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту
🦫Go
Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go
🧠C++
Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++
💻Другие каналы
Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT
Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *
* Организация Meta запрещена на территории РФ
А у вас уже было реальное техническое интервью на позицию дата-сайентиста/специалиста по машинному обучению?
Можете ли вы объяснить модель ARIMA?
Модель ARIMA используется для прогнозирования временных рядов. Она сочетает три ключевых компонента: авторегрессию (AR), интегрирование (I) и скользящую среднюю (MA).
▪️Авторегрессия
Компонент авторегрессии улавливает взаимосвязь между текущим наблюдением во временном ряду и определённым числом предыдущих наблюдений. Предполагается, что текущее значение линейно зависит от своих прошлых значений.
▪️Интегрирование
Интегрирование используется для превращения временного ряда в стационарный, устраняя тренды или сезонность.
▪️Скользящая средняя
Компонент скользящей средней учитывает зависимость между текущим наблюдением и ошибками предсказаний, сделанных на основе предыдущих наблюдений.
Сочетая эти три компонента, модель ARIMA может улавливать различные зависимости. Стоит отметить, что существуют вариации модели ARIMA, такие как SARIMA (Seasonal ARIMA), которая включает дополнительные сезонные компоненты.
#машинное_обучение
Что вы знаете о теореме Чебышева?
Теорема Чебышева, или неравенство Чебышева, утверждает, что случайная величина в основном принимает значения, близкие к своему среднему. Если говорить точнее, то неравенство позволяет дать оценку вероятности того, что случайная величина примет значение, далёкое от своего среднего.
Неравенство также можно интерпретировать так: вероятность того, что случайная величина X отклоняется от своего математического ожидания на более чем k стандартных отклонений, не превышает 1/k². Это утверждение справедливо для любых распределений с конечной дисперсией и не требует предположений о форме распределения.
#статистика
Что такое стоп-слова в NLP и как с ними работать?
Стоп-слова — это распространённые в языке слова, которые практически не несут смысловой нагрузки. Чаще всего это артикли, междометия, союзы и т.д. Например, в английском языке стоп-словами могут быть the, a и an.
В рамках подготовки текста к NLP-задачам стоп-слова обычно удаляются, так как они могут добавить много шума. Универсального способа определить список стоп-слова нет. Однако можно пользоваться готовыми инструментами. Так, в библиотеке NLTK есть предустановленный список. Перед первым использованием вам понадобится его скачать: nltk.download('stopwords'). После скачивания можно его импортировать и посмотреть на сами слова.
#NLP
Можно ли сделать отбор признаков с помощью регуляризации LASSO?
Да, регуляризация LASSO может быть использована для отбора признаков. Она добавляет к функции потерь регуляризирующий член, который является суммой абсолютных значений коэффициентов регрессии, умноженной на коэффициент регуляризации. Это приводит к тому, что некоторые коэффициенты становятся равными нулю. Таким образом, LASSO автоматически выбирает наиболее важные признаки и исключает неинформативные, устанавливая их коэффициенты в ноль.
#машинное_обучение
Вы заметили, что ваша модель недообучена. Что бы вы предприняли?
Можно рассмотреть несколько методов.
▪️Увеличить сложность модели.
Если речь идёт о нейросети, то можно попробовать увеличить количество слоёв или нейронов на слой. Если, например, вы используете полиномиальную регрессию, то можно взять более высокую степень полинома.
▪️Добавить больше релевантных признаков.
▪️Снизить влияние регуляризации.
▪️Увеличить продолжительность обучения.
▪️Взять больше данных (если можно).
#машинное_обучение
Назовите достоинства и недостатки рекуррентных нейронных сетей
🔹Достоинства
▫️Рекуррентные нейронные сети (RNN) способный справляться с с анализом временных рядов, текста и других типов данных, которые можно назвать последовательностями.
▫️Они могут моделировать долгосрочные зависимости в данных.
▫️RNN используют одни и те же веса (W) на каждом шаге, что делает размер модели независимым от длины последовательности.
🔹Недостатки
▫️При обучении RNN часто сталкиваются с проблемой исчезающего градиента, то есть ситуацией, когда градиенты становятся экстремально малы. Также может случиться обратная ситуация: проблема взрывающегося градиента.
▫️Из-за своей структуры RNN могут быть сложны в обучении и требуют больших вычислительных ресурсов.
▫️Несмотря на то, что RNN могут запоминать предыдущие состояния, их «память» ограничена, и они могут забывать информацию через несколько шагов.
#глубокое_обучение
Available now! Telegram Research 2025 — the year's key insights 
