Библиотека собеса по Data Science | вопросы с собеседований
الذهاب إلى القناة على Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
إظهار المزيد4 489
المشتركون
لا توجد بيانات24 ساعات
+77 أيام
+4230 أيام
أرشيف المشاركات
Для чего нужен Apache Airflow?
Apache Airflow — это инструмент для создания, планирования и управления сложными пайплайнами данных. Он особенно полезен в ситуациях, когда необходимо автоматизировать процессы обработки данных, включающие выполнение большого количества задач в определённой последовательности или параллельно.
Вот задачи, которые решает Apache Airflow:
▪️Позволяет запускать пайплайны по расписанию. Это может быть как простое расписание (например, ежедневное выполнение), так и сложное, например, запуск во второй вторник каждого месяца.
▪️Помогает организовать выполнение задач в правильном порядке. Например, если нужно сначала загрузить данные с нескольких источников, а затем выполнить их обработку, Airflow позволяет настроить последовательное или параллельное выполнение задач.
▪️Предоставляет интерфейс для мониторинга выполнения пайплайнов, где можно видеть историю выполнения задач, анализировать логи и производительность, а также повторно запускать задачи при необходимости.
Кроме того, Apache Airflow поддерживает интеграцию с различными внешними сервисами (например, базами данных).
#данные
Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🧪 Байесовское A/B-тестирование vs частотное: преимущества, недостатки и способ реализации на Python
A/B-тестирование — это метод сравнения двух версий чего-либо для определения, какая из них работает лучше.
В новой статье разберёмся, в каких случаях лучше применять частотный подход, а в каких — байесовский, и напишем продвинутый байесовский тест на Python без использования специальных A/B-библиотек.
👉 Читать статью
Что такое JAX?
JAX — это фреймворк для вычислений и исследований в области машинного обучения. Он предоставляет API, совместимое с NumPy, и поддерживает автоматическое дифференцирование, векторизацию, параллелизацию и компиляцию в реальном времени для GPU/TPU. JAX ориентирован на скорость и производительность и подходит для обучения больших моделей, требующих мощных ускорителей.
🔗 Ссылка на документацию JAX
#программирование
❗Вакансии «Библиотеки программиста» — ждем вас в команде!
Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов
Подробности тут
Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴
Ждем ваших откликов 👾
Repost from Proglib.academy | IT-курсы
🧮🏭 Индустриальная математика: когда ∫f(x)dx равно миллиардам
Индустриальная математика предлагает эффективные решения для самых сложных проблем реального мира. В нашей статье мы рассмотрим сущность индустриальной математики, ее краткую историю и современные тренды, а также обсудим, кому подходит эта профессия.
🔗 Статья
В линейных моделях часто добавляют смещение (bias) к признакам. Объясните, зачем это делается?
Смещение (bias) — это дополнительный параметр модели, который добавляется к линейной комбинации признаков перед применением функции активации. Например, в нейросетях bias добавляется к сумме взвешенных входов перед передачей на следующий слой. Его роль заключается в сдвиге графика функции активации вправо или влево, что помогает сети охватывать более широкий диапазон данных.
Представьте себе простую линейную функцию y = ax + b. Если мы меняем значение a (это эквивалент веса в линейной модели), мы меняем наклон функции. Однако если мы регулируем b (эквивалент смещения), мы сдвигаем всю функцию по оси X. Это позволяет модели лучше подстраиваться под данные, особенно в ситуациях, когда зависимость между переменными не проходит через начало координат.
Смещение также помогает предотвратить проблем в тех случаях, когда все входные признаки равны нулю. Без смещения модель предскажет 0, даже если это не соответствует реальности. Смещение добавляет модели гибкости и позволяет ей корректно работать даже в таких условиях.
#машинное_обучение
🤔 Как меняется математика в разных индустриях: от мобильных игр к фондовым рынкам
🗓 22 августа в прямом эфире разберем как математика применяется в разных отраслях бизнеса. И какие математические навыки необходимы для успешной работы в каждой из них.
Приглашенный спикер: Павел Запольский – Senior Quantitative Researcher at Exness и Co-founder GrowLytics. Запустивший более 10 проектов по машинному обучению и анализу данных для ведущих компаний.
😮 На вебинаре узнаете:
🔵 Математика в бизнесе: Чем отличаются разные сферы друг от друга. Почему стоит понимать специфику сферы
🔵 ML и продуктовое IT: Чем различается математическая сложность от индустрии к индустрии. Какие к ним необходимы уровни подготовки
🔵 Баевская математика в GameDev. Баевская математика как альтернатива AB тестированию. Как математические методы применяются в разработке игр
🔵 Finance: Что такое количественные финансы и математическое моделирование. Обсудим текущие индустриальные тренды в отрасли
🔵 Backtest: Как знания математики делают ваши активы более надежными
🔵 На практике подробно разберем два математических кейса по GameDev и Backtest.
➡️ Зарегистрироваться: https://proglib.io/w/06b25c4d
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
Repost from Proglib.academy | IT-курсы
📈 Стать аналитиком Big Data: пошаговое руководство 2024
Рассказываем в нашей статье, какие знания, онлайн-курсы, подкасты и книги помогут начать карьеру в сфере Big Data без специального образования.
Ознакомьтесь со статьей, а также забирайте наши курсы для Data Science:
🔵 Базовые модели ML и приложения
🔵 Математика для Data Science
🔗 Статья
Что такое обучение представлений?
Объекты, с которыми работают алгоритмы машинного обучения, могут быть невероятно разнообразными и часто состоят из множества низкоуровневых компонентов, таких как цвет пикселя, амплитуда звукового сигнала в конкретный момент времени или буква в тексте. Эти компоненты сами по себе несут мало информации, но вместе формируют более сложные структуры, такие как музыка, изображения или текст.
Задача заключается в том, чтобы преобразовать сложные объекты в представления, которые легче анализировать и использовать для решения различных задач. Этот процесс называется обучением представлений, и он позволяет выделить информативные признаки объектов, которые можно применять для решения задач классификации, кластеризации и других.
Один из самых мощных инструментов для обучения представлений — это нейронные сети. Например, в свёрточных нейросетях для изображений первые слои обучаются выделять низкоуровневые признаки, такие как края объектов, тогда как более глубокие слои могут представлять более сложные концепции, такие как формы или даже целые объекты.
#глубокое_обучение
Repost from Библиотека питониста | Python, Django, Flask
+6
🤖🛠️ ТОП-25 опенсорсных инструментов для вашего ИИ-проекта
В этой статье мы собрали 25 лучших инструментов с открытым кодом, которые помогут вам создать ИИ-проекты, автоматизировать процессы и расширить функциональность ваших приложений.
🔗 Ссылка на статью
Коротко опишите процесс обучения нейронной сети
🔹Инициализация весов
Веса в нейронной сети можно инициализировать, например, случайными значениями.
🔹Прямой проход (forward propagation)
На этом шаге входные данные последовательно проходят через все слои нейронной сети. На каждом слое происходит вычисление взвешенной суммы входных значений и применение активационной функции, в результате чего формируется предсказание модели
🔹Вычисление ошибки
Рассчитывается значение функции потерь, которое показывает, насколько предсказание сети отклоняется от истинного значения.
🔹Обратное распространение ошибки (backpropagation)
Этот этап включает в себя вычисление градиентов ошибки относительно каждого веса нейронной сети путём обратного прохождения через все слои модели, начиная с выходного слоя. В результате веса обновляются для минимизации функции потерь.
🔹Повторение процесса
Описанные шаги повторяются на каждом этапе обучения до достижения приемлемого уровня ошибки или заданного количества повторений.
#машинное_обучение
#глубокое_обучение
Самые полезные каналы для программистов в одной подборке!
Сохраняйте себе, чтобы не потерять 💾
🔥Для всех
Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования
🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion
#️⃣C#
Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel
☁️DevOps
Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
🐘PHP
Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты
🐍Python
Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты
☕Java
Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков
👾Data Science
Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту
🦫Go
Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go
🧠C++
Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++
💻Другие каналы
Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT
Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *
* Организация Meta запрещена на территории РФ
Как бы вы разбили все существующие магазины компании на две группы для проверки гипотезы?
Можно использовать различные подходы. Вот некоторые:
▪️Случайное разделение.
Рандомизация помогает снизить влияние внешних факторов.
▪️Стратификация.
Если есть известные переменные (например, географическое расположение, размер города, уровень дохода), которые могут влиять на результаты, можно сначала разделить магазины на подгруппы (страты) по этим переменным.
▪️Кластеризация.
Используя методы кластеризации (например, k-means), можно разбить магазины на группы по схожести характеристик (например, объём продаж, клиентская база).
В целом, выбор метода разделения выборки зависит от цели исследования и от самих данных.
#статистика
Какие критерии качества рекомендательных систем вы знаете?
▪️Полнота (Coverage)
Эта метрика показывает долю рекомендованных объектов среди всех доступных объектов. Полноту имеет смысл оценивать в различных временных интервалах, чтобы понимать, как система справляется с задачей на разных этапах своей работы.
▪️Новизна (Novelty)
Новизна измеряет, насколько новые и неизвестные объекты система предлагает пользователю. Метрика помогает избежать ситуации, когда пользователю постоянно предлагаются одни и те же или слишком популярные объекты.
▪️Разнообразие (Diversity)
Это свойство системы показывает, насколько различны объекты, которые она предлагает. Высокое разнообразие способствует долгосрочной удовлетворенности пользователей, так как они получают больше разных и интересных рекомендаций.
▪️Serendipity
Это одна из самых сложных для формализации и измерения метрик. Serendipity отражает способность системы предлагать пользователю неожиданные, но релевантные рекомендации. Оптимизация этой метрики требует тонкой настройки модели, чтобы она могла учитывать необычные предпочтения пользователя.
#машинное_обучение
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Для чего может быть нужно снижение размерности?
Поскольку в многомерном пространстве каждый признак представляет собой одно из измерений, снижение размерности можно трактовать как уменьшение числа признаков. Для чего нам может пригодиться такое упрощение?
▪️Сокращение времени обучения.
С меньшим количеством признаков модель обучается быстрее, так как ей нужно обрабатывать меньше данных.
▪️Улучшение интерпретируемости.
Упрощённая модель с меньшим числом признаков легче поддаётся интерпретации. Это помогает лучше понять, какие именно признаки вносят основной вклад в предсказания модели.
▪️Повышение эффективности модели.
Наличие в наборе данных признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели.
▪️Уменьшение вероятности переобучения.
Меньшее количество признаков снижает вероятность того, что модель будет слишком хорошо подстраиваться под тренировочные данные.
#машинное_обучение
👀 Попробуйте угадать, что изображено на этом графике?
Не спешите заглядывать в ответ.
Ответ:
Ответ: Время цветения вишни (Prunus jamasakura) в разные годы в Киото (Япония).
Какова разница между == и is в Python?
🔘== проверяет равенство значений двух объектов. Он возвращает True, если объекты имеют одинаковые значения, даже если они занимают разные места в памяти.
🔘is проверяет, указывают ли две переменные на один и тот же объект в памяти.
Рассмотрим пример:
lst = [10, 20, 20]
print(lst == lst[:]) # True
print(lst is lst[:]) # False
В первом случае lst == lst[:] возвращает True, потому что срез lst[:] создаёт новый список с теми же значениями, что и у оригинального списка lst.
Во втором случае lst is lst[:] возвращает False, так как lst[:] создает новый объект в памяти, который имеет те же значения, но является другим объектом.
#python
#программированиеЧто такое смещение выборки в статистике и какие виды смещения выборки существуют?
Это смещение, при котором выборка собирается таким образом, что некоторые члены целевой популяции имеют более низкую или более высокую вероятность быть отобранными по сравнению с другими.
Можно перечислить несколько видов смещения выборки:
▪️Выборка из определённой реальной области.
Например, данные опроса старшеклассников для измерения употребления подростками незаконных веществ будут смещённой выборкой, поскольку они не включает данные учеников, обучающихся на дому.
▪️Смещение при самоотборе.
Это возможно, когда группа испытуемых самостоятельно отказывается от участия в исследовании.
▪️Эффект здорового рабочего.
Возникает, когда исследуемая выборка вероятно более здорова, чем общая популяция. Например, человек в плохом состоянии здоровья вряд ли будет заниматься физических трудом.
▪️Парадокс Берксона.
Это проблема, обратная эффекту здорового рабочего. Происходит, когда исследуемая выборка отбирается из больницы и, следовательно, менее здорова, чем общая популяция.
▪️Систематическая ошибка выжившего.
Это когда отбираются только «выжившие» субъекты, и при этом игнорируются те, кто выпал из поля зрения. Например, использование данных текущих компаний для оценки делового климата игнорирует компании, которые прекратили своё существование.
#статистика
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
