cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение

Все самое полезное для дата сайентиста в одном канале. Список наших каналов: https://t.me/proglibrary/8353 Учиться у нас: https://proglib.io/w/907158ab Обратная связь: @proglibrary_feedback_bot По рекламе: @proglib_adv Прайс: @proglib_advertising

Show more
Advertising posts
18 367Subscribers
+124 hours
-217 days
+7430 days

Data loading in progress...

Subscriber growth rate

Data loading in progress...

Подборка однострочников для NumPy и Scikit-learn Python — гибкий язык, позволяющий писать некоторые куски кода в одну строку. Эта особенность, конечно, распространяется и на популярные библиотеки для Data Science. 1️⃣Определение объектов со значениями выше среднего
## Качество воздуха по городам
X = np.array(
    [[ 42, 40, 41, 43, 44, 43 ], # Hong Kong
     [ 30, 31, 29, 29, 29, 30 ], # New York
     [ 8, 13, 31, 11, 11, 9 ], # Berlin
     [ 11, 11, 12, 13, 11, 12 ]]) # Montreal
cities = np.array(["Hong Kong", "New York", "Berlin", "Montreal"])

polluted = set(cities[np.nonzero(X > np.average(X))[0]])

print(polluted) # ->
'''
{'Berlin', 'Hong Kong', 'New York'}
'''
2️⃣Вычисление простого ассоциативного правила
## Каждая строка представляет собой корзину покупателя
## row = [course 1, course 2, ebook 1, ebook 2]
## Значение 1 говорит о том, что предмет был куплен.
basket = np.array([[0, 1, 1, 0],
                   [0, 0, 0, 1],
                   [1, 1, 0, 0],
                   [0, 1, 1, 1],
                   [1, 1, 1, 0],
                   [0, 1, 1, 0],
                   [1, 1, 0, 1],
                   [1, 1, 1, 1]])

copurchases = np.sum(np.all(basket[:,2:], axis = 1)) / basket.shape[0]

print(copurchases) # Выводит долю случаев, когда два конкретных товара (ebook 1 и ebook 2) были куплены вместе
3️⃣Вычисление максимального дохода после уплаты налогов за несколько лет
## Годовая зарплата в $1000 [2017, 2018, 2019]
alice = [99, 101, 103]
bob = [110, 108, 105]
tim = [90, 88, 85]
salaries = np.array([alice, bob, tim])
taxation = np.array([[0.2, 0.25, 0.22],
                     [0.4, 0.5, 0.5],
                     [0.1, 0.2, 0.1]])

max_income = np.max(salaries - salaries * taxation)

print(max_income)
4️⃣Логистическая регрессия в одну строку
from sklearn.linear_model import LogisticRegression
import numpy as np

## [Количество сигарет, наличие рака]
X = np.array([[0, "No"],
              [10, "No"],
              [60, "Yes"],
              [90, "Yes"]])

model = LogisticRegression().fit(X[:,0].reshape(-1,1), X[:,1])

print(model.predict([[2],[12],[13],[40],[90]])) # -> ['No' 'No' 'No' 'Yes' 'Yes']
5️⃣Вычисление статистических показателей
## Ежедневные цены на акции 5 компаний 
x = np.array([[8, 9, 11, 12],
              [1, 2, 2, 1],
              [2, 8, 9, 9],
              [9, 6, 6, 3],
              [3, 3, 3, 3]])

avg, var, std = np.average(x, axis=1), np.var(x, axis=1), np.std(x, axis=1)

print("Averages: " + str(avg))
print("Variances: " + str(var))
print("Standard Deviations: " + str(std))
Show all...
👍 6 5
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта. В ней: ● Новости о прорывных исследованиях в области машинного обучения и нейросетей ● Материалы о применении ИИ в разных сферах ● Статьи об этических аспектах развития технологий ● Подборки лучших онлайн-курсов и лекций по машинному обучению ● Обзоры инструментов и библиотек для разработки нейронных сетей ● Ссылки на репозитории с открытым исходным кодом ИИ-проектов ● Фильмы, сериалы и книги 👉Подписаться👈
Show all...
😢 1
✍️ Правила внедрения машинного обучения от Google У Google есть целый документ, в котором перечислены лучшие практики для специалистов по машинному обучению. Мы приведём избранные правила. ✅ Не бойтесь запускать продукт без машинного обучения Для машинного обучения всегда нужны данные. Если с этим есть проблема, то стоит попробовать использовать для своего продукта нечто другое, какую-нибудь простую эвристику. Иными словами, если ML не является абсолютно необходимым для вашего продукта, не применяйте его, пока у вас не будет достаточно данных. ✅ Сначала придумайте метрики Прежде чем определиться, что будет делать ваша система машинного обучения, попробуйте отследить как можно больше показателей в вашей текущей системе. ✅ Между сложной эвристикой и машинным обучением выбирайте второе Простая эвристика может помочь быстро запустить продукт. Сложную эвристику трудно поддерживать. Как только у вас появятся данные и базовое представление о том, чего вы пытаетесь достичь, переходите к машинному обучению. ✅ Сделайте первую модель простой и правильно настройте инфраструктуру Прежде чем кто-либо сможет использовать вашу новую продвинутую систему машинного обучения, вам необходимо будет определить: - Как давать примеры на вход алгоритму. - Что такое «хорошо» и «плохо» для вашей системы. - Как интегрировать модель в ваше приложение. Специалисты Google также советуют выбирать простые признаки для модели. ✅ Постарайтесь обнаружить проблемы перед экспортом моделей В частности, убедитесь, что производительность модели на отложенных данных находится на разумном уровне. Если у вас остаются опасения по поводу данных, не экспортируйте модель. ✅ Не зацикливайтесь на выборе оптимизируемой цели На ранних этапах процесса машинного обучения можно заметить, что улучшаются все показатели, даже те, которые вы не оптимизируете напрямую. Например, вам важно количество кликов и время, проведённое на сайте. Если вы оптимизируете количество кликов, скорее всего, вы увидите и увеличение времени на сайте. Старайтесь сохранять процесс простым и не перегружайте себя размышлениями о балансе различных метрик. ✅ Выберите простую метрику для вашей первой цели Проще всего моделировать поведение пользователя, которое можно наблюдать непосредственно. Например, факт клика по ссылке, оценки чего-либо и т.д. Избегайте моделирования косвенных эффектов вначале: не стоит пытаться отследить посетил ли пользователь сайт на следующий день и как долго он находился на сайте. Наконец, не нужно пытаться заставить машинное обучение выяснить, счастлив ли пользователь. ✅ Логируйте Стоит сохранять набор признаков, используемых во время применения модели, а затем использовать их во время обучения. Даже если вы не можете сделать это для каждого примера, сделайте хотя бы для небольшой части. ✅ Не тратьте время на новые признаки, если проблемой стали несогласованные цели Если цели, поставленные перед алгоритмом или системой машинного обучения, не соответствуют общим целям продукта или бизнеса, то не стоит пытаться решить их примитивным добавлением новых признаков.
Show all...
👍 5👏 3 2
🤖 Машинное обучение для людей: Разбираемся простыми словами Этот блогпост представляет собой большое введение для тех, кто хочет разобраться в машинном обучении без формул и теорем. Автор даёт много примеров реальных задач и их решений, а также старается писать об этом простым языком. Вот темы, которые охватывает блогпост: 🔹составляющие машинного обучения; 🔹алгоритмы обучения с учителем; 🔹алгоритмы обучения без учителя; 🔹уменьшение размерности; 🔹обучение с подкреплением; 🔹ансамбли; 🔹глубокое обучение и нейросети. 🔗 Ссылка на материал
Show all...
Машинное обучение для людей

None

👍 6🔥 4
🤖🖼️ Как работают визуальные трансформеры: магия превращения пикселей в знания Визуальные трансформеры (Vision Transformers, ViTs) — класс моделей глубокого обучения, которые достигли выдающихся результатов в задачах классификации изображений. В основе ViTs лежит архитектура трансформеров, изначально разработанная для обработки естественного языка. В новой статье подробно рассказываем (с картинками), как работают такие модели компьютерного зрения. 🔗 Читать статью 🔗 Зеркало
Show all...
👍 5 2
💵Моделирование курса валют методом Монте-Карло Метод Монте-Карло позволяет исследовать какой-либо случайный процесс, многократно имитируя его. Новая статья на «Хабре» посвящена анализу и прогнозированию валютных курсов с помощью такого подхода. Автор привёл примеры кода на Python и объяснил каждую используемую функцию. 🔗 Читать статью целиком
Show all...
👍 6 6
🎓 Небольшая подборка бесплатных курсов по классическому машинному обучению ▫️Stanford CS229: Machine Learning by Andrew Ng Культовый курс по основам машинного обучения с Эндрю Ыном, американским учёным-информатиком. Представляет собой набор видеолекций. ▫️Алгоритмы Машинного обучения с нуля Курс на Stepik, на котором подробно разбираются основные алгоритмы классического ML: линейная и логистическая регрессии, метод k-ближайших соседей, случайный лес, метод главных компонент и др. ▫️HarvardX: CS50's Introduction to Artificial Intelligence with Python Курс, рассказывающий о концептах и алгоритмах, лежащих в основе современного ML. Также в программе есть теория вероятностей, нейросети, NLP и др. ▫️Машинное обучение (курс лекций, К.В. Воронцов) В курсе делается упор на глубокое понимание математических основ. Автор — зав. лаб. «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ.
Show all...
👍 4 3
ААА! Авторы Академии Аналитиков Авито выпустили бесплатный курс по прикладной статистике. В нём две части — первая по базе, которую важно знать для работы с данными, вторая по более сложным критериям. Пройти можно здесь. Курс научит собирать и валидировать кастомные критерии на реальных данных, а ещё решать задачи бизнеса с применением прикладной статистики.
Show all...
👍 9👏 3
PySpark: небольшой гайд по библиотеке PySpark — это Python API для Apache Spark. А Apache Spark, в свою очередь, представляет собой движок для распределённой обработки задач, связанных с большими данными. Так, PySpark позволяет работать с данными любого размера. Библиотека поддерживает все функции Spark, включая Spark SQL и DataFrames. 🔸Spark SQL предназначен для работы со структурированными данными и позволяет сочетать SQL-запросы с программами Spark. 🔸PySpark DataFrames позволяет читать, записывать, трансформировать и анализировать данные. 👆К посту мы прикрепили небольшую шпаргалку по этим двум основным инструментам PySpark
Show all...
👍 4
Телеграм-канал для ML-специалистов от Яндекса Yandex for ML — канал для ML-инженеров от Яндекса. Рассказываем, как мы обучаем наши модели и интегрируем их в продукты, как делаем сервисы с архитектурой сразу из нескольких нейросетей, как обучаем модели для специфичных задач и многое другое. Подписывайтесь 👉 @Yandex4ML
Show all...
😁 2