Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 484 Технологии и приложения2 657...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 256 подписчиков, занимая 2 657 место в категории Технологии и приложения и 12 484 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 256 подписчиков.

Согласно последним данным от 25 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 38, а за последние 24 часа — 0, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.85%. В первые 24 часа после публикации контент обычно набирает 6.52% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 447 просмотров. В течение первых суток публикация набирает 3 278 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 28.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 26 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 256

Подписчики

Нет данных24 часа

+377 дней

+3830 день

4 447

Просмотры поста

~ 3 27824 часа

~ 3 76448 часов

8.85%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 257

Город засыпает, просыпаются рекрутеры и делают выбор: кто попадет в команду разработки внутренних продуктов. Мы в МТС любим играть в мафию и проводить One day offer. И подумали, почему бы не совместить эти две активности и заодно найти аналитиков разных профилей. Наша команда развивает сервисы в рамках экосистемы HR Tech. Например, разработка системы управления эффективностью или создание корпоративного портала для сотрудников. У нас амбициозные планы — стать первым цифровым HR с комплексным подходом к разработке и поддержке внутренних продуктов. Но для этого нам нужны настоящие профи. Готовы участвовать и проверить — вы Дон SQL или мирный аналитик? Кликайте по ссылке и начните игру. Да, нужно успеть до 19 июня

50 257

🖥 30 SQL-запросов, объяснённых через их эквиваленты Pandas В мире, где с 1974 года доминирует SQL, в 2008 году появился Pandas, предлагающий привлекательные функции, такие как встроенная визуализация и гибкая обработка данных. Он быстро стал популярным инструментом для исследования данных, затмив собой SQL. Но не обманывайте себя, SQL по-прежнему держит свои позиции. Это второй по востребованности и третий по скорости роста язык для Data science (см. здесь ). Таким образом, в то время как Pandas привлекает всеобщее внимание, SQL остаётся жизненно важным навыком для любого специалиста по данным. Давайте узнаем, как легко выучить SQL, если вы уже знаете Pandas. ▪ Читать @data_analysis_ml

50 257

В четверг 15 июня в 19:00 по мск. состоится BI-баттл между приверженцем проприетарного BI Евгением Скребановым и адептом open source Сергеем Громовым! Эксперты будут разбирать три кейса с практическими задачами. Участники баттла представят свои решения, выступив с принципиальной технологической позиции разработчика открытого решения или готового BI. Два непримиримых взгляда столкнутся в публичной дискуссии, чтобы выяснить, чей подход сегодня лучше закрывает потребности российского бизнеса. Чья позиция окажется сильнее? Не пропустите! Запишитесь на ивент прямо сейчас и задайте свой вопрос спикерам.

50 257

⚡Python со скоростью света Задача: заполнить список из n целых чисел.

def populate_python(size:int)->list:
    b = []
    for i in range(size):
        b.append(i)
    return b

Запуск функции с size = 10 000 000 занял в среднем 765 мс на моей машине. Ускорим этот процесс! ▪Numpy

import numpy as np
def populate_numpy(size:int)->np.ndarray:
    b = np.empty((size),dtype=np.int64)
    for i in range(size):
        b[i] = i
    return b

Запуск функции с тем же количеством элементов занял 964 мс. ▪Numba

from numba import njit, prange
@njit
def populate_numba(size:int)->np.ndarray:
    b = np.empty((size),dtype=np.int64)
    for i in prange(size):
        b[i] = i
    return b

Как мы видим, функция почти такая же. Просто добавил декоратор и prange (функция диапазона в numba, которая работает параллельно). На этот раз время вычислений составило всего 16 мс! Почти в 50 раз быстрее, чем на голом Python. Это впечатляющий результат. ▪Julia Julia – еще один язык, который набирает обороты. Его цель – предложить почти такую же гибкость и понятный синтаксис, как у Python, но с высокой скоростью компиляции кода.

function populate_array(size::Int)::AbstractVector{Int64}
    b = Vector{Int64}(undef,size)
    Threads.@threads for i=1:size
        b[i] = i
    end
    return b 
end

В Julia нет проблем с GIL, поэтому потоки могут работать параллельно. Это заняло всего 12 мс. ▪Mojo Mojo – это новый язык, находящийся в стадии активной разработки.

from Pointer import DTypePointer
from Random import rand, random_ui64
from DType import DType
from Range import range
from Functional import parallelize
import SIMD

struct Vect:
    var data: DTypePointer[DType.uint64]
    var rows: Int

    fn __init__(inout self, rows: Int):
        self.data = DTypePointer[DType.uint64].alloc(rows)
        self.rows = rows

    fn __del__(owned self):
        self.data.free()
    
    @always_inline    
    fn len(self)->UInt64:
        return self.rows

    fn zero(inout self):
        memset_zero(self.data, self.rows)

    @always_inline
    fn __getitem__(self, x: Int) -> UInt64:
        return self.data.load(x)


    @always_inline
    fn __setitem__(self,  x: Int, val: UInt64):
        return self.data.store( x, val)

fn populate_mojo(b:Vect):
    @parameter
    fn process_row(i:Int):
        b[i] = i
    parallelize[process_row](b.rows)

Приведенная выше функция отработала всего за 7 мс, в 110 раз быстрее, чем Python, и намного быстрее, чем Julia. Это Python со скоростью света! 📌 Почитать про Mojo @data_analysis_ml

50 257

Газпромбанк приглашает тебя на новую лекцию Digital Лектория — на ней ты сможешь узнать больше о карьере в Data Science и задать интересующие вопросы IT-эксперту. Тема: «Data Science: быть или не быть» Когда: 21 июня, 18:00 (по МСК) Ирина Скорынина, ведущий аналитик-исследователь, расскажет, кому будет интересно в IT и почему не всем стоит идти в это направление, как развиваться в Data Science с непрофильным образованием, какими навыками и компетенциями должен обладать Data Scientist и как выглядит roadmap специалиста в этой сфере. Регистрируйся и приходи на лекцию, чтобы узнать больше о направлении Data Science: https://www.gpbspace.ru/digital-lectory-hall-form Реклама Банк ГПБ (АО), ИНН: 7744001497 erid:LjN8Jste3

50 257

🤖12 сервисов искусственного интеллекта, для написания кода. Mutable AI Альтернатива Copilot, которая предлагает бесплатную версию со сокращенным функционалом, а стоимость ее платной подписки варьируется от $10 до $25 в месяц. Эта альтернатива также предлагает следующие возможности: автодополнение кода, управление с помощью промптов, рефакторинг кода и автоматическую документацию. SpellBox Это AI-помощник для программистов, который можно установить как настольное приложение (для Windows и macOS), так и как плагин для VS Code. Он способен генерировать код в ответ на запросы, объяснять принципы работы программы и сохранять фрагменты кода в закладках. StarCoder Это AI-ассистент, который может создавать код на 80 языках, обученный на данных из GitHub. Эта модель похожа на GitHub Copilot, но с открытым исходным кодом и, по мнению разработчиков, она лучше других моделей. Blackbox AI BlackboxAI поддерживает более 20 языков программирования, включая Python, Java, C, C++, C#, JavaScript, SQL, PHP, Go, TypeScript, Kotlin, MATLAB, R, Swift, Rust, Ruby, Dart и Scala. Ghostwriter Chat Разработчики Replit создали не имеющую себе равных онлайн-IDE, которая основана на искусственном интеллекте. Эта инновационная система способна написать код в соответствии с контекстом проекта и не только дополняет код, написанный программистом, но и помогает отслеживать ошибки. CodeSquire.ai Это ИИ-ассистент, который помогает дата-сайентистам, инженерам и аналитикам. Он способен генерировать код в ответ на вопросы, создавать функции различной сложности, преобразовывать вводимые команды в SQL-запросы и детально объяснять, как работает каждый блок кода. Toolbuilder Toolbuilder позволяет быстро создавать ИИ-приложения и чат-боты, которые хранятся и запускаются на сайте. Вы можете поделиться ссылками на приложения с друзьями, а для выбора подходящего инструмента есть каталог готовых приложений, например, инструменты для поиска персонализированных подарков, анализа SEO показателей, рекомендации коктейлей и описания товаров. Еще один популярный инструмент - генератор постов для блога. Также вы можете использовать Toolbuilder для описания сюжета фильма с помощью эмодзи и иконок. Safurai Это бесплатный инструмент на основе искусственного интеллекта, который можно использовать как плагин для VS Code. Для того чтобы воспользоваться ее возможностями, достаточно выделить фрагмент кода: Safurai объяснит, как он работает, предложит советы по оптимизации и рефакторингу, напишет необходимые тесты и документацию. Будучи обучаемым на коде проекта, он запомнит все заданные вопросы. Text2SQL Text2SQL - данный искусственный интеллект создает запросы SQL, регулярные выражения, дизайны баз данных и формулы для Excel и Google Sheets. Присутствует бесплатный тариф, в то время как цены платной подписки варьируются от $2.49 до $4.99 в месяц. Code Snippets AI Приложение, использующее технологию GPT-4 для генерации кода. По вопросу о необходимости данного инструмента, разработчики отвечают, что это более экономичный вариант по сравнению с оригинальным ChatGPT Plus, подписка на который стоит $24 в месяц, в то время как подписка на Code Snippets AI обойдется в $10 в месяц. CodiumAI CodiumAI - программа для тестирования, использующая TestGPT-1 и GPT-3.5 & 4 для интеллектуального создания тестов и обработки кода, выявления ошибок и багов. В настоящее время этот инструмент работает с кодом Python, JavaScript и TypeScript. Благодаря подключению к VS Code и другим IDE от JetBrains, использование CodiumAI бесплатно. Metabob Metabob исправляет ошибки и выявляет уязвимости в коде, а также интегрируется с такими платформами, как VS Code, GitHub, BitBucket и GitLab. Эта программа берет под контроль все самые популярные языки программирования, включая Python, Javascript, Typescript, C++, С и Java, и предоставляет своевременные рекомендации по улучшению кода. B процессе работы Metabob автоматически производит рефакторинг кода разработчиков и искусственный разум.

50 257

Как устроены нейронные сети и как применять их в продуктовой аналитике Разберёмся в прямом эфире: 14 июня в 19:00 (по Москве) Вебинар проведёт Анатолий Карпов — автор тех самых бесплатных курсов на stepik, основатель школы karpovꓸcourses и по совместительству ведущий аналитик с опытом работы в Mail.Ru, VK и JetBrains. Ждём вас на трансляции! Регистрируйтесь, чтобы не пропустить

50 257

🗒 Регулярные выражения для задач NLP в Python. Часть1 Рассморим основные функции Python-модуля re. Регулярные выражения - это набор символов, который определяет паттерн для поиска в тексте. Например, в задачах NLP можно использовать Python-библиотеку Yargy для поиска именованных сущностей. Но использование выражений может вызвать неоднозначность, так как выражения, содержащие искомый паттерн, также будут найдены. В Python модуль re используется для работы с регулярными выражениями и содержит 4 основные функции: search, match, findall, finditer и sub. Первые четыре функции имеют одинаковую сигнатуру и принимают на вход шаблон и выражение, а функция sub дополнительно требует строку замены. re.search() – находит первое вхождение фрагмента в любом месте и возвращает объект match. Если в строке есть другие фрагменты, соответствующие запросу, re.search их проигнорирует.

import re
expr = 'i love Data Science'
pattern = '

love

'
print(re.search(pattern, expr))


<re.Match object; span=(2, 6), match='love'>

Обратите внимание, что функция search находит только первый попавшийся шаблон, дальше она уже не смотрит: expr = 'I love data science, i love @data_analysis_ml' print( re.search(pattern, expr)) <re.Match object; span=(2, 6), match='love'> Нельзя забывать, что шаблон представляет собой последовательность символов, а не сами слова. Например, как можно найти последовательность "love" в составном слове в Python, показано ниже.

>>> expr = 'So many lovers
>>> re.search('love', expr)

Как найти все вхождения при помощи findall и finditer. В отличие от функции search, две другие функции findall и finditer найдут все вхождения. Разница между findall и finditer заключается в том, что первый возвращает список (list), а второй возвращает итератор (iterator), который мы обсудили ранее. Возвращаясь к предыдущему примеру, регулярное выражение для обнаружения всех вхождений в Python будет иметь следующий вид:

expr = 'I love data science, I love @data_analysis_ml'

re.findall('love', expr)
['love', 'love']

re.finditer('love', expr) <callable_iterator object at 0x7efd1caf6b60> Проверяем начало строки с помощью функции match. Функция match проверяет начало строки на соответствие шаблону. Пример выше не начинается с "love", поэтому эта функция вернет значение None. С другой стороны, если выражение начинается с шаблона, функция match вернет объект Match. Рассмотрите следующие регулярные выражения в Python: expr = 'i love Data Science' re.match('Data', expr) None


re.match('love', expr) is None
True

Исключаем шаблон из строки с sub Ещё одной полезной функцией Python-модуля re является sub. Она необходима, когда один шаблон нужно заменить на другой и пригодится для подготовки текстов перед применением NLP-методов в Python, например, для избавления от всех цифр, знаков препинания и символов. К сигнатуре этой функции добавляется аргумент repl — на какую строку заменяем. Ниже регулярные выражения в Python это демонстрируют. Обратите внимание, что sub возвращает строку, поэтому их стоит переприсвоить.

expr = 'i love Data Science'
pattern = 'love'
repl = 'hate'
re.sub(pattern, repl, expr)
'i hate Data Science'

Также отметим, что функция заменяет все вхождения. Если требуется ограничить это число, то оно указывается в аргументе count. re.sub(pattern, repl, expr, count=1) ▪шпаргалка по регулярным выражениям @data_analysis_ml

50 257

⏩ Методы ускорения кода часть 2 : Параллелизация Большинство современных компьютеров имеют процессор с более чем одним ядром, т.е. с возможностью делать несколько вычислений одновременно. Более того, часто аналитики и DS работают на сервере (например, c JupyterHub), у которого число ядер может достигать сотен. Изначально интерпретатор python — однопоточная программа с глобальным локом во время вычисления, а значит в ванильном “pandas” нельзя параллелить задачи. Однако, в стандартной библиотеке python есть несколько модулей, позволяющих работать с многопоточностью, и далее мы разберем их применение. Первый модуль — multiprocessing. Он обходит глобальный лок, работая не через под-потоки, а через под-процессы. Основной его параметр — это кол-во процессов, на которые будет биться основной. Обычно его выбирают равным кол-ву ядер в процессоре, но я советую брать число на 1 меньше, оставляя одно ядро на накладные расходы и синхронизацию. Далее создается пул воркеров (процессов), на которые будут параллелиться вычисления. Есть несколько вариантов, как разбить по ним датафрейм, но обычно используется .array_split():


import pandas as pd
import multiprocessing as mp

def your_datarame_func(df):
  ...

n_cores = max(mp.cpu_count() - 1, 1)
p = mp.Pool(n_cores) # Data parallelism Object

def parallelize_dataframe(df, func, n_cores):
    df_split = np.array_split(df, n_cores)
    df = pd.concat( pool.map(func, df_split) )
    pool.close() ; pool.join()
    return df

df_results = parallelize_dataframe(df, func=your_datarame_func)

Более высокоуровневый интерфейс предоставляет другой пакет из стандартной библиотеки — concurrent.futures, однако возможностей у него меньше. Он предоставляет 2 аналогичных API для работы с процессами и тредами — ProcessPoolExecutor и ThreadPoolExecutor.

import psutil
import pandas as pd
import numpy  as np
from concurrent.futures import ProcessPoolExecutor, as_completed

def your_datarame_func(df):
  ...

num_procs = max(psutil.cpu_count(logical=True) - 1, 1)

splitted_df = np.array_split(df, num_procs)
df_results = []

with ProcessPoolExecutor(max_workers=num_procs) as executor:
    results = [executor.submit(your_datarame_func, df=df) for df in splitted_df]
    for result in as_completed(results):
        try:
            df_results.append(result.result())
        except Exception as ex:
            print(str(ex))
            pass

df_results = pd.concat(df_results)

В concurrent.futures можно получить pid порождаемых процессов (пример). Также, можно использовать сторонние пакеты для параллельных вычислений. ▪ Часть 1 @data_analysis_ml

50 257

Как определить, какая версия сайта работает лучше? Что изменилось после рефакторинга бэкенда и удалось ли отделу логистики ускорить доставку? Точные ответы на эти вопросы позволяют получить A/B-тесты. На симуляторе от karpovꓸcourses вы поработаете с нетривиальными кейсами и разберёте полный пайплайн тестирования на реальных задачах бизнеса — всё под руководством экспертов из X5 Retail Group и Blockchainꓸcom. Вы поймёте, какие метрики нужно измерять, как получить качественный результат даже на небольшой выборке, а также разберёте частые ошибки. ▫️Если вы не хотите погружаться в программирование и сложную математическую статистику — вам подойдёт базовая версия программы. Все задачи вы будете решать в Google Sheets, а запускать эксперименты — на уже готовой инфраструктуре. ▫️А если вы уже знаете основы Python и математической статистики, и вам важно на практике разобраться во всех тонкостях A/B-тестов — приходите на продвинутую версию. Новый поток стартует 12 июня, присоединяйтесь по ссылке.

50 257

➡️ Методы ускорения кода: Векторизация Это один из методов, который необходимо знать при работе с pandas, а его игнорирование обычно приводит к проваленным собеседованиям и медленному коду. Задача: необходимо применить некоторую функцию к каждой записи. Очевидный способ, который делают новички — цикл по строкам или конкретному столбцу. Однако это антипатерн в pandas, работающий неприлично медленно на больших датафреймах. Разберем другие способы с примерами. Например, итерация по строкам с помощью метода .iterrows(). Это самый медленный способ, к тому же не сохраняет типы данных. Другие варианты — использовать .itertuples(), где на каждой итерации строка рассматривается как именованный tupple. Это во много раз быстрее, чем .iterrows(). Еще один аналог — .iteritems(). Любые итерации все равно на порядки медленнее векторизованного подхода, поэтому использовать их стоит только в редких случаях, например когда результат зависит от предыдущих строк. Другой метод — использование функции .apply(). Она принимает на вход функцию и доп. параметры, и затем применяет ее к каждой строке. Это более предпочтительный способ, работающий в разы быстрее. Также, apply лаконичнее и удобнее, особенно если применять lambda-функции. Однако, современные процессоры научились оптимизировать подобные задачи с помощью SIMD-инструкций, в которых операции производятся над вектором, а не одним значением (как это происходит когда мы итерируемся по строкам). Чтобы использовать эти инструкции, нужно явно вызвать их в пакете. Поэтому pandas содержит собственные реализации простых операций (сумма, min/max и тд), выполняющиеся гораздо быстрее итерирования. Такие функции называют векторизированными. Прежде чем использовать apply или iter…, стоит поискать в документации соответствующие векторные функции. Для строк и дат есть свои методы, например df['col'].str.contains('pat') и df['col'].dt.days. Ниже сравнение времени работы методов выше для операции добавления столбца-логарифма. Результаты ошеломляющие, векторизация быстрее циклов и iterrows в тысячу раз! Похожее сравнение можно прочитать тут.

import numpy as np
import pandas as pd
import math

df = pd.DataFrame(data={'values':range(1,100_000)})

temp=[]

# -------------------------------------------------
# 1.15 секунды
for idx in range(0, df.shape[0], 1):
    temp.append(math.log(df['values'].iloc[idx]))

# 7.18 секунд
for i,row in df.iterrows():
    temp.append(math.log(row['values']))

# 156 миллисекунд
for row in df.itertuples():
    temp.append(math.log(row.values))

# 84.6 миллисекунды
temp = df['values'].apply(lambda x: math.log(x))

# 3.38 миллисекунды
temp = np.log(df['values'])
# -------------------------------------------------

df['new_values'] = temp

@data_analysis_ml

50 257

toPandas тормозит на больших датасетах? Это типичная боль аналитика А вот вам исчерпывающая инструкция, как устранить эту проблему. Выгрузка данных через консоль, обход ограничений Arrow, исправление ошибок настройки памяти — обо всем этом рассказывает Александр Ледовский — тимлид команды аналитики и DS. Он строит рекламные аукционы в Авито, так что про большие массивы данных знает как никто другой. Так что если у вас все падает с ошибками, не мучайтесь: берите инструкцию — и вперед!

50 257

💫 SQLite для работы с данными Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер. Для затравки несколько известных фактов: ▪SQLite — самая распространенная СУБД в мире, включена во все популярные ОС. ▪Работает без сервера. ▪Для разработчиков — встраивается прямо в приложение. ▪Для всех остальных — удобная консоль (REPL) одним файлом (sqlite3.exe на Windows, sqlite3 в Linux / macOS). 📌 Читать @data_analysis_ml

50 257

Первый в России ускоренный онлайн-бакалавриат «Фронтенд и мобильная разработка» — от Яндекс Практикума и университета ИТМО. — Учёба 2,5 года вместо четырёх лет — Диплом государственного образца по направлению «Прикладная информатика» — Можно выбрать специализацию: фронтенд, iOS- или Android-разработка — Удобно совмещать с работой: обучение онлайн, 20-25 часов в неделю — Преподаватели — действующие разработчики — Стажировка в крупных IT-компаниях — Системное развитие хард-и софтскилов Программы рассчитаны на людей со средним профессиональным или высшим образованием. Обучение почти в два раза короче, потому что формат позволяет перезачесть часть общих предметов и оставить только профильные. Поступайте, чтобы стать востребованным разработчиком и подготовиться к роли тимлида. → Оставить заявку Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid: LjN8KCpNz

50 257

🐼 4 альтернативы Pandas: ускоренное выполнение анализа данных Pandas — одна из самых популярных библиотек Python. Ее DataFrame интуитивно понятен и оснащен продвинутыми API для выполнения задач по работе с данными. Многие библиотеки Python были интегрированы с Pandas DataFrame, чтобы повысить скорость их принятия. Однако библиотека Pandas не является эталоном в области обработки больших наборов данных. Она преимущественно используется для анализа данных на одной машине, а не на кластере машин. В этой статье будут представлены результаты оценки производительности более быстрых альтернатив: Polars, DuckDB, Vaex и Modin. ▪Читать дальше @data_analysis_ml

50 257

Как статистика помогает аналитику: бесплатное занятие Нетологии Знание статистики необходимо любому аналитику — статистические методы помогают в интерпретации цифр и защищают аналитика от искажений информации. Это позволяет ему корректно обобщать данные и предлагать бизнесу оптимальное решение той или иной задачи. На бесплатном занятии «Статистика для будущих аналитиков: как принимать решения на основе данных» вы узнаете, в чём ценность статистики для бизнеса и как применять её инструменты для решения бизнес-задач. Также вы узнаете, какие навыки необходимы аналитику для успешного развития в сфере. Зарегистрироваться → https://netolo.gy/bJJm

50 257

🖥 Тестирование инструментов для обработки данных на Python. Часть 1. Это будет история о том, как мы придумали и приступили к реализации бенчмарка объективным, упорядоченным и унифицированным способом – через написание универсального инструмента. В первой части публикации представим теоретическую часть задачи, предпосылки, а также первую попытку реализации универсального инструмента. Основные результаты сравнения опишем в следующей части. В нашей работе часто приходится сталкиваться с задачами обработки больших данных. Традиционный метод обработки, который мы используем — библиотека Pandas. Она предоставляет приятные вещи (чтения форматов из коробки, фильтрации, агрегации, concat, join merge). Всё это позволяет абстрагироваться от технических трудностей, сразу приступая к самому алгоритмически интересному. ▪Читать дальше @data_analysis_ml

50 257

⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional 🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера. ⏰ Время прохождения теста ограничено 30 минут 👉 ПРОЙТИ ТЕСТ: https://otus.pw/gLXr/ Присоединяйтесь 15 июня в 18:00 мск к открытому уроку. На вебинаре «Content-based рекомендательные системы» вы: — Узнаете общие принципы построения рекомендательных систем — Познакомитесь с методами контентной фильтрации — Построите свою первую рекомендательную систему для онлайн-магазина. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. 2RanynN5GZN

50 257

🔍 Data Validation Подборка полезных инструментов для проверки данных в ваших проектах. Если вы еще не используете их в своих ds проектах, рекомендуем обратить на них внимание. ▪pydantic - Проверка данных с помощью подсказок типов Python. ▪jsonschema - Реализация спецификации JSON Schema для Python. ▪validators - удобная библиотека Проверки данных. param - Param: Сделает ваш код Python более понятным и надежным. ▪voluptuous - Валидаторы - это простые вызываемые функции: С ними вам не нужно создавать нагромождение классов, просто импортируйет 1 функцию из этой замечательной библиотеки. ▪strictyaml - Безопасный парсер и валидатор YAML. ▪dirty-equals - dirty-equals - это библиотека python, которая (неправильно) использует метод eq, чтобы сделать ваш код python более декларативным и, следовательно, более легким для понимания и редактирования. ▪typical - Быстрая, простая и корректная проверка данных с использованием Python 3. ▪valideer - Легкая библиотека Python для проверки данных. @data_analysis_ml