Анализ данных (Data analysis)

Ir al canal en Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Red:Machinelearning Rusia12 484 Tecnologías y Aplicaciones2 657...

📈 Análisis del canal de Telegram Анализ данных (Data analysis)

El canal Анализ данных (Data analysis) (@data_analysis_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 50 256 suscriptores, ocupando la posición 2 657 en la categoría Tecnologías y Aplicaciones y el puesto 12 484 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 50 256 suscriptores.

Según los últimos datos del 25 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 38, y en las últimas 24 horas de 0, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.85%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 6.52% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 4 447 visualizaciones. En el primer día suele acumular 3 278 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 28.
Intereses temáticos: El contenido se centra en temas clave como llm, контекст, openai, архитектура, deepseek.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 26 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

50 256

Suscriptores

Sin datos24 horas

+377 días

+3830 días

4 447

Visitas de la publicación

~ 3 27824 horas

~ 3 76448 horas

8.85%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

50 257

Город засыпает, просыпаются рекрутеры и делают выбор: кто попадет в команду разработки внутренних продуктов. Мы в МТС любим играть в мафию и проводить One day offer. И подумали, почему бы не совместить эти две активности и заодно найти аналитиков разных профилей. Наша команда развивает сервисы в рамках экосистемы HR Tech. Например, разработка системы управления эффективностью или создание корпоративного портала для сотрудников. У нас амбициозные планы — стать первым цифровым HR с комплексным подходом к разработке и поддержке внутренних продуктов. Но для этого нам нужны настоящие профи. Готовы участвовать и проверить — вы Дон SQL или мирный аналитик? Кликайте по ссылке и начните игру. Да, нужно успеть до 19 июня

50 257

🖥 30 SQL-запросов, объяснённых через их эквиваленты Pandas В мире, где с 1974 года доминирует SQL, в 2008 году появился Pandas, предлагающий привлекательные функции, такие как встроенная визуализация и гибкая обработка данных. Он быстро стал популярным инструментом для исследования данных, затмив собой SQL. Но не обманывайте себя, SQL по-прежнему держит свои позиции. Это второй по востребованности и третий по скорости роста язык для Data science (см. здесь ). Таким образом, в то время как Pandas привлекает всеобщее внимание, SQL остаётся жизненно важным навыком для любого специалиста по данным. Давайте узнаем, как легко выучить SQL, если вы уже знаете Pandas. ▪ Читать @data_analysis_ml

50 257

В четверг 15 июня в 19:00 по мск. состоится BI-баттл между приверженцем проприетарного BI Евгением Скребановым и адептом open source Сергеем Громовым! Эксперты будут разбирать три кейса с практическими задачами. Участники баттла представят свои решения, выступив с принципиальной технологической позиции разработчика открытого решения или готового BI. Два непримиримых взгляда столкнутся в публичной дискуссии, чтобы выяснить, чей подход сегодня лучше закрывает потребности российского бизнеса. Чья позиция окажется сильнее? Не пропустите! Запишитесь на ивент прямо сейчас и задайте свой вопрос спикерам.

50 257

⚡Python со скоростью света Задача: заполнить список из n целых чисел.

def populate_python(size:int)->list:
    b = []
    for i in range(size):
        b.append(i)
    return b

Запуск функции с size = 10 000 000 занял в среднем 765 мс на моей машине. Ускорим этот процесс! ▪Numpy

import numpy as np
def populate_numpy(size:int)->np.ndarray:
    b = np.empty((size),dtype=np.int64)
    for i in range(size):
        b[i] = i
    return b

Запуск функции с тем же количеством элементов занял 964 мс. ▪Numba

from numba import njit, prange
@njit
def populate_numba(size:int)->np.ndarray:
    b = np.empty((size),dtype=np.int64)
    for i in prange(size):
        b[i] = i
    return b

Как мы видим, функция почти такая же. Просто добавил декоратор и prange (функция диапазона в numba, которая работает параллельно). На этот раз время вычислений составило всего 16 мс! Почти в 50 раз быстрее, чем на голом Python. Это впечатляющий результат. ▪Julia Julia – еще один язык, который набирает обороты. Его цель – предложить почти такую же гибкость и понятный синтаксис, как у Python, но с высокой скоростью компиляции кода.

function populate_array(size::Int)::AbstractVector{Int64}
    b = Vector{Int64}(undef,size)
    Threads.@threads for i=1:size
        b[i] = i
    end
    return b 
end

В Julia нет проблем с GIL, поэтому потоки могут работать параллельно. Это заняло всего 12 мс. ▪Mojo Mojo – это новый язык, находящийся в стадии активной разработки.

from Pointer import DTypePointer
from Random import rand, random_ui64
from DType import DType
from Range import range
from Functional import parallelize
import SIMD

struct Vect:
    var data: DTypePointer[DType.uint64]
    var rows: Int

    fn __init__(inout self, rows: Int):
        self.data = DTypePointer[DType.uint64].alloc(rows)
        self.rows = rows

    fn __del__(owned self):
        self.data.free()
    
    @always_inline    
    fn len(self)->UInt64:
        return self.rows

    fn zero(inout self):
        memset_zero(self.data, self.rows)

    @always_inline
    fn __getitem__(self, x: Int) -> UInt64:
        return self.data.load(x)


    @always_inline
    fn __setitem__(self,  x: Int, val: UInt64):
        return self.data.store( x, val)

fn populate_mojo(b:Vect):
    @parameter
    fn process_row(i:Int):
        b[i] = i
    parallelize[process_row](b.rows)

Приведенная выше функция отработала всего за 7 мс, в 110 раз быстрее, чем Python, и намного быстрее, чем Julia. Это Python со скоростью света! 📌 Почитать про Mojo @data_analysis_ml

50 257

Газпромбанк приглашает тебя на новую лекцию Digital Лектория — на ней ты сможешь узнать больше о карьере в Data Science и задать интересующие вопросы IT-эксперту. Тема: «Data Science: быть или не быть» Когда: 21 июня, 18:00 (по МСК) Ирина Скорынина, ведущий аналитик-исследователь, расскажет, кому будет интересно в IT и почему не всем стоит идти в это направление, как развиваться в Data Science с непрофильным образованием, какими навыками и компетенциями должен обладать Data Scientist и как выглядит roadmap специалиста в этой сфере. Регистрируйся и приходи на лекцию, чтобы узнать больше о направлении Data Science: https://www.gpbspace.ru/digital-lectory-hall-form Реклама Банк ГПБ (АО), ИНН: 7744001497 erid:LjN8Jste3

50 257

🤖12 сервисов искусственного интеллекта, для написания кода. Mutable AI Альтернатива Copilot, которая предлагает бесплатную версию со сокращенным функционалом, а стоимость ее платной подписки варьируется от $10 до $25 в месяц. Эта альтернатива также предлагает следующие возможности: автодополнение кода, управление с помощью промптов, рефакторинг кода и автоматическую документацию. SpellBox Это AI-помощник для программистов, который можно установить как настольное приложение (для Windows и macOS), так и как плагин для VS Code. Он способен генерировать код в ответ на запросы, объяснять принципы работы программы и сохранять фрагменты кода в закладках. StarCoder Это AI-ассистент, который может создавать код на 80 языках, обученный на данных из GitHub. Эта модель похожа на GitHub Copilot, но с открытым исходным кодом и, по мнению разработчиков, она лучше других моделей. Blackbox AI BlackboxAI поддерживает более 20 языков программирования, включая Python, Java, C, C++, C#, JavaScript, SQL, PHP, Go, TypeScript, Kotlin, MATLAB, R, Swift, Rust, Ruby, Dart и Scala. Ghostwriter Chat Разработчики Replit создали не имеющую себе равных онлайн-IDE, которая основана на искусственном интеллекте. Эта инновационная система способна написать код в соответствии с контекстом проекта и не только дополняет код, написанный программистом, но и помогает отслеживать ошибки. CodeSquire.ai Это ИИ-ассистент, который помогает дата-сайентистам, инженерам и аналитикам. Он способен генерировать код в ответ на вопросы, создавать функции различной сложности, преобразовывать вводимые команды в SQL-запросы и детально объяснять, как работает каждый блок кода. Toolbuilder Toolbuilder позволяет быстро создавать ИИ-приложения и чат-боты, которые хранятся и запускаются на сайте. Вы можете поделиться ссылками на приложения с друзьями, а для выбора подходящего инструмента есть каталог готовых приложений, например, инструменты для поиска персонализированных подарков, анализа SEO показателей, рекомендации коктейлей и описания товаров. Еще один популярный инструмент - генератор постов для блога. Также вы можете использовать Toolbuilder для описания сюжета фильма с помощью эмодзи и иконок. Safurai Это бесплатный инструмент на основе искусственного интеллекта, который можно использовать как плагин для VS Code. Для того чтобы воспользоваться ее возможностями, достаточно выделить фрагмент кода: Safurai объяснит, как он работает, предложит советы по оптимизации и рефакторингу, напишет необходимые тесты и документацию. Будучи обучаемым на коде проекта, он запомнит все заданные вопросы. Text2SQL Text2SQL - данный искусственный интеллект создает запросы SQL, регулярные выражения, дизайны баз данных и формулы для Excel и Google Sheets. Присутствует бесплатный тариф, в то время как цены платной подписки варьируются от $2.49 до $4.99 в месяц. Code Snippets AI Приложение, использующее технологию GPT-4 для генерации кода. По вопросу о необходимости данного инструмента, разработчики отвечают, что это более экономичный вариант по сравнению с оригинальным ChatGPT Plus, подписка на который стоит $24 в месяц, в то время как подписка на Code Snippets AI обойдется в $10 в месяц. CodiumAI CodiumAI - программа для тестирования, использующая TestGPT-1 и GPT-3.5 & 4 для интеллектуального создания тестов и обработки кода, выявления ошибок и багов. В настоящее время этот инструмент работает с кодом Python, JavaScript и TypeScript. Благодаря подключению к VS Code и другим IDE от JetBrains, использование CodiumAI бесплатно. Metabob Metabob исправляет ошибки и выявляет уязвимости в коде, а также интегрируется с такими платформами, как VS Code, GitHub, BitBucket и GitLab. Эта программа берет под контроль все самые популярные языки программирования, включая Python, Javascript, Typescript, C++, С и Java, и предоставляет своевременные рекомендации по улучшению кода. B процессе работы Metabob автоматически производит рефакторинг кода разработчиков и искусственный разум.

50 257

Как устроены нейронные сети и как применять их в продуктовой аналитике Разберёмся в прямом эфире: 14 июня в 19:00 (по Москве) Вебинар проведёт Анатолий Карпов — автор тех самых бесплатных курсов на stepik, основатель школы karpovꓸcourses и по совместительству ведущий аналитик с опытом работы в Mail.Ru, VK и JetBrains. Ждём вас на трансляции! Регистрируйтесь, чтобы не пропустить

50 257

🗒 Регулярные выражения для задач NLP в Python. Часть1 Рассморим основные функции Python-модуля re. Регулярные выражения - это набор символов, который определяет паттерн для поиска в тексте. Например, в задачах NLP можно использовать Python-библиотеку Yargy для поиска именованных сущностей. Но использование выражений может вызвать неоднозначность, так как выражения, содержащие искомый паттерн, также будут найдены. В Python модуль re используется для работы с регулярными выражениями и содержит 4 основные функции: search, match, findall, finditer и sub. Первые четыре функции имеют одинаковую сигнатуру и принимают на вход шаблон и выражение, а функция sub дополнительно требует строку замены. re.search() – находит первое вхождение фрагмента в любом месте и возвращает объект match. Если в строке есть другие фрагменты, соответствующие запросу, re.search их проигнорирует.

import re
expr = 'i love Data Science'
pattern = '

love

'
print(re.search(pattern, expr))


<re.Match object; span=(2, 6), match='love'>

Обратите внимание, что функция search находит только первый попавшийся шаблон, дальше она уже не смотрит: expr = 'I love data science, i love @data_analysis_ml' print( re.search(pattern, expr)) <re.Match object; span=(2, 6), match='love'> Нельзя забывать, что шаблон представляет собой последовательность символов, а не сами слова. Например, как можно найти последовательность "love" в составном слове в Python, показано ниже.

>>> expr = 'So many lovers
>>> re.search('love', expr)

Как найти все вхождения при помощи findall и finditer. В отличие от функции search, две другие функции findall и finditer найдут все вхождения. Разница между findall и finditer заключается в том, что первый возвращает список (list), а второй возвращает итератор (iterator), который мы обсудили ранее. Возвращаясь к предыдущему примеру, регулярное выражение для обнаружения всех вхождений в Python будет иметь следующий вид:

expr = 'I love data science, I love @data_analysis_ml'

re.findall('love', expr)
['love', 'love']

re.finditer('love', expr) <callable_iterator object at 0x7efd1caf6b60> Проверяем начало строки с помощью функции match. Функция match проверяет начало строки на соответствие шаблону. Пример выше не начинается с "love", поэтому эта функция вернет значение None. С другой стороны, если выражение начинается с шаблона, функция match вернет объект Match. Рассмотрите следующие регулярные выражения в Python: expr = 'i love Data Science' re.match('Data', expr) None


re.match('love', expr) is None
True

Исключаем шаблон из строки с sub Ещё одной полезной функцией Python-модуля re является sub. Она необходима, когда один шаблон нужно заменить на другой и пригодится для подготовки текстов перед применением NLP-методов в Python, например, для избавления от всех цифр, знаков препинания и символов. К сигнатуре этой функции добавляется аргумент repl — на какую строку заменяем. Ниже регулярные выражения в Python это демонстрируют. Обратите внимание, что sub возвращает строку, поэтому их стоит переприсвоить.

expr = 'i love Data Science'
pattern = 'love'
repl = 'hate'
re.sub(pattern, repl, expr)
'i hate Data Science'

Также отметим, что функция заменяет все вхождения. Если требуется ограничить это число, то оно указывается в аргументе count. re.sub(pattern, repl, expr, count=1) ▪шпаргалка по регулярным выражениям @data_analysis_ml

50 257

⏩ Методы ускорения кода часть 2 : Параллелизация Большинство современных компьютеров имеют процессор с более чем одним ядром, т.е. с возможностью делать несколько вычислений одновременно. Более того, часто аналитики и DS работают на сервере (например, c JupyterHub), у которого число ядер может достигать сотен. Изначально интерпретатор python — однопоточная программа с глобальным локом во время вычисления, а значит в ванильном “pandas” нельзя параллелить задачи. Однако, в стандартной библиотеке python есть несколько модулей, позволяющих работать с многопоточностью, и далее мы разберем их применение. Первый модуль — multiprocessing. Он обходит глобальный лок, работая не через под-потоки, а через под-процессы. Основной его параметр — это кол-во процессов, на которые будет биться основной. Обычно его выбирают равным кол-ву ядер в процессоре, но я советую брать число на 1 меньше, оставляя одно ядро на накладные расходы и синхронизацию. Далее создается пул воркеров (процессов), на которые будут параллелиться вычисления. Есть несколько вариантов, как разбить по ним датафрейм, но обычно используется .array_split():


import pandas as pd
import multiprocessing as mp

def your_datarame_func(df):
  ...

n_cores = max(mp.cpu_count() - 1, 1)
p = mp.Pool(n_cores) # Data parallelism Object

def parallelize_dataframe(df, func, n_cores):
    df_split = np.array_split(df, n_cores)
    df = pd.concat( pool.map(func, df_split) )
    pool.close() ; pool.join()
    return df

df_results = parallelize_dataframe(df, func=your_datarame_func)

Более высокоуровневый интерфейс предоставляет другой пакет из стандартной библиотеки — concurrent.futures, однако возможностей у него меньше. Он предоставляет 2 аналогичных API для работы с процессами и тредами — ProcessPoolExecutor и ThreadPoolExecutor.

import psutil
import pandas as pd
import numpy  as np
from concurrent.futures import ProcessPoolExecutor, as_completed

def your_datarame_func(df):
  ...

num_procs = max(psutil.cpu_count(logical=True) - 1, 1)

splitted_df = np.array_split(df, num_procs)
df_results = []

with ProcessPoolExecutor(max_workers=num_procs) as executor:
    results = [executor.submit(your_datarame_func, df=df) for df in splitted_df]
    for result in as_completed(results):
        try:
            df_results.append(result.result())
        except Exception as ex:
            print(str(ex))
            pass

df_results = pd.concat(df_results)

В concurrent.futures можно получить pid порождаемых процессов (пример). Также, можно использовать сторонние пакеты для параллельных вычислений. ▪ Часть 1 @data_analysis_ml

50 257

Как определить, какая версия сайта работает лучше? Что изменилось после рефакторинга бэкенда и удалось ли отделу логистики ускорить доставку? Точные ответы на эти вопросы позволяют получить A/B-тесты. На симуляторе от karpovꓸcourses вы поработаете с нетривиальными кейсами и разберёте полный пайплайн тестирования на реальных задачах бизнеса — всё под руководством экспертов из X5 Retail Group и Blockchainꓸcom. Вы поймёте, какие метрики нужно измерять, как получить качественный результат даже на небольшой выборке, а также разберёте частые ошибки. ▫️Если вы не хотите погружаться в программирование и сложную математическую статистику — вам подойдёт базовая версия программы. Все задачи вы будете решать в Google Sheets, а запускать эксперименты — на уже готовой инфраструктуре. ▫️А если вы уже знаете основы Python и математической статистики, и вам важно на практике разобраться во всех тонкостях A/B-тестов — приходите на продвинутую версию. Новый поток стартует 12 июня, присоединяйтесь по ссылке.

50 257

➡️ Методы ускорения кода: Векторизация Это один из методов, который необходимо знать при работе с pandas, а его игнорирование обычно приводит к проваленным собеседованиям и медленному коду. Задача: необходимо применить некоторую функцию к каждой записи. Очевидный способ, который делают новички — цикл по строкам или конкретному столбцу. Однако это антипатерн в pandas, работающий неприлично медленно на больших датафреймах. Разберем другие способы с примерами. Например, итерация по строкам с помощью метода .iterrows(). Это самый медленный способ, к тому же не сохраняет типы данных. Другие варианты — использовать .itertuples(), где на каждой итерации строка рассматривается как именованный tupple. Это во много раз быстрее, чем .iterrows(). Еще один аналог — .iteritems(). Любые итерации все равно на порядки медленнее векторизованного подхода, поэтому использовать их стоит только в редких случаях, например когда результат зависит от предыдущих строк. Другой метод — использование функции .apply(). Она принимает на вход функцию и доп. параметры, и затем применяет ее к каждой строке. Это более предпочтительный способ, работающий в разы быстрее. Также, apply лаконичнее и удобнее, особенно если применять lambda-функции. Однако, современные процессоры научились оптимизировать подобные задачи с помощью SIMD-инструкций, в которых операции производятся над вектором, а не одним значением (как это происходит когда мы итерируемся по строкам). Чтобы использовать эти инструкции, нужно явно вызвать их в пакете. Поэтому pandas содержит собственные реализации простых операций (сумма, min/max и тд), выполняющиеся гораздо быстрее итерирования. Такие функции называют векторизированными. Прежде чем использовать apply или iter…, стоит поискать в документации соответствующие векторные функции. Для строк и дат есть свои методы, например df['col'].str.contains('pat') и df['col'].dt.days. Ниже сравнение времени работы методов выше для операции добавления столбца-логарифма. Результаты ошеломляющие, векторизация быстрее циклов и iterrows в тысячу раз! Похожее сравнение можно прочитать тут.

import numpy as np
import pandas as pd
import math

df = pd.DataFrame(data={'values':range(1,100_000)})

temp=[]

# -------------------------------------------------
# 1.15 секунды
for idx in range(0, df.shape[0], 1):
    temp.append(math.log(df['values'].iloc[idx]))

# 7.18 секунд
for i,row in df.iterrows():
    temp.append(math.log(row['values']))

# 156 миллисекунд
for row in df.itertuples():
    temp.append(math.log(row.values))

# 84.6 миллисекунды
temp = df['values'].apply(lambda x: math.log(x))

# 3.38 миллисекунды
temp = np.log(df['values'])
# -------------------------------------------------

df['new_values'] = temp

@data_analysis_ml

50 257

toPandas тормозит на больших датасетах? Это типичная боль аналитика А вот вам исчерпывающая инструкция, как устранить эту проблему. Выгрузка данных через консоль, обход ограничений Arrow, исправление ошибок настройки памяти — обо всем этом рассказывает Александр Ледовский — тимлид команды аналитики и DS. Он строит рекламные аукционы в Авито, так что про большие массивы данных знает как никто другой. Так что если у вас все падает с ошибками, не мучайтесь: берите инструкцию — и вперед!

50 257

💫 SQLite для работы с данными Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер. Для затравки несколько известных фактов: ▪SQLite — самая распространенная СУБД в мире, включена во все популярные ОС. ▪Работает без сервера. ▪Для разработчиков — встраивается прямо в приложение. ▪Для всех остальных — удобная консоль (REPL) одним файлом (sqlite3.exe на Windows, sqlite3 в Linux / macOS). 📌 Читать @data_analysis_ml

50 257

Первый в России ускоренный онлайн-бакалавриат «Фронтенд и мобильная разработка» — от Яндекс Практикума и университета ИТМО. — Учёба 2,5 года вместо четырёх лет — Диплом государственного образца по направлению «Прикладная информатика» — Можно выбрать специализацию: фронтенд, iOS- или Android-разработка — Удобно совмещать с работой: обучение онлайн, 20-25 часов в неделю — Преподаватели — действующие разработчики — Стажировка в крупных IT-компаниях — Системное развитие хард-и софтскилов Программы рассчитаны на людей со средним профессиональным или высшим образованием. Обучение почти в два раза короче, потому что формат позволяет перезачесть часть общих предметов и оставить только профильные. Поступайте, чтобы стать востребованным разработчиком и подготовиться к роли тимлида. → Оставить заявку Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid: LjN8KCpNz

50 257

🐼 4 альтернативы Pandas: ускоренное выполнение анализа данных Pandas — одна из самых популярных библиотек Python. Ее DataFrame интуитивно понятен и оснащен продвинутыми API для выполнения задач по работе с данными. Многие библиотеки Python были интегрированы с Pandas DataFrame, чтобы повысить скорость их принятия. Однако библиотека Pandas не является эталоном в области обработки больших наборов данных. Она преимущественно используется для анализа данных на одной машине, а не на кластере машин. В этой статье будут представлены результаты оценки производительности более быстрых альтернатив: Polars, DuckDB, Vaex и Modin. ▪Читать дальше @data_analysis_ml

50 257

Как статистика помогает аналитику: бесплатное занятие Нетологии Знание статистики необходимо любому аналитику — статистические методы помогают в интерпретации цифр и защищают аналитика от искажений информации. Это позволяет ему корректно обобщать данные и предлагать бизнесу оптимальное решение той или иной задачи. На бесплатном занятии «Статистика для будущих аналитиков: как принимать решения на основе данных» вы узнаете, в чём ценность статистики для бизнеса и как применять её инструменты для решения бизнес-задач. Также вы узнаете, какие навыки необходимы аналитику для успешного развития в сфере. Зарегистрироваться → https://netolo.gy/bJJm

50 257

🖥 Тестирование инструментов для обработки данных на Python. Часть 1. Это будет история о том, как мы придумали и приступили к реализации бенчмарка объективным, упорядоченным и унифицированным способом – через написание универсального инструмента. В первой части публикации представим теоретическую часть задачи, предпосылки, а также первую попытку реализации универсального инструмента. Основные результаты сравнения опишем в следующей части. В нашей работе часто приходится сталкиваться с задачами обработки больших данных. Традиционный метод обработки, который мы используем — библиотека Pandas. Она предоставляет приятные вещи (чтения форматов из коробки, фильтрации, агрегации, concat, join merge). Всё это позволяет абстрагироваться от технических трудностей, сразу приступая к самому алгоритмически интересному. ▪Читать дальше @data_analysis_ml

50 257

⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional 🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера. ⏰ Время прохождения теста ограничено 30 минут 👉 ПРОЙТИ ТЕСТ: https://otus.pw/gLXr/ Присоединяйтесь 15 июня в 18:00 мск к открытому уроку. На вебинаре «Content-based рекомендательные системы» вы: — Узнаете общие принципы построения рекомендательных систем — Познакомитесь с методами контентной фильтрации — Построите свою первую рекомендательную систему для онлайн-магазина. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. 2RanynN5GZN

50 257

🔍 Data Validation Подборка полезных инструментов для проверки данных в ваших проектах. Если вы еще не используете их в своих ds проектах, рекомендуем обратить на них внимание. ▪pydantic - Проверка данных с помощью подсказок типов Python. ▪jsonschema - Реализация спецификации JSON Schema для Python. ▪validators - удобная библиотека Проверки данных. param - Param: Сделает ваш код Python более понятным и надежным. ▪voluptuous - Валидаторы - это простые вызываемые функции: С ними вам не нужно создавать нагромождение классов, просто импортируйет 1 функцию из этой замечательной библиотеки. ▪strictyaml - Безопасный парсер и валидатор YAML. ▪dirty-equals - dirty-equals - это библиотека python, которая (неправильно) использует метод eq, чтобы сделать ваш код python более декларативным и, следовательно, более легким для понимания и редактирования. ▪typical - Быстрая, простая и корректная проверка данных с использованием Python 3. ▪valideer - Легкая библиотека Python для проверки данных. @data_analysis_ml