Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 256 名订阅者,在 技术与应用 类别中位列第 2 657,并在 俄罗斯 地区排名第 12 484 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 256 名订阅者。
根据 25 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 38,过去 24 小时变化为 0,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.85%。内容发布后 24 小时内通常能获得 6.52% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 447 次浏览,首日通常累积 3 278 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 28。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 26 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 256
订阅者
无数据24 小时
+377 天
+3830 天
帖子存档
Город засыпает, просыпаются рекрутеры и делают выбор: кто попадет в команду разработки внутренних продуктов.
Мы в МТС любим играть в мафию и проводить One day offer. И подумали, почему бы не совместить эти две активности и заодно найти аналитиков разных профилей. Наша команда развивает сервисы в рамках экосистемы HR Tech. Например, разработка системы управления эффективностью или создание корпоративного портала для сотрудников. У нас амбициозные планы — стать первым цифровым HR с комплексным подходом к разработке и поддержке внутренних продуктов. Но для этого нам нужны настоящие профи.
Готовы участвовать и проверить — вы Дон SQL или мирный аналитик? Кликайте по ссылке и начните игру. Да, нужно успеть до 19 июня
🖥 30 SQL-запросов, объяснённых через их эквиваленты Pandas
В мире, где с 1974 года доминирует SQL, в 2008 году появился Pandas, предлагающий привлекательные функции, такие как встроенная визуализация и гибкая обработка данных. Он быстро стал популярным инструментом для исследования данных, затмив собой SQL.
Но не обманывайте себя, SQL по-прежнему держит свои позиции. Это второй по востребованности и третий по скорости роста язык для Data science (см. здесь ). Таким образом, в то время как Pandas привлекает всеобщее внимание, SQL остаётся жизненно важным навыком для любого специалиста по данным.
Давайте узнаем, как легко выучить SQL, если вы уже знаете Pandas.
▪ Читать
@data_analysis_ml
В четверг 15 июня в 19:00 по мск. состоится BI-баттл между приверженцем проприетарного BI Евгением Скребановым и адептом open source Сергеем Громовым!
Эксперты будут разбирать три кейса с практическими задачами. Участники баттла представят свои решения, выступив с принципиальной технологической позиции разработчика открытого решения или готового BI.
Два непримиримых взгляда столкнутся в публичной дискуссии, чтобы выяснить, чей подход сегодня лучше закрывает потребности российского бизнеса.
Чья позиция окажется сильнее? Не пропустите! Запишитесь на ивент прямо сейчас и задайте свой вопрос спикерам.
⚡Python со скоростью света
Задача: заполнить список из n целых чисел.
def populate_python(size:int)->list:
b = []
for i in range(size):
b.append(i)
return b
Запуск функции с size = 10 000 000 занял в среднем 765 мс на моей машине.
Ускорим этот процесс!
▪Numpy
import numpy as np
def populate_numpy(size:int)->np.ndarray:
b = np.empty((size),dtype=np.int64)
for i in range(size):
b[i] = i
return b
Запуск функции с тем же количеством элементов занял 964 мс.
▪Numba
from numba import njit, prange
@njit
def populate_numba(size:int)->np.ndarray:
b = np.empty((size),dtype=np.int64)
for i in prange(size):
b[i] = i
return b
Как мы видим, функция почти такая же. Просто добавил декоратор и prange (функция диапазона в numba, которая работает параллельно). На этот раз время вычислений составило всего 16 мс! Почти в 50 раз быстрее, чем на голом Python. Это впечатляющий результат.
▪Julia
Julia – еще один язык, который набирает обороты. Его цель – предложить почти такую же гибкость и понятный синтаксис, как у Python, но с высокой скоростью компиляции кода.
function populate_array(size::Int)::AbstractVector{Int64}
b = Vector{Int64}(undef,size)
Threads.@threads for i=1:size
b[i] = i
end
return b
end
В Julia нет проблем с GIL, поэтому потоки могут работать параллельно. Это заняло всего 12 мс.
▪Mojo
Mojo – это новый язык, находящийся в стадии активной разработки.
from Pointer import DTypePointer
from Random import rand, random_ui64
from DType import DType
from Range import range
from Functional import parallelize
import SIMD
struct Vect:
var data: DTypePointer[DType.uint64]
var rows: Int
fn __init__(inout self, rows: Int):
self.data = DTypePointer[DType.uint64].alloc(rows)
self.rows = rows
fn __del__(owned self):
self.data.free()
@always_inline
fn len(self)->UInt64:
return self.rows
fn zero(inout self):
memset_zero(self.data, self.rows)
@always_inline
fn __getitem__(self, x: Int) -> UInt64:
return self.data.load(x)
@always_inline
fn __setitem__(self, x: Int, val: UInt64):
return self.data.store( x, val)
fn populate_mojo(b:Vect):
@parameter
fn process_row(i:Int):
b[i] = i
parallelize[process_row](b.rows)
Приведенная выше функция отработала всего за 7 мс, в 110 раз быстрее, чем Python, и намного быстрее, чем Julia. Это Python со скоростью света!
📌 Почитать про Mojo
@data_analysis_mlГазпромбанк приглашает тебя на новую лекцию Digital Лектория — на ней ты сможешь узнать больше о карьере в Data Science и задать интересующие вопросы IT-эксперту.
Тема: «Data Science: быть или не быть»
Когда: 21 июня, 18:00 (по МСК)
Ирина Скорынина, ведущий аналитик-исследователь, расскажет, кому будет интересно в IT и почему не всем стоит идти в это направление, как развиваться в Data Science с непрофильным образованием, какими навыками и компетенциями должен обладать Data Scientist и как выглядит roadmap специалиста в этой сфере.
Регистрируйся и приходи на лекцию, чтобы узнать больше о направлении Data Science: https://www.gpbspace.ru/digital-lectory-hall-form
Реклама Банк ГПБ (АО), ИНН: 7744001497 erid:LjN8Jste3
🤖12 сервисов искусственного интеллекта, для написания кода.
Mutable AI
Альтернатива Copilot, которая предлагает бесплатную версию со сокращенным функционалом, а стоимость ее платной подписки варьируется от $10 до $25 в месяц. Эта альтернатива также предлагает следующие возможности: автодополнение кода, управление с помощью промптов, рефакторинг кода и автоматическую документацию.
SpellBox
Это AI-помощник для программистов, который можно установить как настольное приложение (для Windows и macOS), так и как плагин для VS Code. Он способен генерировать код в ответ на запросы, объяснять принципы работы программы и сохранять фрагменты кода в закладках.
StarCoder
Это AI-ассистент, который может создавать код на 80 языках, обученный на данных из GitHub. Эта модель похожа на GitHub Copilot, но с открытым исходным кодом и, по мнению разработчиков, она лучше других моделей.
Blackbox AI
BlackboxAI поддерживает более 20 языков программирования, включая Python, Java, C, C++, C#, JavaScript, SQL, PHP, Go, TypeScript, Kotlin, MATLAB, R, Swift, Rust, Ruby, Dart и Scala.
Ghostwriter Chat
Разработчики Replit создали не имеющую себе равных онлайн-IDE, которая основана на искусственном интеллекте. Эта инновационная система способна написать код в соответствии с контекстом проекта и не только дополняет код, написанный программистом, но и помогает отслеживать ошибки.
CodeSquire.ai
Это ИИ-ассистент, который помогает дата-сайентистам, инженерам и аналитикам. Он способен генерировать код в ответ на вопросы, создавать функции различной сложности, преобразовывать вводимые команды в SQL-запросы и детально объяснять, как работает каждый блок кода.
Toolbuilder
Toolbuilder позволяет быстро создавать ИИ-приложения и чат-боты, которые хранятся и запускаются на сайте. Вы можете поделиться ссылками на приложения с друзьями, а для выбора подходящего инструмента есть каталог готовых приложений, например, инструменты для поиска персонализированных подарков, анализа SEO показателей, рекомендации коктейлей и описания товаров. Еще один популярный инструмент - генератор постов для блога. Также вы можете использовать Toolbuilder для описания сюжета фильма с помощью эмодзи и иконок.
Safurai
Это бесплатный инструмент на основе искусственного интеллекта, который можно использовать как плагин для VS Code. Для того чтобы воспользоваться ее возможностями, достаточно выделить фрагмент кода: Safurai объяснит, как он работает, предложит советы по оптимизации и рефакторингу, напишет необходимые тесты и документацию. Будучи обучаемым на коде проекта, он запомнит все заданные вопросы.
Text2SQL
Text2SQL - данный искусственный интеллект создает запросы SQL, регулярные выражения, дизайны баз данных и формулы для Excel и Google Sheets. Присутствует бесплатный тариф, в то время как цены платной подписки варьируются от $2.49 до $4.99 в месяц.
Code Snippets AI
Приложение, использующее технологию GPT-4 для генерации кода. По вопросу о необходимости данного инструмента, разработчики отвечают, что это более экономичный вариант по сравнению с оригинальным ChatGPT Plus, подписка на который стоит $24 в месяц, в то время как подписка на Code Snippets AI обойдется в $10 в месяц.
CodiumAI
CodiumAI - программа для тестирования, использующая TestGPT-1 и GPT-3.5 & 4 для интеллектуального создания тестов и обработки кода, выявления ошибок и багов. В настоящее время этот инструмент работает с кодом Python, JavaScript и TypeScript. Благодаря подключению к VS Code и другим IDE от JetBrains, использование CodiumAI бесплатно.
Metabob
Metabob исправляет ошибки и выявляет уязвимости в коде, а также интегрируется с такими платформами, как VS Code, GitHub, BitBucket и GitLab. Эта программа берет под контроль все самые популярные языки программирования, включая Python, Javascript, Typescript, C++, С и Java, и предоставляет своевременные рекомендации по улучшению кода. B процессе работы Metabob автоматически производит рефакторинг кода разработчиков и искусственный разум.
Как устроены нейронные сети и как применять их в продуктовой аналитике
Разберёмся в прямом эфире: 14 июня в 19:00 (по Москве)
Вебинар проведёт Анатолий Карпов — автор тех самых бесплатных курсов на stepik, основатель школы karpovꓸcourses и по совместительству ведущий аналитик с опытом работы в Mail.Ru, VK и JetBrains.
Ждём вас на трансляции!
Регистрируйтесь, чтобы не пропустить
🗒 Регулярные выражения для задач NLP в Python. Часть1
Рассморим основные функции Python-модуля re.
Регулярные выражения - это набор символов, который определяет паттерн для поиска в тексте. Например, в задачах NLP можно использовать Python-библиотеку Yargy для поиска именованных сущностей. Но использование выражений может вызвать неоднозначность, так как выражения, содержащие искомый паттерн, также будут найдены.
В Python модуль re используется для работы с регулярными выражениями и содержит 4 основные функции: search, match, findall, finditer и sub.
Первые четыре функции имеют одинаковую сигнатуру и принимают на вход шаблон и выражение, а функция sub дополнительно требует строку замены.
re.search() – находит первое вхождение фрагмента в любом месте и возвращает объект match. Если в строке есть другие фрагменты, соответствующие запросу, re.search их проигнорирует.
import re
expr = 'i love Data Science'
pattern = 'love'
print(re.search(pattern, expr))
<re.Match object; span=(2, 6), match='love'>
Обратите внимание, что функция search находит только первый попавшийся шаблон, дальше она уже не смотрит:
expr = 'I love data science, i love @data_analysis_ml' print( re.search(pattern, expr))
<re.Match object; span=(2, 6), match='love'>
Нельзя забывать, что шаблон представляет собой последовательность символов, а не сами слова.
Например, как можно найти последовательность "love" в составном слове в Python, показано ниже.
>>> expr = 'So many lovers
>>> re.search('love', expr)
Как найти все вхождения при помощи findall и finditer.
В отличие от функции search, две другие функции findall и finditer найдут все вхождения. Разница между findall и finditer заключается в том, что первый возвращает список (list), а второй возвращает итератор (iterator), который мы обсудили ранее.
Возвращаясь к предыдущему примеру, регулярное выражение для обнаружения всех вхождений в Python будет иметь следующий вид:
expr = 'I love data science, I love @data_analysis_ml'
re.findall('love', expr)
['love', 'love']
re.finditer('love', expr)
<callable_iterator object at 0x7efd1caf6b60>
Проверяем начало строки с помощью функции match.
Функция match проверяет начало строки на соответствие шаблону.
Пример выше не начинается с "love", поэтому эта функция вернет значение None. С другой стороны, если выражение начинается с шаблона, функция match вернет объект Match. Рассмотрите следующие регулярные выражения в Python:
expr = 'i love Data Science'
re.match('Data', expr)
None
re.match('love', expr) is None
True
Исключаем шаблон из строки с sub
Ещё одной полезной функцией Python-модуля re является sub. Она необходима, когда один шаблон нужно заменить на другой и пригодится для подготовки текстов перед применением NLP-методов в Python, например, для избавления от всех цифр, знаков препинания и символов. К сигнатуре этой функции добавляется аргумент repl — на какую строку заменяем. Ниже регулярные выражения в Python это демонстрируют. Обратите внимание, что sub возвращает строку, поэтому их стоит переприсвоить.
expr = 'i love Data Science'
pattern = 'love'
repl = 'hate'
re.sub(pattern, repl, expr)
'i hate Data Science'
Также отметим, что функция заменяет все вхождения. Если требуется ограничить это число, то оно указывается в аргументе count.
re.sub(pattern, repl, expr, count=1)
▪шпаргалка по регулярным выражениям
@data_analysis_ml⏩ Методы ускорения кода часть 2 : Параллелизация
Большинство современных компьютеров имеют процессор с более чем одним ядром, т.е. с возможностью делать несколько вычислений одновременно. Более того, часто аналитики и DS работают на сервере (например, c JupyterHub), у которого число ядер может достигать сотен.
Изначально интерпретатор python — однопоточная программа с глобальным локом во время вычисления, а значит в ванильном “pandas” нельзя параллелить задачи. Однако, в стандартной библиотеке python есть несколько модулей, позволяющих работать с многопоточностью, и далее мы разберем их применение.
Первый модуль — multiprocessing. Он обходит глобальный лок, работая не через под-потоки, а через под-процессы. Основной его параметр — это кол-во процессов, на которые будет биться основной. Обычно его выбирают равным кол-ву ядер в процессоре, но я советую брать число на 1 меньше, оставляя одно ядро на накладные расходы и синхронизацию. Далее создается пул воркеров (процессов), на которые будут параллелиться вычисления. Есть несколько вариантов, как разбить по ним датафрейм, но обычно используется .array_split():
import pandas as pd
import multiprocessing as mp
def your_datarame_func(df):
...
n_cores = max(mp.cpu_count() - 1, 1)
p = mp.Pool(n_cores) # Data parallelism Object
def parallelize_dataframe(df, func, n_cores):
df_split = np.array_split(df, n_cores)
df = pd.concat( pool.map(func, df_split) )
pool.close() ; pool.join()
return df
df_results = parallelize_dataframe(df, func=your_datarame_func)
Более высокоуровневый интерфейс предоставляет другой пакет из стандартной библиотеки — concurrent.futures, однако возможностей у него меньше. Он предоставляет 2 аналогичных API для работы с процессами и тредами — ProcessPoolExecutor и ThreadPoolExecutor.
import psutil
import pandas as pd
import numpy as np
from concurrent.futures import ProcessPoolExecutor, as_completed
def your_datarame_func(df):
...
num_procs = max(psutil.cpu_count(logical=True) - 1, 1)
splitted_df = np.array_split(df, num_procs)
df_results = []
with ProcessPoolExecutor(max_workers=num_procs) as executor:
results = [executor.submit(your_datarame_func, df=df) for df in splitted_df]
for result in as_completed(results):
try:
df_results.append(result.result())
except Exception as ex:
print(str(ex))
pass
df_results = pd.concat(df_results)
В concurrent.futures можно получить pid порождаемых процессов (пример). Также, можно использовать сторонние пакеты для параллельных вычислений.
▪ Часть 1
@data_analysis_mlКак определить, какая версия сайта работает лучше? Что изменилось после рефакторинга бэкенда и удалось ли отделу логистики ускорить доставку?
Точные ответы на эти вопросы позволяют получить A/B-тесты. На симуляторе от karpovꓸcourses вы поработаете с нетривиальными кейсами и разберёте полный пайплайн тестирования на реальных задачах бизнеса — всё под руководством экспертов из X5 Retail Group и Blockchainꓸcom.
Вы поймёте, какие метрики нужно измерять, как получить качественный результат даже на небольшой выборке, а также разберёте частые ошибки.
▫️Если вы не хотите погружаться в программирование и сложную математическую статистику — вам подойдёт базовая версия программы. Все задачи вы будете решать в Google Sheets, а запускать эксперименты — на уже готовой инфраструктуре.
▫️А если вы уже знаете основы Python и математической статистики, и вам важно на практике разобраться во всех тонкостях A/B-тестов — приходите на продвинутую версию.
Новый поток стартует 12 июня, присоединяйтесь по ссылке.
➡️ Методы ускорения кода: Векторизация
Это один из методов, который необходимо знать при работе с pandas, а его игнорирование обычно приводит к проваленным собеседованиям и медленному коду.
Задача: необходимо применить некоторую функцию к каждой записи. Очевидный способ, который делают новички — цикл по строкам или конкретному столбцу. Однако это антипатерн в pandas, работающий неприлично медленно на больших датафреймах. Разберем другие способы с примерами.
Например, итерация по строкам с помощью метода .iterrows(). Это самый медленный способ, к тому же не сохраняет типы данных. Другие варианты — использовать .itertuples(), где на каждой итерации строка рассматривается как именованный tupple. Это во много раз быстрее, чем .iterrows(). Еще один аналог — .iteritems().
Любые итерации все равно на порядки медленнее векторизованного подхода, поэтому использовать их стоит только в редких случаях, например когда результат зависит от предыдущих строк.
Другой метод — использование функции .apply(). Она принимает на вход функцию и доп. параметры, и затем применяет ее к каждой строке. Это более предпочтительный способ, работающий в разы быстрее. Также, apply лаконичнее и удобнее, особенно если применять lambda-функции.
Однако, современные процессоры научились оптимизировать подобные задачи с помощью SIMD-инструкций, в которых операции производятся над вектором, а не одним значением (как это происходит когда мы итерируемся по строкам). Чтобы использовать эти инструкции, нужно явно вызвать их в пакете.
Поэтому pandas содержит собственные реализации простых операций (сумма, min/max и тд), выполняющиеся гораздо быстрее итерирования. Такие функции называют векторизированными. Прежде чем использовать apply или iter…, стоит поискать в документации соответствующие векторные функции.
Для строк и дат есть свои методы, например
df['col'].str.contains('pat') и df['col'].dt.days.
Ниже сравнение времени работы методов выше для операции добавления столбца-логарифма. Результаты ошеломляющие, векторизация быстрее циклов и iterrows в тысячу раз! Похожее сравнение можно прочитать тут.
import numpy as np
import pandas as pd
import math
df = pd.DataFrame(data={'values':range(1,100_000)})
temp=[]
# -------------------------------------------------
# 1.15 секунды
for idx in range(0, df.shape[0], 1):
temp.append(math.log(df['values'].iloc[idx]))
# 7.18 секунд
for i,row in df.iterrows():
temp.append(math.log(row['values']))
# 156 миллисекунд
for row in df.itertuples():
temp.append(math.log(row.values))
# 84.6 миллисекунды
temp = df['values'].apply(lambda x: math.log(x))
# 3.38 миллисекунды
temp = np.log(df['values'])
# -------------------------------------------------
df['new_values'] = temp
@data_analysis_mltoPandas тормозит на больших датасетах? Это типичная боль аналитика
А вот вам исчерпывающая инструкция, как устранить эту проблему. Выгрузка данных через консоль, обход ограничений Arrow, исправление ошибок настройки памяти — обо всем этом рассказывает Александр Ледовский — тимлид команды аналитики и DS. Он строит рекламные аукционы в Авито, так что про большие массивы данных знает как никто другой.
Так что если у вас все падает с ошибками, не мучайтесь: берите инструкцию — и вперед!
💫 SQLite для работы с данными
Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер.
Для затравки несколько известных фактов:
▪SQLite — самая распространенная СУБД в мире, включена во все популярные ОС.
▪Работает без сервера.
▪Для разработчиков — встраивается прямо в приложение.
▪Для всех остальных — удобная консоль (REPL) одним файлом (sqlite3.exe на Windows, sqlite3 в Linux / macOS).
📌 Читать
@data_analysis_ml
Первый в России ускоренный онлайн-бакалавриат «Фронтенд и мобильная разработка» — от Яндекс Практикума и университета ИТМО.
— Учёба 2,5 года вместо четырёх лет
— Диплом государственного образца по направлению «Прикладная информатика»
— Можно выбрать специализацию: фронтенд, iOS- или Android-разработка
— Удобно совмещать с работой: обучение онлайн, 20-25 часов в неделю
— Преподаватели — действующие разработчики
— Стажировка в крупных IT-компаниях
— Системное развитие хард-и софтскилов
Программы рассчитаны на людей со средним профессиональным или высшим образованием.
Обучение почти в два раза короче, потому что формат позволяет перезачесть часть общих предметов и оставить только профильные.
Поступайте, чтобы стать востребованным разработчиком и подготовиться к роли тимлида.
→ Оставить заявку
Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid: LjN8KCpNz
🐼 4 альтернативы Pandas: ускоренное выполнение анализа данных
Pandas — одна из самых популярных библиотек Python. Ее DataFrame интуитивно понятен и оснащен продвинутыми API для выполнения задач по работе с данными. Многие библиотеки Python были интегрированы с Pandas DataFrame, чтобы повысить скорость их принятия.
Однако библиотека Pandas не является эталоном в области обработки больших наборов данных. Она преимущественно используется для анализа данных на одной машине, а не на кластере машин. В этой статье будут представлены результаты оценки производительности более быстрых альтернатив: Polars, DuckDB, Vaex и Modin.
▪Читать дальше
@data_analysis_ml
Как статистика помогает аналитику: бесплатное занятие Нетологии
Знание статистики необходимо любому аналитику — статистические методы помогают в интерпретации цифр и защищают аналитика от искажений информации. Это позволяет ему корректно обобщать данные и предлагать бизнесу оптимальное решение той или иной задачи.
На бесплатном занятии «Статистика для будущих аналитиков: как принимать решения на основе данных» вы узнаете, в чём ценность статистики для бизнеса и как применять её инструменты для решения бизнес-задач. Также вы узнаете, какие навыки необходимы аналитику для успешного развития в сфере.
Зарегистрироваться → https://netolo.gy/bJJm
🖥 Тестирование инструментов для обработки данных на Python. Часть 1.
Это будет история о том, как мы придумали и приступили к реализации бенчмарка объективным, упорядоченным и унифицированным способом – через написание универсального инструмента.
В первой части публикации представим теоретическую часть задачи, предпосылки, а также первую попытку реализации универсального инструмента. Основные результаты сравнения опишем в следующей части.
В нашей работе часто приходится сталкиваться с задачами обработки больших данных. Традиционный метод обработки, который мы используем — библиотека Pandas. Она предоставляет приятные вещи (чтения форматов из коробки, фильтрации, агрегации, concat, join merge). Всё это позволяет абстрагироваться от технических трудностей, сразу приступая к самому алгоритмически интересному.
▪Читать дальше
@data_analysis_ml
Как статистика помогает аналитику: бесплатное занятие Нетологии
Знание статистики необходимо любому аналитику — статистические методы помогают в интерпретации цифр и защищают аналитика от искажений информации. Это позволяет ему корректно обобщать данные и предлагать бизнесу оптимальное решение той или иной задачи.
На бесплатном занятии «Статистика для будущих аналитиков: как принимать решения на основе данных» вы узнаете, в чём ценность статистики для бизнеса и как применять её инструменты для решения бизнес-задач. Также вы узнаете, какие навыки необходимы аналитику для успешного развития в сфере.
Зарегистрироваться → https://netolo.gy/bJJm
⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional
🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера.
⏰ Время прохождения теста ограничено 30 минут
👉 ПРОЙТИ ТЕСТ: https://otus.pw/gLXr/
Присоединяйтесь 15 июня в 18:00 мск к открытому уроку. На вебинаре «Content-based рекомендательные системы» вы:
— Узнаете общие принципы построения рекомендательных систем
— Познакомитесь с методами контентной фильтрации
— Построите свою первую рекомендательную систему для онлайн-магазина.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. 2RanynN5GZN
🔍 Data Validation
Подборка полезных инструментов для проверки данных в ваших проектах. Если вы еще не используете их в своих ds проектах, рекомендуем обратить на них внимание.
▪pydantic - Проверка данных с помощью подсказок типов Python.
▪jsonschema - Реализация спецификации JSON Schema для Python.
▪validators - удобная библиотека Проверки данных.
param - Param: Сделает ваш код Python более понятным и надежным.
▪voluptuous - Валидаторы - это простые вызываемые функции: С ними вам не нужно создавать нагромождение классов, просто импортируйет 1 функцию из этой замечательной библиотеки.
▪strictyaml - Безопасный парсер и валидатор YAML.
▪dirty-equals - dirty-equals - это библиотека python, которая (неправильно) использует метод eq, чтобы сделать ваш код python более декларативным и, следовательно, более легким для понимания и редактирования.
▪typical - Быстрая, простая и корректная проверка данных с использованием Python 3.
▪valideer - Легкая библиотека Python для проверки данных.
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
