fa
Feedback
Анализ данных (Data analysis)

Анализ данных (Data analysis)

رفتن به کانال در Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

نمایش بیشتر

📈 تحلیل کانال تلگرام Анализ данных (Data analysis)

کانال Анализ данных (Data analysis) (@data_analysis_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 50 256 مشترک است و جایگاه 2 657 را در دسته فناوری و برنامه‌ها و رتبه 12 484 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 50 256 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 25 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 38 و در ۲۴ ساعت گذشته برابر 0 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

  • وضعیت تأیید: تأیید نشده
  • نرخ تعامل (ER): میانگین تعامل مخاطب 8.85% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 6.52% واکنش نسبت به کل مشترکان کسب می‌کند.
  • دسترسی پست‌ها: هر پست به طور میانگین 4 447 بازدید دریافت می‌کند. در اولین روز معمولاً 3 278 بازدید جمع‌آوری می‌شود.
  • واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 28 است.
  • علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, контекст, openai, архитектура, deepseek تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 26 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

50 256
مشترکین
اطلاعاتی وجود ندارد24 ساعت
+377 روز
+3830 روز
آرشیو پست ها
Город засыпает, просыпаются рекрутеры и делают выбор: кто попадет в команду разработки внутренних продуктов. Мы в МТС любим и
Город засыпает, просыпаются рекрутеры и делают выбор: кто попадет в команду разработки внутренних продуктов. Мы в МТС любим играть в мафию и проводить One day offer. И подумали, почему бы не совместить эти две активности и заодно найти аналитиков разных профилей. Наша команда развивает сервисы в рамках экосистемы HR Tech. Например, разработка системы управления эффективностью или создание корпоративного портала для сотрудников. У нас амбициозные планы — стать первым цифровым HR с комплексным подходом к разработке и поддержке внутренних продуктов. Но для этого нам нужны настоящие профи. Готовы участвовать и проверить — вы Дон SQL или мирный аналитик? Кликайте по ссылке и начните игру. Да, нужно успеть до 19 июня

🖥 30 SQL-запросов, объяснённых через их эквиваленты Pandas В мире, где с 1974 года доминирует SQL, в 2008 году появился Pand
🖥 30 SQL-запросов, объяснённых через их эквиваленты Pandas В мире, где с 1974 года доминирует SQL, в 2008 году появился Pandas, предлагающий привлекательные функции, такие как встроенная визуализация и гибкая обработка данных. Он быстро стал популярным инструментом для исследования данных, затмив собой SQL. Но не обманывайте себя, SQL по-прежнему держит свои позиции. Это второй по востребованности и третий по скорости роста язык для Data science (см. здесь ). Таким образом, в то время как Pandas привлекает всеобщее внимание, SQL остаётся жизненно важным навыком для любого специалиста по данным. Давайте узнаем, как легко выучить SQL, если вы уже знаете Pandas. ▪ Читать @data_analysis_ml

В четверг 15 июня в 19:00 по мск. состоится BI-баттл между приверженцем проприетарного BI Евгением Скребановым и адептом open
В четверг 15 июня в 19:00 по мск. состоится BI-баттл между приверженцем проприетарного BI Евгением Скребановым и адептом open source Сергеем Громовым! Эксперты будут разбирать три кейса с практическими задачами. Участники баттла представят свои решения, выступив с принципиальной технологической позиции разработчика открытого решения или готового BI. Два непримиримых взгляда столкнутся в публичной дискуссии, чтобы выяснить, чей подход сегодня лучше закрывает потребности российского бизнеса. Чья позиция окажется сильнее? Не пропустите! Запишитесь на ивент прямо сейчас и задайте свой вопрос спикерам.

Python со скоростью света Задача: заполнить список из n целых чисел. def populate_python(size:int)->list: b = [] for i in range(size): b.append(i) return b Запуск функции с size = 10 000 000 занял в среднем 765 мс на моей машине. Ускорим этот процесс!Numpy import numpy as np def populate_numpy(size:int)->np.ndarray: b = np.empty((size),dtype=np.int64) for i in range(size): b[i] = i return b Запуск функции с тем же количеством элементов занял 964 мс. Numba from numba import njit, prange @njit def populate_numba(size:int)->np.ndarray: b = np.empty((size),dtype=np.int64) for i in prange(size): b[i] = i return b Как мы видим, функция почти такая же. Просто добавил декоратор и prange (функция диапазона в numba, которая работает параллельно). На этот раз время вычислений составило всего 16 мс! Почти в 50 раз быстрее, чем на голом Python. Это впечатляющий результат. ▪Julia Julia – еще один язык, который набирает обороты. Его цель – предложить почти такую же гибкость и понятный синтаксис, как у Python, но с высокой скоростью компиляции кода. function populate_array(size::Int)::AbstractVector{Int64} b = Vector{Int64}(undef,size) Threads.@threads for i=1:size b[i] = i end return b end В Julia нет проблем с GIL, поэтому потоки могут работать параллельно. Это заняло всего 12 мс. Mojo Mojo – это новый язык, находящийся в стадии активной разработки. from Pointer import DTypePointer from Random import rand, random_ui64 from DType import DType from Range import range from Functional import parallelize import SIMD struct Vect: var data: DTypePointer[DType.uint64] var rows: Int fn __init__(inout self, rows: Int): self.data = DTypePointer[DType.uint64].alloc(rows) self.rows = rows fn __del__(owned self): self.data.free() @always_inline fn len(self)->UInt64: return self.rows fn zero(inout self): memset_zero(self.data, self.rows) @always_inline fn __getitem__(self, x: Int) -> UInt64: return self.data.load(x) @always_inline fn __setitem__(self, x: Int, val: UInt64): return self.data.store( x, val) fn populate_mojo(b:Vect): @parameter fn process_row(i:Int): b[i] = i parallelize[process_row](b.rows) Приведенная выше функция отработала всего за 7 мс, в 110 раз быстрее, чем Python, и намного быстрее, чем Julia. Это Python со скоростью света! 📌 Почитать про Mojo @data_analysis_ml

Газпромбанк приглашает тебя на новую лекцию Digital Лектория — на ней ты сможешь узнать больше о карьере в Data Science и зад
Газпромбанк приглашает тебя на новую лекцию Digital Лектория — на ней ты сможешь узнать больше о карьере в Data Science и задать интересующие вопросы IT-эксперту. Тема: «Data Science: быть или не быть» Когда: 21 июня, 18:00 (по МСК) Ирина Скорынина, ведущий аналитик-исследователь, расскажет, кому будет интересно в IT и почему не всем стоит идти в это направление, как развиваться в Data Science с непрофильным образованием, какими навыками и компетенциями должен обладать Data Scientist и как выглядит roadmap специалиста в этой сфере. Регистрируйся и приходи на лекцию, чтобы узнать больше о направлении Data Science: https://www.gpbspace.ru/digital-lectory-hall-form Реклама Банк ГПБ (АО), ИНН: 7744001497 erid:LjN8Jste3

🤖12 сервисов искусственного интеллекта, для написания кода. Mutable AI Альтернатива Copilot, которая предлагает бесплатную версию со сокращенным функционалом, а стоимость ее платной подписки варьируется от $10 до $25 в месяц. Эта альтернатива также предлагает следующие возможности: автодополнение кода, управление с помощью промптов, рефакторинг кода и автоматическую документацию. SpellBox Это AI-помощник для программистов, который можно установить как настольное приложение (для Windows и macOS), так и как плагин для VS Code. Он способен генерировать код в ответ на запросы, объяснять принципы работы программы и сохранять фрагменты кода в закладках. StarCoder Это AI-ассистент, который может создавать код на 80 языках, обученный на данных из GitHub. Эта модель похожа на GitHub Copilot, но с открытым исходным кодом и, по мнению разработчиков, она лучше других моделей. Blackbox AI BlackboxAI поддерживает более 20 языков программирования, включая Python, Java, C, C++, C#, JavaScript, SQL, PHP, Go, TypeScript, Kotlin, MATLAB, R, Swift, Rust, Ruby, Dart и Scala. Ghostwriter Chat Разработчики Replit создали не имеющую себе равных онлайн-IDE, которая основана на искусственном интеллекте. Эта инновационная система способна написать код в соответствии с контекстом проекта и не только дополняет код, написанный программистом, но и помогает отслеживать ошибки. CodeSquire.ai Это ИИ-ассистент, который помогает дата-сайентистам, инженерам и аналитикам. Он способен генерировать код в ответ на вопросы, создавать функции различной сложности, преобразовывать вводимые команды в SQL-запросы и детально объяснять, как работает каждый блок кода. Toolbuilder Toolbuilder позволяет быстро создавать ИИ-приложения и чат-боты, которые хранятся и запускаются на сайте. Вы можете поделиться ссылками на приложения с друзьями, а для выбора подходящего инструмента есть каталог готовых приложений, например, инструменты для поиска персонализированных подарков, анализа SEO показателей, рекомендации коктейлей и описания товаров. Еще один популярный инструмент - генератор постов для блога. Также вы можете использовать Toolbuilder для описания сюжета фильма с помощью эмодзи и иконок. Safurai Это бесплатный инструмент на основе искусственного интеллекта, который можно использовать как плагин для VS Code. Для того чтобы воспользоваться ее возможностями, достаточно выделить фрагмент кода: Safurai объяснит, как он работает, предложит советы по оптимизации и рефакторингу, напишет необходимые тесты и документацию. Будучи обучаемым на коде проекта, он запомнит все заданные вопросы. Text2SQL Text2SQL - данный искусственный интеллект создает запросы SQL, регулярные выражения, дизайны баз данных и формулы для Excel и Google Sheets. Присутствует бесплатный тариф, в то время как цены платной подписки варьируются от $2.49 до $4.99 в месяц. Code Snippets AI Приложение, использующее технологию GPT-4 для генерации кода. По вопросу о необходимости данного инструмента, разработчики отвечают, что это более экономичный вариант по сравнению с оригинальным ChatGPT Plus, подписка на который стоит $24 в месяц, в то время как подписка на Code Snippets AI обойдется в $10 в месяц. CodiumAI CodiumAI - программа для тестирования, использующая TestGPT-1 и GPT-3.5 & 4 для интеллектуального создания тестов и обработки кода, выявления ошибок и багов. В настоящее время этот инструмент работает с кодом Python, JavaScript и TypeScript. Благодаря подключению к VS Code и другим IDE от JetBrains, использование CodiumAI бесплатно. Metabob Metabob исправляет ошибки и выявляет уязвимости в коде, а также интегрируется с такими платформами, как VS Code, GitHub, BitBucket и GitLab. Эта программа берет под контроль все самые популярные языки программирования, включая Python, Javascript, Typescript, C++, С и Java, и предоставляет своевременные рекомендации по улучшению кода. B процессе работы Metabob автоматически производит рефакторинг кода разработчиков и искусственный разум.

Как устроены нейронные сети и как применять их в продуктовой аналитике Разберёмся в прямом эфире: 14 июня в 19:00 (по Москве)
Как устроены нейронные сети и как применять их в продуктовой аналитике Разберёмся в прямом эфире: 14 июня в 19:00 (по Москве) Вебинар проведёт Анатолий Карпов — автор тех самых бесплатных курсов на stepik, основатель школы karpovꓸcourses и по совместительству ведущий аналитик с опытом работы в Mail.Ru, VK и JetBrains. Ждём вас на трансляции! Регистрируйтесь, чтобы не пропустить

🗒 Регулярные выражения для задач NLP в Python. Часть1 Рассморим основные функции Python-модуля re. Регулярные выражения - это набор символов, который определяет паттерн для поиска в тексте. Например, в задачах NLP можно использовать Python-библиотеку Yargy для поиска именованных сущностей. Но использование выражений может вызвать неоднозначность, так как выражения, содержащие искомый паттерн, также будут найдены. В Python модуль re используется для работы с регулярными выражениями и содержит 4 основные функции: search, match, findall, finditer и sub. Первые четыре функции имеют одинаковую сигнатуру и принимают на вход шаблон и выражение, а функция sub дополнительно требует строку замены. re.search() – находит первое вхождение фрагмента в любом месте и возвращает объект match. Если в строке есть другие фрагменты, соответствующие запросу, re.search их проигнорирует. import re expr = 'i love Data Science' pattern = 'love' print(re.search(pattern, expr)) <re.Match object; span=(2, 6), match='love'> Обратите внимание, что функция search находит только первый попавшийся шаблон, дальше она уже не смотрит: expr = 'I love data science, i love @data_analysis_ml' print( re.search(pattern, expr)) <re.Match object; span=(2, 6), match='love'> Нельзя забывать, что шаблон представляет собой последовательность символов, а не сами слова. Например, как можно найти последовательность "love" в составном слове в Python, показано ниже. >>> expr = 'So many lovers >>> re.search('love', expr) Как найти все вхождения при помощи findall и finditer. В отличие от функции search, две другие функции findall и finditer найдут все вхождения. Разница между findall и finditer заключается в том, что первый возвращает список (list), а второй возвращает итератор (iterator), который мы обсудили ранее. Возвращаясь к предыдущему примеру, регулярное выражение для обнаружения всех вхождений в Python будет иметь следующий вид: expr = 'I love data science, I love @data_analysis_ml' re.findall('love', expr) ['love', 'love'] re.finditer('love', expr) <callable_iterator object at 0x7efd1caf6b60> Проверяем начало строки с помощью функции match. Функция match проверяет начало строки на соответствие шаблону. Пример выше не начинается с "love", поэтому эта функция вернет значение None. С другой стороны, если выражение начинается с шаблона, функция match вернет объект Match. Рассмотрите следующие регулярные выражения в Python: expr = 'i love Data Science' re.match('Data', expr) None re.match('love', expr) is None True Исключаем шаблон из строки с sub Ещё одной полезной функцией Python-модуля re является sub. Она необходима, когда один шаблон нужно заменить на другой и пригодится для подготовки текстов перед применением NLP-методов в Python, например, для избавления от всех цифр, знаков препинания и символов. К сигнатуре этой функции добавляется аргумент repl — на какую строку заменяем. Ниже регулярные выражения в Python это демонстрируют. Обратите внимание, что sub возвращает строку, поэтому их стоит переприсвоить. expr = 'i love Data Science' pattern = 'love' repl = 'hate' re.sub(pattern, repl, expr) 'i hate Data Science' Также отметим, что функция заменяет все вхождения. Если требуется ограничить это число, то оно указывается в аргументе count. re.sub(pattern, repl, expr, count=1)шпаргалка по регулярным выражениям @data_analysis_ml

Методы ускорения кода  часть 2 : Параллелизация Большинство современных компьютеров имеют процессор с более чем одним ядром, т.е. с возможностью делать несколько вычислений одновременно. Более того, часто аналитики и DS работают на сервере (например, c JupyterHub), у которого число ядер может достигать сотен. Изначально интерпретатор python — однопоточная программа с глобальным локом во время вычисления, а значит в ванильном “pandas” нельзя параллелить задачи. Однако, в стандартной библиотеке python есть несколько модулей, позволяющих работать с многопоточностью, и далее мы разберем их применение. Первый модуль — multiprocessing. Он обходит глобальный лок, работая не через под-потоки, а через под-процессы. Основной его параметр — это кол-во процессов, на которые будет биться основной. Обычно его выбирают равным кол-ву ядер в процессоре, но я советую брать число на 1 меньше, оставляя одно ядро на накладные расходы и синхронизацию. Далее создается пул воркеров (процессов), на которые будут параллелиться вычисления. Есть несколько вариантов, как разбить по ним датафрейм, но обычно используется .array_split(): import pandas as pd import multiprocessing as mp def your_datarame_func(df): ... n_cores = max(mp.cpu_count() - 1, 1) p = mp.Pool(n_cores) # Data parallelism Object def parallelize_dataframe(df, func, n_cores): df_split = np.array_split(df, n_cores) df = pd.concat( pool.map(func, df_split) ) pool.close() ; pool.join() return df df_results = parallelize_dataframe(df, func=your_datarame_func) Более высокоуровневый интерфейс предоставляет другой пакет из стандартной библиотеки — concurrent.futures, однако возможностей у него меньше. Он предоставляет 2 аналогичных API для работы с процессами и тредами — ProcessPoolExecutor и ThreadPoolExecutor. import psutil import pandas as pd import numpy as np from concurrent.futures import ProcessPoolExecutor, as_completed def your_datarame_func(df): ... num_procs = max(psutil.cpu_count(logical=True) - 1, 1) splitted_df = np.array_split(df, num_procs) df_results = [] with ProcessPoolExecutor(max_workers=num_procs) as executor: results = [executor.submit(your_datarame_func, df=df) for df in splitted_df] for result in as_completed(results): try: df_results.append(result.result()) except Exception as ex: print(str(ex)) pass df_results = pd.concat(df_results) В concurrent.futures можно получить pid порождаемых процессов (пример). Также, можно использовать сторонние пакеты для параллельных вычислений. ▪ Часть 1 @data_analysis_ml

Как определить, какая версия сайта работает лучше? Что изменилось после рефакторинга бэкенда и удалось ли отделу логистики ус
Как определить, какая версия сайта работает лучше? Что изменилось после рефакторинга бэкенда и удалось ли отделу логистики ускорить доставку? Точные ответы на эти вопросы позволяют получить A/B-тесты. На симуляторе от karpovꓸcourses вы поработаете с нетривиальными кейсами и разберёте полный пайплайн тестирования на реальных задачах бизнеса — всё под руководством экспертов из X5 Retail Group и Blockchainꓸcom. Вы поймёте, какие метрики нужно измерять, как получить качественный результат даже на небольшой выборке, а также разберёте частые ошибки. ▫️Если вы не хотите погружаться в программирование и сложную математическую статистику — вам подойдёт базовая версия программы. Все задачи вы будете решать в Google Sheets, а запускать эксперименты — на уже готовой инфраструктуре. ▫️А если вы уже знаете основы Python и математической статистики, и вам важно на практике разобраться во всех тонкостях A/B-тестов — приходите на продвинутую версию. Новый поток стартует 12 июня, присоединяйтесь по ссылке.

➡️ Методы ускорения кода: Векторизация Это один из методов, который необходимо знать при работе с pandas, а его игнорирование обычно приводит к проваленным собеседованиям и медленному коду. Задача: необходимо применить некоторую функцию к каждой записи. Очевидный способ, который делают новички — цикл по строкам или конкретному столбцу. Однако это антипатерн в pandas, работающий неприлично медленно на больших датафреймах. Разберем другие способы с примерами. Например, итерация по строкам с помощью метода .iterrows(). Это самый медленный способ, к тому же не сохраняет типы данных. Другие варианты — использовать .itertuples(), где на каждой итерации строка рассматривается как именованный tupple. Это во много раз быстрее, чем .iterrows(). Еще один аналог — .iteritems(). Любые итерации все равно на порядки медленнее векторизованного подхода, поэтому использовать их стоит только в редких случаях, например когда результат зависит от предыдущих строк. Другой метод — использование функции .apply(). Она принимает на вход функцию и доп. параметры, и затем применяет ее к каждой строке. Это более предпочтительный способ, работающий в разы быстрее. Также, apply лаконичнее и удобнее, особенно если применять lambda-функции. Однако, современные процессоры научились оптимизировать подобные задачи с помощью SIMD-инструкций, в которых операции производятся над вектором, а не одним значением (как это происходит когда мы итерируемся по строкам). Чтобы использовать эти инструкции, нужно явно вызвать их в пакете. Поэтому pandas содержит собственные реализации простых операций (сумма, min/max и тд), выполняющиеся гораздо быстрее итерирования. Такие функции называют векторизированными. Прежде чем использовать apply или iter…, стоит поискать в документации соответствующие векторные функции. Для строк и дат есть свои методы, например df['col'].str.contains('pat') и df['col'].dt.days. Ниже сравнение времени работы методов выше для операции добавления столбца-логарифма. Результаты ошеломляющие, векторизация быстрее циклов и iterrows в тысячу раз! Похожее сравнение можно прочитать тут. import numpy as np import pandas as pd import math df = pd.DataFrame(data={'values':range(1,100_000)}) temp=[] # ------------------------------------------------- # 1.15 секунды for idx in range(0, df.shape[0], 1): temp.append(math.log(df['values'].iloc[idx])) # 7.18 секунд for i,row in df.iterrows(): temp.append(math.log(row['values'])) # 156 миллисекунд for row in df.itertuples(): temp.append(math.log(row.values)) # 84.6 миллисекунды temp = df['values'].apply(lambda x: math.log(x)) # 3.38 миллисекунды temp = np.log(df['values']) # ------------------------------------------------- df['new_values'] = temp @data_analysis_ml

toPandas тормозит на больших датасетах? Это типичная боль аналитика А вот вам исчерпывающая инструкция, как устранить эту про
toPandas тормозит на больших датасетах? Это типичная боль аналитика А вот вам исчерпывающая инструкция, как устранить эту проблему. Выгрузка данных через консоль, обход ограничений Arrow, исправление ошибок настройки памяти — обо всем этом рассказывает Александр Ледовский — тимлид команды аналитики и DS. Он строит рекламные аукционы в Авито, так что про большие массивы данных знает как никто другой. Так что если у вас все падает с ошибками, не мучайтесь: берите инструкцию — и вперед!

💫 SQLite для работы с данными Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик
💫 SQLite для работы с данными Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер. Для затравки несколько известных фактов: ▪SQLite — самая распространенная СУБД в мире, включена во все популярные ОС. ▪Работает без сервера. ▪Для разработчиков — встраивается прямо в приложение. ▪Для всех остальных — удобная консоль (REPL) одним файлом (sqlite3.exe на Windows, sqlite3 в Linux / macOS). 📌 Читать @data_analysis_ml

Первый в России ускоренный онлайн-бакалавриат «Фронтенд и мобильная разработка» — от Яндекс Практикума и университета ИТМО. —
Первый в России ускоренный онлайн-бакалавриат «Фронтенд и мобильная разработка» — от Яндекс Практикума и университета ИТМО. — Учёба 2,5 года вместо четырёх лет — Диплом государственного образца по направлению «Прикладная информатика» — Можно выбрать специализацию: фронтенд, iOS- или Android-разработка — Удобно совмещать с работой: обучение онлайн, 20-25 часов в неделю — Преподаватели — действующие разработчики — Стажировка в крупных IT-компаниях — Системное развитие хард-и софтскилов Программы рассчитаны на людей со средним профессиональным или высшим образованием. Обучение почти в два раза короче, потому что формат позволяет перезачесть часть общих предметов и оставить только профильные. Поступайте, чтобы стать востребованным разработчиком и подготовиться к роли тимлида. → Оставить заявку Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid: LjN8KCpNz

🐼 4 альтернативы Pandas: ускоренное выполнение анализа данных Pandas — одна из самых популярных библиотек Python. Ее DataFra
🐼 4 альтернативы Pandas: ускоренное выполнение анализа данных Pandas — одна из самых популярных библиотек Python. Ее DataFrame интуитивно понятен и оснащен продвинутыми API для выполнения задач по работе с данными. Многие библиотеки Python были интегрированы с Pandas DataFrame, чтобы повысить скорость их принятия. Однако библиотека Pandas не является эталоном в области обработки больших наборов данных. Она преимущественно используется для анализа данных на одной машине, а не на кластере машин. В этой статье будут представлены результаты оценки производительности более быстрых альтернатив: Polars, DuckDB, Vaex и Modin.Читать дальше @data_analysis_ml

Как статистика помогает аналитику: бесплатное занятие Нетологии Знание статистики необходимо любому аналитику — статистически
Как статистика помогает аналитику: бесплатное занятие Нетологии Знание статистики необходимо любому аналитику — статистические методы помогают в интерпретации цифр и защищают аналитика от искажений информации. Это позволяет ему корректно обобщать данные и предлагать бизнесу оптимальное решение той или иной задачи. На бесплатном занятии «Статистика для будущих аналитиков: как принимать решения на основе данных» вы узнаете, в чём ценность статистики для бизнеса и как применять её инструменты для решения бизнес-задач. Также вы узнаете, какие навыки необходимы аналитику для успешного развития в сфере. Зарегистрироваться → https://netolo.gy/bJJm

🖥 Тестирование инструментов для обработки данных на Python. Часть 1. Это будет история о том, как мы придумали и приступили
🖥 Тестирование инструментов для обработки данных на Python. Часть 1. Это будет история о том, как мы придумали и приступили к реализации бенчмарка объективным, упорядоченным и унифицированным способом – через написание универсального инструмента. В первой части публикации представим теоретическую часть задачи, предпосылки, а также первую попытку реализации универсального инструмента. Основные результаты сравнения опишем в следующей части. В нашей работе часто приходится сталкиваться с задачами обработки больших данных. Традиционный метод обработки, который мы используем — библиотека Pandas. Она предоставляет приятные вещи (чтения форматов из коробки, фильтрации, агрегации, concat, join merge). Всё это позволяет абстрагироваться от технических трудностей, сразу приступая к самому алгоритмически интересному. ▪Читать дальше @data_analysis_ml

Как статистика помогает аналитику: бесплатное занятие Нетологии Знание статистики необходимо любому аналитику — статистически
Как статистика помогает аналитику: бесплатное занятие Нетологии Знание статистики необходимо любому аналитику — статистические методы помогают в интерпретации цифр и защищают аналитика от искажений информации. Это позволяет ему корректно обобщать данные и предлагать бизнесу оптимальное решение той или иной задачи. На бесплатном занятии «Статистика для будущих аналитиков: как принимать решения на основе данных» вы узнаете, в чём ценность статистики для бизнеса и как применять её инструменты для решения бизнес-задач. Также вы узнаете, какие навыки необходимы аналитику для успешного развития в сфере. Зарегистрироваться → https://netolo.gy/bJJm

⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional 🔓 Ответьте на 10 вопросов и проверьте, наскольк
⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional 🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера. ⏰ Время прохождения теста ограничено 30 минут 👉 ПРОЙТИ ТЕСТ: https://otus.pw/gLXr/ Присоединяйтесь 15 июня в 18:00 мск к открытому уроку. На вебинаре «Content-based рекомендательные системы» вы: — Узнаете общие принципы построения рекомендательных систем — Познакомитесь с методами контентной фильтрации — Построите свою первую рекомендательную систему для онлайн-магазина. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. 2RanynN5GZN

🔍 Data Validation Подборка полезных инструментов для проверки данных в ваших проектах. Если вы еще не используете их в своих
🔍 Data Validation Подборка полезных инструментов для проверки данных в ваших проектах. Если вы еще не используете их в своих ds проектах, рекомендуем обратить на них внимание. pydantic - Проверка данных с помощью подсказок типов Python. ▪jsonschema - Реализация спецификации JSON Schema для Python. ▪validators - удобная библиотека Проверки данных. param - Param: Сделает ваш код Python более понятным и надежным. ▪voluptuous - Валидаторы - это простые вызываемые функции: С ними вам не нужно создавать нагромождение классов, просто импортируйет 1 функцию из этой замечательной библиотеки. ▪strictyaml - Безопасный парсер и валидатор YAML. ▪dirty-equals - dirty-equals - это библиотека python, которая (неправильно) использует метод eq, чтобы сделать ваш код python более декларативным и, следовательно, более легким для понимания и редактирования. ▪typical - Быстрая, простая и корректная проверка данных с использованием Python 3. ▪valideer - Легкая библиотека Python для проверки данных. @data_analysis_ml