Анализ данных (Data analysis)

رفتن به کانال در Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

نمایش بیشتر

شبکه:Machinelearning روسيا12 428 فناوری و برنامه‌ها2 659...

📈 تحلیل کانال تلگرام Анализ данных (Data analysis)

کانال Анализ данных (Data analysis) (@data_analysis_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 50 263 مشترک است و جایگاه 2 659 را در دسته فناوری و برنامه‌ها و رتبه 12 428 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 50 263 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 28 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 42 و در ۲۴ ساعت گذشته برابر 3 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 10.26% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 6.15% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 5 157 بازدید دریافت می‌کند. در اولین روز معمولاً 3 091 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 29 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, контекст, openai, архитектура, deepseek تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 29 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

50 263

مشترکین

+324 ساعت

+87 روز

+4230 روز

5 157

نمایش های پست

~ 3 09124 ساعت

~ 3 47148 ساعت

10.26%

نرخ مشارکت

~ 5

پست های در روز

Ads index

beta

آرشیو پست ها

50 263

Карл Андерсон / Аналитическая культура Это практическое пошаговое руководство по внедрению в вашей организации управления на основе данных. Карл Андерсон, директор по аналитике в компании Warby Parker, провел интервью с ведущими аналитиками и учеными и собрал кейсы, которые и легли в основу данной книги. Вы узнаете, какие процессы следует ввести на всех уровнях и как именно это сделать, с какими трудностями можно столкнуться на этом пути и как их преодолеть. Автор рассказывает об аналитической цепочке ценностей, которая поможет принимать правильные решения и достигать лучших бизнес-результатов. Книга будет интересна CEO и владельцам бизнеса, менеджерам, аналитикам. ➡️ Книга @data_analysis_ml

50 263

✒️ Валидация моделей машинного обучения и анализа данных. Cегодня мы разберем валидацию моделей. Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок. В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы: - на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза; - какие метрики обычно применяются при валидации и с какой целью? - почему важно использовать не только количественные, но и качественные метрики? Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения. ➡️ Читать дальше @data_analysis_ml

50 263

⭐️ Как работает коллаборативная фильтрация? Коллаборативная фильтрация – метод, используемый в рекомендательных системах, для прогнозирования неизвестных предпочтений одного пользователя по известным предпочтениям других пользователей. Наиболее часто применяется для повышения продаж, конверсии, эффективности публикации информационных материалов и других метрик в электронной коммерции. Метод основан на предположении о том, что пользователи, которые одинаково оценивали какие-либо товары (услуги) в прошлом, склонны давать похожие оценки другим товарам в будущем. Исходя из этого допущения, рекомендательная система будет предлагать те товары, которыми интересовалась аудитория, а конкретный пользователь еще нет. В этом и будет проявляться коллаборация – прогнозы составляются индивидуально для каждого, хотя используемая для них информация собрана от многих участников. На задачу рекомендательной системы можно смотреть как на заполнение пропусков в матрице оценок товаров пользователями. Для этого применяют два основных подхода, основанные на сходстве пользователей (user-based collaborative filtering) и похожести предлагаемых продуктов (item-based collaborative filtering). В общем виде алгоритм состоит из следующих шагов: Найти, насколько другие пользователи (продукты) похожи на пользователя (продукт), для которого необходимо выдать рекомендацию. По оценкам других пользователей (продуктов) предсказать, какую оценку даст исследуемый пользователь определенному продукту, учитывая с большим весом тех пользователей (продукты), которые больше похожи на данный. В качестве меры похожести часто используют косинусную меру, коэффициент корреляции Пирсона, евклидово расстояние, коэффициент Танимото и манхэттенское расстояние. Разработчики коллаборативной фильтрации применяют различные решения для учета явности и неявности оценок и предпочтений пользователей. Примером явной оценки является количество звезд, поставленных зрителем после просмотра фильма в онлайн-кинотеатре Okko, или нажатие кнопки “дизлайк” у статьи Яндекс Дзен. В наше динамичное время, как правило, объем неявных оценок превышает явную обратную связь, поэтому высокий потенциал для повышения качества рекомендаций несет именно неявный рейтинг, когда есть все основания полагать, что пользователь воспользовался услугой, но не захотел сообщить своё мнение о ней. В этом случае рекомендательная система может попытаться спрогнозировать оценку по другим метрикам, например времени чтения статьи или просмотра видео. Недосмотренный фильм, как и статья, которая удержала на себе внимание не больше 5 секунд, скорее всего не смогли понравиться. Важно понимать, что результативность коллаборативной фильтрации может быть низкой, когда рекомендательная система еще не накопила достаточного набора данных о новом пользователе или товаре. Эта ситуация называется проблемой холодного старта. Она может проявляться так же для непопулярных товаров и неактивных пользователей. ➡️ Коллаборативная фильтрация и ее реализация @data_analysis_ml

50 263

Какие учебники по математическому анализу, линейной алгебре и теории вероятностей лучше подходят для изучения анализа данных? К сожалению, анализ данных не устроен как стройная теория - это лоскутное одеяло методов, которые опираются на определенные идеи, беря, иногда, для решения одной задачи, половину курса теории оптимизации. Более того, существует некоторое количество абсолютно необходимых практических навыков для работы в этой области, которые не будут подвязаны к существующим учебникам, поэтому существенную часть, вероятно, придется изучать по документации пакетов. Для старта: 1 Начните изучение с практических навыков описательной статистики (может взять учебник с названием "статистика" (не математическая статистика), взять датасет на kaggle и начать баловаться с pandas. Это даст вам существенное понимание про элементарную предобработку. 2 Возьмите книжку по практике математической статистики Гмурмана и попытайтесь средствами того же pandas по-постраивать доверительные интервалы, да по-проверять гипотезы. 3 После освоения pandas - вам стоит перейти к библиотеке scikit-learn, почитать ее документацию, поупражняться на конкретных датасетах с кластеризациями, предобработкой, тренировкой моделей и визуализацией. Для визуализации следует ознакомиться с matplotlib и bokeh. 4 Дальше желательно изучить SQL. На фоне владения pandas он окажется простым 5 Потом, почти наверняка наступит период овладения torch и keras. Вот дальше можно пойти в разные стороны: • копать в сторону теории без библиотек (типа HMM) и в совершенстве овладеть numpy и stats; • копать в сторону больших данных и изучать Hadoop и Spark; • копать в сторону компьютерного зрения и изучать opencv; • узучать биоинформатику и изучать взаимодействия с GenBank и другими биоинформатическими сервисами • уйти в изучение по информационному поиску, изучать какой-нибудь EllasticSearch, NLTK, pymorphy, request и регулярные выражения. Ну и там на самом деле это просто верхушка айсберга. Поймите тут такую вещь, что понимание - это круто, конечно, но есть отдельно огромная работа уже просто освоить готовые технологии. Если Вы параллельно сможете еще и теорию осваивать на тему, то советую 1 по анализу трехтомник У. Рудина, 2 по линейной алгебре "Задачи и теоремы линейной алгебры" Прасолова, 3 а по теории вероятностей начать с "Гмурмана" чисто с практических соображений, 4 потом перейти на "Боровкова". 5 Есть еще хорошая книга "Коралов-Синай", но у нее безумно маленький тираж на русском языке. Еще, разумеется, вам абсолютно необходимо будет знать что-то про конечномерную оптимизацию - это вообще лучше всего по методичкам на сайтах различных вузов посмотреть. @data_analysis_ml

50 263

Хотите понимать основы синтаксиса С++ и разрабатывать многопоточные приложения? Научитесь этому на бесплатном онлайн-интенсиве с 8 по 10 сентября в 21:00 по московскому времени! 💻 Подробности: ✋ https://clc.to/ohs6SQ ✔️ Познакомитесь с основными понятиями разработки на С++, принципами сетевых соединений и организацией многопоточного приложения. ✔️ Установите среду разработки и примените стандартную библиотеку. ✔️ Создадите сервер для чатов. 📢 Спикер онлайн-интенсива — программист с опытом 17 лет, ведущий методист курсов по программированию в Skillbox Михаил Овчинников. Он в прямом эфире разберёт работы и ответит на вопросы. 🎁 После регистрации пришлём вам чек-лист полезных материалов для разработчика на C++. В конце интенсива подарим электронную книгу Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ. Подключайтесь к прямым эфирам и используйте возможность получить сертификат на 10 000 рублей на любой курс Skillbox.

50 263

📈 Различные варианты визуализации данных с примерами кода. Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data analysis (EDA)), чтобы выявить закономерности, которые обнаруживают данные. Визуализация данных помогает представить большие и сложные наборы данных в простом и наглядном виде. На этапе окончания проекта важно суметь отчитаться о его результатах так, чтобы даже непрофессионалам, не обладающим техническими знаниями, всё стало ясно и понятно. Matplotlib — это популярная библиотека для визуализации данных, написанная на языке Python. Хоть пользоваться ей очень просто, настройка данных, параметров, графиков и отрисовки для каждого нового проекта — занятие нудное и утомительное. В этом посте мы разберем 6 способов визуализации данных и напишем быстрые и простые функции для их реализации с помощью питоновской библиотеки Matplotlib. А пока взгляните на прекрасный график, который поможет вам выбрать правильный тип визуализации данных! Алгоритм выбора техники визуализации в зависимости от задачи ➡️ Читать дальше @data_analysis_ml

50 263

💻 Как быстро и легко создавать прототипы датасайенс-проектов Проект в области науки о данных можно успешно реализовать при наличии минимального стека технологий. Более того, чем меньше стек, тем лучше проект! Jupyter Notebook — неотъемлемая часть повседневной работы специалистов по данным. Большинство проектов в этой области также нуждаются в интерактивном дашборде. А что если превратить ноутбуки в многофункциональные дашборды? Это возможно! Как правило, для разработки дашборда требуются знания HTML, JavaScript и CSS. Такие инструменты, как Streamlit и Dash, позволяют обойтись без этих знаний. Тем не менее преобразовывать ноутбуки в функциональные приложения все равно нужно вручную, для чего потребуется копировать множество фрагментов. Однако с помощью Mercury можно мгновенно превратить Jupyter Notebook в интерактивный дашборд, онлайн-слайд-шоу или веб-сервис. ➡️ Читать дальше @data_analysis_ml

50 263

🌅 GAN-модели для генерации набора данных из изображений Для работы с данными в специфических областях очень остро стоит проблема нехватки данных для обучения. Давайте рассмотрим один из способов генерировать изображения. ➡️ Читать дальше ⚙️ Полный код @data_analysis_ml

50 263

🎲 Байесовская статистика для специалистов по данным c примерами на Python. Возможно, вы помните теорему Байеса как громоздкое уравнение из курса статистики, которое вам нужно было заучить. Но за ним кроется нечто большее. Эта теорема лежит в основе альтернативного взгляда на статистику и вероятность, противостоящего мнению сторонников частотного подхода (или фреквентистов), и доброй половины величайших (или нуднейших) священных войн в академической среде. ➡️ Читать дальше @data_analysis_ml

50 263

Хотите выйти на качественно новый уровень в Data Science? Научитесь проектировать хранилища данных! Ведущие дата-инженеры VK, Яндекс Go, Sbermarket и Ozon поделятся своим опытом и расскажут о лучших практиках разработки корпоративных Data Warehouse. На курсе «Инженер данных» за 5 месяцев подробной теории и интенсивной практики вы научитесь: ● Работать с реляционными и MPP базами данных ● Автоматизировать ETL-пайплайны ● Проектировать традиционные и облачные хранилища ● Применять ML-модели на больших данных ● Строить дашборды для мониторинга DWH платформы Вас ждут интересные проекты и настоящая инфраструктура: Greenplum, Hadoop, Kubernetes, Spark, Hive, Kafka, Airflow, Tableau. К концу обучения вы получите комплексное понимание инженерных процессов и широкий набор прикладных навыков, с помощью которого сможете самостоятельно организовать сбор, хранение и обработку данных в любой компании. Переходите по ссылке и записывайтесь на курс «Инженер данных» до 5 сентября. Также на сайте доступна бесплатная демоверсия!

50 263

📖 От 0 до 300 SQL-запросов в месяц: практические советы для аналитика данных. До текущей работы бизнес-аналитиком, на которую я устроилась в августе 2021 года, я написала всего несколько SQL-запросов. Меня наняли не из-за знания SQL (Structured Query Language, язык структурированных запросов). Однако в ноябре в нашей компании внедрялась новая база данных. Я, как единственный человек в команде, который когда-либо писал на языке программирования, стала самым подходящим кандидатом в специалисты по извлечению данных из новой БД. Сегодня я делаю запросы к базе данных по 7-10 раз в день. В следующем месяце получу доступ ко второй БД, а позже еще к нескольким за счет привлечения в компанию других бизнес-направлений. Помимо базовых правил использования операторов, я полагаюсь на несколько лайфхаков, помогающих упростить запросы и загрузить данные в дашборд более эффективно. ➡️ Читать дальше @data_analysis_ml

50 263

⁉️К чему нужно быть готовым дата-инженеру в новых реалиях? 🚀Присоединяйтесь 6 сентября в 20:00 мск на бесплатный вебинар «Дата инженер и Spark в новых реалиях». 📚На открытом уроке разберем: - Как изменятся источники и получатели данных, объемы данных, языки для ETL, кластера, облака и IDE. - Насколько будут востребованы дата-инженеры на рынке труда и к чему нужно быть готовым. - Open source технологии и примеры миграционных проектов. 👉Регистрация на вебинар: https://otus.pw/5KY0/ Вебинар является частью онлайн-курса «Spark Developer» для дата-инженеров с опытом от OTUS.

50 263

🤖🎨 ИИ для рисования: раскрываем секреты нейронного переноса стиля Раскладываем по полочками, как «думает» нейронная сеть VGG-19, когда ей прилетает задача скопировать стиль художника из вида Homo sapiens. ➡️ Читать дальше ⚙️ Ноутбук на Kaggle ⚙️ Код 🧠 Нейронный алгоритм переноса стиля

50 263

machinelearning_interview - канал подготовит к собеседованию по машинному обучению, статисике ,алгоритмам и науке о данных. golang_interview - Вопросы с настоящих Golang собеседований, помогут Вам получить успешно пройти интервью. python_job_interview - здесь собраны все возможные вопросы и ответы с собеседований по Python. ai_machinelearning_big_data - Мл, Наука о данных.

50 263

🌍 Kepler.gl — инструмент для визуализации геоданных. Если вы когда-либо работали с геоданными, то знаете, насколько нецелесообразно просматривать их в формате CSV, таблицы или JSON. Геоданные необходимо нанести на карту для последующего изучения и выявления закономерностей. Процесс сбора информации не ограничивается только этими действиями и обязательно требует выполнения качественного анализа или/и запуска моделей МО. ➡️ Читать дальше ⚙️ Github @data_analysis_ml

50 263

🪐 Визуализация архитектуры и отдельных блоков нейросети с помощью Netron Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn. Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой. winget install -s winget netron (для Windows) или snap install netron (для Linux). ➡️ Читать дальше ⚙️ Github @data_analysis_ml

50 263

⚡️ Дождались! Avito Analytics meetup #7 Крутейшие спикеры из Авито и Тинькофф поделятся своими кейсами 👇🏻 🔹 Андрей Васильченко — дата-аналитик из команды логистики Авито Доставки Как правильный подход к метрикам позволяет посмотреть на продукт с другой стороны. Как мы оптимизировали сроки: простые эвристики vs ML. Как сроки доставки влияют на поведение пользователей. 🔹 Владислав Магеррам-Заде — руководитель отдела аналитики Тинькофф Можно ли выбрать метрику, которая устроит аналитиков разных департаментов. Как «примирить» риски бизнеса и маркетинга одной метрикой. Как построить «примиряющую» метрику, если NPV не актуален для вашего проекта. 🔹 Алёна Салий — аналитик в команде Авито Авто Как мы детектировали проблему злоупотребления правилами Авито Аукциона. Как анализировали поведение дилеров и какое решение выбрали. К каким результатам привело изменение. Встречаемся 6 сентября в 18:30 в московском офисе Авито на Лесной, 7 (нужно зарегистрироваться) или онлайн — на нашем ютуб-канале.

50 263

📊 ТОП-10 инструментов для Data Science Хотите сделать свою работу в области науки о данных продуктивнее? Подбирайте удобные и эффективные инструменты. Рассмотрим десять лучших, получивших наибольшее распространение среди специалистов по Data Science во всем мире. ➡️ Часть 1 ➡️ Часть 2 @data_analysis_ml

50 263

Телеканал СТС покажет первый российский сериал по сценарию нейросети! Её разработали участники курса «Профессия Data Scientist PRO» образовательной платформы Skillbox в рамках своего дипломного проекта. Для обучения искусственного интеллекта использовали данные 7 телешоу, что позволило генерировать новые варианты развития событий без предсказуемых штампов. Интересно, как код превращается в полноценный сценарий? Попробуйте себя в роли Data Scientist — специалиста по машинному обучению — на бесплатном практическом интенсиве. Записывайтесь прямо сейчас: 👉 https://clc.to/7p7Lew Специалисты по Data Science не боятся искусственного интеллекта. Они его создают! Разрабатывают голосовых помощников наподобие Яндекс.Алисы и обучают нейросети, которые «расшифровывают» древние тексты не хуже Лары Крофт. Используйте возможность за 3 дня получить представление о профессии Data Scientist PRO и выполните первое практическое задание. Вы создадите свою первую модель машинного обучения и научите её предсказывать курс биткоина. Познакомитесь с языком Python, библиотеками Pandas и Sklearn. 🎁 При регистрации все участники получат чек-лист с информацией о том, чем занимается специалист по DS, где он может работать, какие знания и навыки ему нужны и где новичку найти первые проекты. 📌 Подключайтесь к прямым эфирам с 29 по 31 августа в 21:00 по московскому времени!

50 263

⚡️ 10 простых хаков, которые ускорят анализ данных Python Сделать анализ данных Python быстрее и лучше – мечта каждого разработчика. Вот наглядные примеры: узнайте, как добавить чуточку магии в код. В этой статье собраны лучшие советы и приёмы. Некоторые из них распространённые, а некоторые новые, но обязательно пригодятся в будущем. ➡️ Читать дальше @data_analysis_ml