Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 689 Technologies & Applications6 704...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 19 985 subscribers, ranking 6 704 in the Technologies & Applications category and 33 689 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 19 985 subscribers.

According to the latest data from 24 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -79 over the last 30 days and by -2 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.62%. Within the first 24 hours after publication, content typically collects 3.70% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 523 views. Within the first day, a publication typically gains 740 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 25 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

19 985

Subscribers

-224 hours

-407 days

-7930 days

1 523

Post views

~ 74024 hours

~ 87048 hours

7.62%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

19 992

👤Как оптимизировать хранение, когда данных слишком много В этой статье автор расскажет, почему стоимость жестких дисков и твердотельных накопителей постепенно снижается, и как Zstd — обеспечивает сжатие без потерь, а также вы узнаете почему новый метод сжатия Brotli заточен под работу с небольшими текстовыми документами в вебе. Читать...

19 992

😍Генерация DAG в Apache Airflow В этой статье автор расскажет, почему самая типовая задача для дата‑инженера — это перенести данные из реплики/боевой OLTP DB в аналитическое хранилище, и почему в данной задаче обычно нужно переносить несколько таблиц, а также вы узнаете зачем нужно всегда использовать отдельную папку для генерируемых DAG. Читать...

19 992

⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional 🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера ⏰ Время прохождения теста ограничено 30 минут 👉 ПРОЙТИ ТЕСТ: https://otus.pw/79WF/ 29 мая в 18:00 мск на открытом уроке мы поговорим про Random Forest и попрактикуемся в его использовании для решения задачи классификации. Нативная интеграция. Информация о продукте www.otus.ru

19 992

😉Гайд по созданию Big Data-проектов в облаке В этой статье автор расскажет, почему компании выбирают облака для работы с большими данными, и почему в Big Data-проектах большое значение имеет концепция архитектуры хранилища, а также вы узнаете зачем для каждого из этапов работы с большими данными нужно подобрать оптимальный набор инструментов с учетом нагрузки и задач. Читать...

19 992

🆕 Yandex Cloud добавила новый режим работы в Yandex DataSphere — Dedicated Yandex DataSphere — это сервис для полного цикла машинного обучения, в котором есть все необходимые инструменты для разработки и интеграции с другими облачными сервисами. Что открывает выделенный режим Dedicated: — возможность зарезервировать виртуальную машину в облаке под свой проект и работать с ней сколько нужно; — ускорение работы моделей машинного обучения для задач по анализу данных. Что ещё изменилось в Yandex DataSphere: — режим Serverless остаётся, вы также можете его выбрать и оплачивать вычислительные мощности только во время реального обучения; — появилась новая версия Jupyter Notebook, это популярный редактор кода для ML-разработки. Обновили интерфейс и добавили предустановленные расширения. Все подробности можете узнать по ссылке, а обсудить в сообществе разработчиков и аналитиков Yandex DataSphere➡️

19 992

😎Как разработать модель выявления связанных компаний на основании анализа транзакций В этой статье автор расскажет, какие данные из всего пула транзакций могут нам помочь, и как нам преобразовать данные транзакций так, чтобы вытащить максимум информации, а также вы узнаете почему факторы, влияющие на дефолт по заемщику должны отличаться от факторов, выявляющих наличие связей между юридическими лицами. Читать...

19 992

😵Структурирование кредитного портфеля методами машинного обучения В этой статье автор расскажет, почему зачем кредитные организации естественным образом располагают большими портфелями клиентских кредитов, и почему разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже очень давно, а также вы узнаете почему для задачи структуризации кредитного портфеля, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена. Читать...

19 992

👨‍💻Меры центральности в Network Science В этой статье автор расскажет, почему область применения графов совсем не ограничивается одним только Process Mining, и как создать модель, которая позволяет удобно работать с данными, представляющими из себя объекты, между которыми можно выделить связи, а также вы узнаете какие самые основные и наиболее часто используемые меры центральности в Network Science. Читать...

19 992

👤Как тестировать в Databricks: Nutter Framework В этой статье автор расскажет, почему главная цель фреймворка Nutter - дать возможность легко и быстро тестировать ноутбуки в Databricks, и какие фреймворки для тестирования есть в Python, а также вы узнаете как проводить интеграционное тестирование сервисов, написанных как ноутбуки в Databricks. Читать...

19 992

Ребят, кому редкую книгу про математику? IT-компания «Криптонит» и проект «Математика не для всех» проводят совместный конкурс, где разыгрывают в каждом канале по три книги «Леонтий Филиппович Магницкий и его арифметика» в редакции Дмитрия Дмитриевича Галанина от 1914 года! Это первый в России печатный курс по математике, который был издан в 1703 году. Михаил Ломоносов называл «Арифметику» своей настольной книгой. Шесть редких экземпляра «Арифметики Магницкого» разыграют случайным образом 26 мая. Чтобы участвовать, переходите сюда!📖

19 992

😵Реализация функции потерь в Python В этой статье автор расскажет, почему функции потерь Python являются важной частью моделей машинного обучения, и почему эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического, а также вы узнаете какие способы существуют стобы вычислить разницу. Читать...

19 992

👤Процесс ELT: основные компоненты, преимущества и инструменты создания В этой статье автор расскажет, почему интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности, и почему один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT, а также вы узнаете какие преимущества и распространённые способы применения в процессе ELT. Читать...

19 992

🚀Как ускорить пилотные проекты по анализу больших данных В этой статье автор расскажет, с какими типовыми проблемами можно столкнуться при внедрении F5 Platform, какой инструмент нужно разработать для их преодоления, и как он помог нам ускорить проведение пилотных проектов, а также вы узнаете почему платформенное решение — это сложный ИТ‑продукт, требующий развитой инфраструктуры и квалифицированных специалистов. Читать...

19 992

⚡️Clickhouse: сжимаем данные эффективно В этой статье автор расскажет, какой есть способ оптимизации хранения данных и запросов, который поможет ускорить процесс выполнения задачи с помощью использования кодеков сжатия в колонках, и какие результаты можно получить при использовании кодеков, а также вы узнаете почему в clickhouse есть несколько алгоритмов сжатия. Читать...

19 992

📱Как определить оптимальную подпоследовательность тем при автоматизации чатов В этой статье автор расскажет, как автоматизируя чаты, можно снять типовые вопросы с агентов, высвобождая человеческий ресурс на действительно сложные задачи, а боту оставить рутину, и почему автоматизация чатов подразумевает целый спектр работ: обучение ML моделей новым темам, доработка функционала бота, подготовка текстов ответов их переводов и тестирование, а также вы узнаете почему автоматизация тем — очень растянутый по времени процесс. Читать...

19 992

💡Неудачный опыт: выявление аномалий в данных методами кластеризации В этой статье автор расскажет, почему модель машинного обучения не может воспринимать текст в принципе, и как для визуализации результатов работы моделей можно использовать стохастическое вложение соседей с t-распределением, а также вы узнаете почему адекватные результаты показали только две модели: DBSCAN и иерархическая кластеризация. Читать...

19 992

👤Пять причин, по которым вам нужны синтетические данные В этой статье автор расскажет, почему сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием, и почему у этих данных могут быть проблемы с качеством, разнообразием и количеством, а также вы узнаете какие проблемы можно решать с помощью синтетических данных. Читать...

19 992

🧠Как упростить анализ данных с помощью использования готовой виртуальной машины для аналитики В этой статье автор расскажет, почему раньше для исследования данных и разработки моделей можно было выбрать один из трех путей, и как можно настроить весь набор инструментов на своем компьютере или на арендованной инфраструктуре самостоятельно, а также вы узнаете в текущих условиях работать одновременно с несколькими SaaS не всегда удобно. Читать...

19 992

Часто на Hadoop-кластерах не хватает ресурсов. Когда некоторые аналитики просят огромное количество ядер и памяти для своих Jupyter-ноутбуков, другие участники вообще не могут получить ресурсы. Это очень тормозит рабочие процессы. Узнали, согласны? Александр Ледовский, тимлид команды аналитики и DS в Авито, делится опытом использования Apache Spark для работы с поисковыми логами. Всё, что нужно знать аналитикам, дата-инженерам, специалистам по обработке больших данных и тимлидам команд, чтобы задавать параметры Spark-сессии и получать ресурсы. Переходите и читайте по ссылке. Реклама. ООО «Авито Тех». LdtCKJT9n

19 992

🖥Кто я аналитик данных или датасаентист В этой статье автор расскажет, почему в 50% статей в интернете написано, что аналитик данных и Data Scientist это одно и тоже, а другие 50% - за абсолютную разницу данных профессий, и почему одной из ключевых задач аналитика является обработка данных, а также вы узнаете почему аналитическая работа часто предполагает работу в команде, особенно над крупным проектом, взаимодействие с другими сотрудниками, сбор информации для анализа. Читать...