Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 709 技术与应用6 718...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 19 992 名订阅者，在 技术与应用 类别中位列第 6 718，并在 俄罗斯 地区排名第 33 709 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 19 992 名订阅者。

根据 23 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -85，过去 24 小时变化为 0，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.98%。内容发布后 24 小时内通常能获得 3.64% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 596 次浏览，首日通常累积 728 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 8。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 24 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

19 992

订阅者

无数据24 小时

-417 天

-8530 天

1 596

帖子浏览量

~ 72824 小时

~ 84648 小时

7.98%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

19 992

👤Как оптимизировать хранение, когда данных слишком много В этой статье автор расскажет, почему стоимость жестких дисков и твердотельных накопителей постепенно снижается, и как Zstd — обеспечивает сжатие без потерь, а также вы узнаете почему новый метод сжатия Brotli заточен под работу с небольшими текстовыми документами в вебе. Читать...

19 992

😍Генерация DAG в Apache Airflow В этой статье автор расскажет, почему самая типовая задача для дата‑инженера — это перенести данные из реплики/боевой OLTP DB в аналитическое хранилище, и почему в данной задаче обычно нужно переносить несколько таблиц, а также вы узнаете зачем нужно всегда использовать отдельную папку для генерируемых DAG. Читать...

19 992

⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional 🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера ⏰ Время прохождения теста ограничено 30 минут 👉 ПРОЙТИ ТЕСТ: https://otus.pw/79WF/ 29 мая в 18:00 мск на открытом уроке мы поговорим про Random Forest и попрактикуемся в его использовании для решения задачи классификации. Нативная интеграция. Информация о продукте www.otus.ru

19 992

😉Гайд по созданию Big Data-проектов в облаке В этой статье автор расскажет, почему компании выбирают облака для работы с большими данными, и почему в Big Data-проектах большое значение имеет концепция архитектуры хранилища, а также вы узнаете зачем для каждого из этапов работы с большими данными нужно подобрать оптимальный набор инструментов с учетом нагрузки и задач. Читать...

19 992

🆕 Yandex Cloud добавила новый режим работы в Yandex DataSphere — Dedicated Yandex DataSphere — это сервис для полного цикла машинного обучения, в котором есть все необходимые инструменты для разработки и интеграции с другими облачными сервисами. Что открывает выделенный режим Dedicated: — возможность зарезервировать виртуальную машину в облаке под свой проект и работать с ней сколько нужно; — ускорение работы моделей машинного обучения для задач по анализу данных. Что ещё изменилось в Yandex DataSphere: — режим Serverless остаётся, вы также можете его выбрать и оплачивать вычислительные мощности только во время реального обучения; — появилась новая версия Jupyter Notebook, это популярный редактор кода для ML-разработки. Обновили интерфейс и добавили предустановленные расширения. Все подробности можете узнать по ссылке, а обсудить в сообществе разработчиков и аналитиков Yandex DataSphere➡️

19 992

😎Как разработать модель выявления связанных компаний на основании анализа транзакций В этой статье автор расскажет, какие данные из всего пула транзакций могут нам помочь, и как нам преобразовать данные транзакций так, чтобы вытащить максимум информации, а также вы узнаете почему факторы, влияющие на дефолт по заемщику должны отличаться от факторов, выявляющих наличие связей между юридическими лицами. Читать...

19 992

😵Структурирование кредитного портфеля методами машинного обучения В этой статье автор расскажет, почему зачем кредитные организации естественным образом располагают большими портфелями клиентских кредитов, и почему разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже очень давно, а также вы узнаете почему для задачи структуризации кредитного портфеля, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена. Читать...

19 992

👨‍💻Меры центральности в Network Science В этой статье автор расскажет, почему область применения графов совсем не ограничивается одним только Process Mining, и как создать модель, которая позволяет удобно работать с данными, представляющими из себя объекты, между которыми можно выделить связи, а также вы узнаете какие самые основные и наиболее часто используемые меры центральности в Network Science. Читать...

19 992

👤Как тестировать в Databricks: Nutter Framework В этой статье автор расскажет, почему главная цель фреймворка Nutter - дать возможность легко и быстро тестировать ноутбуки в Databricks, и какие фреймворки для тестирования есть в Python, а также вы узнаете как проводить интеграционное тестирование сервисов, написанных как ноутбуки в Databricks. Читать...

19 992

Ребят, кому редкую книгу про математику? IT-компания «Криптонит» и проект «Математика не для всех» проводят совместный конкурс, где разыгрывают в каждом канале по три книги «Леонтий Филиппович Магницкий и его арифметика» в редакции Дмитрия Дмитриевича Галанина от 1914 года! Это первый в России печатный курс по математике, который был издан в 1703 году. Михаил Ломоносов называл «Арифметику» своей настольной книгой. Шесть редких экземпляра «Арифметики Магницкого» разыграют случайным образом 26 мая. Чтобы участвовать, переходите сюда!📖

19 992

😵Реализация функции потерь в Python В этой статье автор расскажет, почему функции потерь Python являются важной частью моделей машинного обучения, и почему эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического, а также вы узнаете какие способы существуют стобы вычислить разницу. Читать...

19 992

👤Процесс ELT: основные компоненты, преимущества и инструменты создания В этой статье автор расскажет, почему интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности, и почему один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT, а также вы узнаете какие преимущества и распространённые способы применения в процессе ELT. Читать...

19 992

🚀Как ускорить пилотные проекты по анализу больших данных В этой статье автор расскажет, с какими типовыми проблемами можно столкнуться при внедрении F5 Platform, какой инструмент нужно разработать для их преодоления, и как он помог нам ускорить проведение пилотных проектов, а также вы узнаете почему платформенное решение — это сложный ИТ‑продукт, требующий развитой инфраструктуры и квалифицированных специалистов. Читать...

19 992

⚡️Clickhouse: сжимаем данные эффективно В этой статье автор расскажет, какой есть способ оптимизации хранения данных и запросов, который поможет ускорить процесс выполнения задачи с помощью использования кодеков сжатия в колонках, и какие результаты можно получить при использовании кодеков, а также вы узнаете почему в clickhouse есть несколько алгоритмов сжатия. Читать...

19 992

📱Как определить оптимальную подпоследовательность тем при автоматизации чатов В этой статье автор расскажет, как автоматизируя чаты, можно снять типовые вопросы с агентов, высвобождая человеческий ресурс на действительно сложные задачи, а боту оставить рутину, и почему автоматизация чатов подразумевает целый спектр работ: обучение ML моделей новым темам, доработка функционала бота, подготовка текстов ответов их переводов и тестирование, а также вы узнаете почему автоматизация тем — очень растянутый по времени процесс. Читать...

19 992

💡Неудачный опыт: выявление аномалий в данных методами кластеризации В этой статье автор расскажет, почему модель машинного обучения не может воспринимать текст в принципе, и как для визуализации результатов работы моделей можно использовать стохастическое вложение соседей с t-распределением, а также вы узнаете почему адекватные результаты показали только две модели: DBSCAN и иерархическая кластеризация. Читать...

19 992

👤Пять причин, по которым вам нужны синтетические данные В этой статье автор расскажет, почему сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием, и почему у этих данных могут быть проблемы с качеством, разнообразием и количеством, а также вы узнаете какие проблемы можно решать с помощью синтетических данных. Читать...

19 992

🧠Как упростить анализ данных с помощью использования готовой виртуальной машины для аналитики В этой статье автор расскажет, почему раньше для исследования данных и разработки моделей можно было выбрать один из трех путей, и как можно настроить весь набор инструментов на своем компьютере или на арендованной инфраструктуре самостоятельно, а также вы узнаете в текущих условиях работать одновременно с несколькими SaaS не всегда удобно. Читать...

19 992

Часто на Hadoop-кластерах не хватает ресурсов. Когда некоторые аналитики просят огромное количество ядер и памяти для своих Jupyter-ноутбуков, другие участники вообще не могут получить ресурсы. Это очень тормозит рабочие процессы. Узнали, согласны? Александр Ледовский, тимлид команды аналитики и DS в Авито, делится опытом использования Apache Spark для работы с поисковыми логами. Всё, что нужно знать аналитикам, дата-инженерам, специалистам по обработке больших данных и тимлидам команд, чтобы задавать параметры Spark-сессии и получать ресурсы. Переходите и читайте по ссылке. Реклама. ООО «Авито Тех». LdtCKJT9n

19 992

🖥Кто я аналитик данных или датасаентист В этой статье автор расскажет, почему в 50% статей в интернете написано, что аналитик данных и Data Scientist это одно и тоже, а другие 50% - за абсолютную разницу данных профессий, и почему одной из ключевых задач аналитика является обработка данных, а также вы узнаете почему аналитическая работа часто предполагает работу в команде, особенно над крупным проектом, взаимодействие с другими сотрудниками, сбор информации для анализа. Читать...