Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 709 Texnologiyalar & Aralashmalar6 718...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 19 992 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 718-o'rinni va Rossiya mintaqasida 33 709-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 19 992 obunachiga ega bo‘ldi.

23 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -85 ga, so‘nggi 24 soatda esa 0 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.98% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 3.64% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 596 marta ko‘riladi; birinchi sutkada odatda 728 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 8 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 24 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

19 992

Obunachilar

Ma'lumot yo'q24 soatlar

-417 kunlar

-8530 kunlar

1 596

Post ko'rishlar

~ 72824 soatlar

~ 84648 soatlar

7.98%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

19 992

👤Как оптимизировать хранение, когда данных слишком много В этой статье автор расскажет, почему стоимость жестких дисков и твердотельных накопителей постепенно снижается, и как Zstd — обеспечивает сжатие без потерь, а также вы узнаете почему новый метод сжатия Brotli заточен под работу с небольшими текстовыми документами в вебе. Читать...

19 992

😍Генерация DAG в Apache Airflow В этой статье автор расскажет, почему самая типовая задача для дата‑инженера — это перенести данные из реплики/боевой OLTP DB в аналитическое хранилище, и почему в данной задаче обычно нужно переносить несколько таблиц, а также вы узнаете зачем нужно всегда использовать отдельную папку для генерируемых DAG. Читать...

19 992

⚠️Пройдите тест на углубленные знания в сфере Machine Learning. Professional 🔓 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS и его партнера — Сбера ⏰ Время прохождения теста ограничено 30 минут 👉 ПРОЙТИ ТЕСТ: https://otus.pw/79WF/ 29 мая в 18:00 мск на открытом уроке мы поговорим про Random Forest и попрактикуемся в его использовании для решения задачи классификации. Нативная интеграция. Информация о продукте www.otus.ru

19 992

😉Гайд по созданию Big Data-проектов в облаке В этой статье автор расскажет, почему компании выбирают облака для работы с большими данными, и почему в Big Data-проектах большое значение имеет концепция архитектуры хранилища, а также вы узнаете зачем для каждого из этапов работы с большими данными нужно подобрать оптимальный набор инструментов с учетом нагрузки и задач. Читать...

19 992

🆕 Yandex Cloud добавила новый режим работы в Yandex DataSphere — Dedicated Yandex DataSphere — это сервис для полного цикла машинного обучения, в котором есть все необходимые инструменты для разработки и интеграции с другими облачными сервисами. Что открывает выделенный режим Dedicated: — возможность зарезервировать виртуальную машину в облаке под свой проект и работать с ней сколько нужно; — ускорение работы моделей машинного обучения для задач по анализу данных. Что ещё изменилось в Yandex DataSphere: — режим Serverless остаётся, вы также можете его выбрать и оплачивать вычислительные мощности только во время реального обучения; — появилась новая версия Jupyter Notebook, это популярный редактор кода для ML-разработки. Обновили интерфейс и добавили предустановленные расширения. Все подробности можете узнать по ссылке, а обсудить в сообществе разработчиков и аналитиков Yandex DataSphere➡️

19 992

😎Как разработать модель выявления связанных компаний на основании анализа транзакций В этой статье автор расскажет, какие данные из всего пула транзакций могут нам помочь, и как нам преобразовать данные транзакций так, чтобы вытащить максимум информации, а также вы узнаете почему факторы, влияющие на дефолт по заемщику должны отличаться от факторов, выявляющих наличие связей между юридическими лицами. Читать...

19 992

😵Структурирование кредитного портфеля методами машинного обучения В этой статье автор расскажет, почему зачем кредитные организации естественным образом располагают большими портфелями клиентских кредитов, и почему разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже очень давно, а также вы узнаете почему для задачи структуризации кредитного портфеля, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена. Читать...

19 992

👨‍💻Меры центральности в Network Science В этой статье автор расскажет, почему область применения графов совсем не ограничивается одним только Process Mining, и как создать модель, которая позволяет удобно работать с данными, представляющими из себя объекты, между которыми можно выделить связи, а также вы узнаете какие самые основные и наиболее часто используемые меры центральности в Network Science. Читать...

19 992

👤Как тестировать в Databricks: Nutter Framework В этой статье автор расскажет, почему главная цель фреймворка Nutter - дать возможность легко и быстро тестировать ноутбуки в Databricks, и какие фреймворки для тестирования есть в Python, а также вы узнаете как проводить интеграционное тестирование сервисов, написанных как ноутбуки в Databricks. Читать...

19 992

Ребят, кому редкую книгу про математику? IT-компания «Криптонит» и проект «Математика не для всех» проводят совместный конкурс, где разыгрывают в каждом канале по три книги «Леонтий Филиппович Магницкий и его арифметика» в редакции Дмитрия Дмитриевича Галанина от 1914 года! Это первый в России печатный курс по математике, который был издан в 1703 году. Михаил Ломоносов называл «Арифметику» своей настольной книгой. Шесть редких экземпляра «Арифметики Магницкого» разыграют случайным образом 26 мая. Чтобы участвовать, переходите сюда!📖

19 992

😵Реализация функции потерь в Python В этой статье автор расскажет, почему функции потерь Python являются важной частью моделей машинного обучения, и почему эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического, а также вы узнаете какие способы существуют стобы вычислить разницу. Читать...

19 992

👤Процесс ELT: основные компоненты, преимущества и инструменты создания В этой статье автор расскажет, почему интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности, и почему один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT, а также вы узнаете какие преимущества и распространённые способы применения в процессе ELT. Читать...

19 992

🚀Как ускорить пилотные проекты по анализу больших данных В этой статье автор расскажет, с какими типовыми проблемами можно столкнуться при внедрении F5 Platform, какой инструмент нужно разработать для их преодоления, и как он помог нам ускорить проведение пилотных проектов, а также вы узнаете почему платформенное решение — это сложный ИТ‑продукт, требующий развитой инфраструктуры и квалифицированных специалистов. Читать...

19 992

⚡️Clickhouse: сжимаем данные эффективно В этой статье автор расскажет, какой есть способ оптимизации хранения данных и запросов, который поможет ускорить процесс выполнения задачи с помощью использования кодеков сжатия в колонках, и какие результаты можно получить при использовании кодеков, а также вы узнаете почему в clickhouse есть несколько алгоритмов сжатия. Читать...

19 992

📱Как определить оптимальную подпоследовательность тем при автоматизации чатов В этой статье автор расскажет, как автоматизируя чаты, можно снять типовые вопросы с агентов, высвобождая человеческий ресурс на действительно сложные задачи, а боту оставить рутину, и почему автоматизация чатов подразумевает целый спектр работ: обучение ML моделей новым темам, доработка функционала бота, подготовка текстов ответов их переводов и тестирование, а также вы узнаете почему автоматизация тем — очень растянутый по времени процесс. Читать...

19 992

💡Неудачный опыт: выявление аномалий в данных методами кластеризации В этой статье автор расскажет, почему модель машинного обучения не может воспринимать текст в принципе, и как для визуализации результатов работы моделей можно использовать стохастическое вложение соседей с t-распределением, а также вы узнаете почему адекватные результаты показали только две модели: DBSCAN и иерархическая кластеризация. Читать...

19 992

👤Пять причин, по которым вам нужны синтетические данные В этой статье автор расскажет, почему сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием, и почему у этих данных могут быть проблемы с качеством, разнообразием и количеством, а также вы узнаете какие проблемы можно решать с помощью синтетических данных. Читать...

19 992

🧠Как упростить анализ данных с помощью использования готовой виртуальной машины для аналитики В этой статье автор расскажет, почему раньше для исследования данных и разработки моделей можно было выбрать один из трех путей, и как можно настроить весь набор инструментов на своем компьютере или на арендованной инфраструктуре самостоятельно, а также вы узнаете в текущих условиях работать одновременно с несколькими SaaS не всегда удобно. Читать...

19 992

Часто на Hadoop-кластерах не хватает ресурсов. Когда некоторые аналитики просят огромное количество ядер и памяти для своих Jupyter-ноутбуков, другие участники вообще не могут получить ресурсы. Это очень тормозит рабочие процессы. Узнали, согласны? Александр Ледовский, тимлид команды аналитики и DS в Авито, делится опытом использования Apache Spark для работы с поисковыми логами. Всё, что нужно знать аналитикам, дата-инженерам, специалистам по обработке больших данных и тимлидам команд, чтобы задавать параметры Spark-сессии и получать ресурсы. Переходите и читайте по ссылке. Реклама. ООО «Авито Тех». LdtCKJT9n

19 992

🖥Кто я аналитик данных или датасаентист В этой статье автор расскажет, почему в 50% статей в интернете написано, что аналитик данных и Data Scientist это одно и тоже, а другие 50% - за абсолютную разницу данных профессий, и почему одной из ключевых задач аналитика является обработка данных, а также вы узнаете почему аналитическая работа часто предполагает работу в команде, особенно над крупным проектом, взаимодействие с другими сотрудниками, сбор информации для анализа. Читать...