Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 728 Technologies & Applications6 731...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 029 subscribers, ranking 6 731 in the Technologies & Applications category and 33 728 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 029 subscribers.

According to the latest data from 17 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -72 over the last 30 days and by -3 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.16%. Within the first 24 hours after publication, content typically collects 4.20% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 634 views. Within the first day, a publication typically gains 842 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 18 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 029

Subscribers

-324 hours

-77 days

-7230 days

1 634

Post views

~ 84224 hours

~ 1 02048 hours

8.16%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 029

⚙️ Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных? В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает. Читать...

20 029

🔎 Подборка вакансий для лидов Team Lead Data Scientist 🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps (Experiment Tracking, Model Registry, Feature Store, auto-retraining, Online serving, Models monitoring), CI/CD 🟢от 5 000 до 7 250 $ | 3–6 лет Lead Data Engineer 🟢Python, Apache Spark, Airflow, PostgreSQL, ClickHouse, SQL, CI/CD, Linux, k8s 🟢от 450 000 ₽ | более 6 лет Lead Data Engineer 🟢Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter 🟢Уровень дохода не указан | 3–6 лет

20 029

⚡️Строим рекомендательную систему фильмов на Kaggle Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬 Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle. Что будем делать на вебинаре: 🟠Разберем имеющиеся данные фильмов с их оценками 🟠Проведем предобработку данных 🟠Построим рекомендательную систему на основе машинного обучения 🟠Проведем расчет и анализ метрик на основе результатов работы модели Вебинар будет интересен как новичкам, так и уже опытным специалистам 😶Зарегистрироваться на бесплатный вебинар

20 029

⚙️ Что такое StandardScaler в Data Science и зачем он используется? StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1. Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans. ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.

🖥 Подробнее тут

20 029

⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах. Читать...

20 029

Этичные хакеры будут искать уязвимости в нейросетках Яндекса Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы. Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.

20 029

📈 Подборка статей для вашей карьеры • Больше чем книга • Как поставить цель на обучение, чтобы дойти до конца • Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров • Найм дизайнеров глазами лида • Software Architect vs Solution Architect

20 029

Алоха товарищи. Тут подкаст вышел интересный. Спикер - Антон Полднев — специалист по рекламным технологиям Яндекса с опытом свыше 10 лет. В подкасте он рассказывает о своем пути от стажера, который писал на Perl, до руководителя и делится инсайтами разработки высоконагруженных систем. Он объясняет, как работает рекомендательная система рекламы, как ML помогает предсказывать поведение пользователей и вероятность конверсии для бизнеса. ⠀ Ключевые моменты: 👉 Ответственность за рекламные технологии. 👉 Переход на C++ для повышения производительности. 👉 Внедрение нейросетей и машинного обучения. 👉 Важность командной работы и четкого распределения задач. 👉 Эксперименты и A/B-тесты для оптимизации решений. Также Антон рассказал про Perforator — opensource-инструмент, который помогает анализировать работу приложений на сервере в реальном времени. С помощью этого инструмента разработчики могут увидеть, как распределяются ресурсы серверов и какие программы расходуют их больше всего. Ссылки на подкаст 👉 YouTube 👉 VK 👉 Rutube

20 029

🔎 Подборка вакансий для сеньоров Ведущий Python разработчик 🟢Python, Django, Pydantic, SQL, NoSQL, AWS, Docker, Kubernetes, asyncio, aiohttp, RabbitMQ, Kafka 🟢Уровень дохода не указан | 3–6 лет Ведущий менеджер AI (Data Scientist) 🟢Python, машинное обучение, SQL, A/B тесты, NLP, deep learning, RNN, трансформеры, MLOps, DVC, MLflow, Airflow, Hadoop, Spark, LangChain, LangGraph, LLM 🟢Уровень дохода не указан | 3–6 лет Senior Data Analyst 🟢SQL, Python, Excel, BI tools (Tableau, PowerBI, Metabase) 🟢Уровень дохода не указан | 3–6 лет

20 029

⚙️ Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных. Читать...

20 029

🖥 Про разработку LLM: какие ещё есть справочники и кукбуки В статье — разбор, почему собирать платформу инференса LLM с нуля не всегда разумно, и как MWS GPT помогает запускать большие языковые модели проще, быстрее и без лишнего сумасшествия. Читать...

20 029

📂 Мы делимся с вами папкой «ИИ & IT & DSGN», в которой собрали статьи с полезными советами от экспертов. ⚙ Внутри вас ждет: 🟠 Статья "Можете ли Вы отличить ИИ в общении?" 🟠 ИИ-ментор для новых сотрудников 🟠 Игровой помощник от Nvidia. 🟠 ИИ-инструменты для дизайнеров. 🟠 И еще 28 полезные статьи, которые прокачают ваши навыки. 🔗 А мы с вами делимся статьёй: «Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5». ✔ Сохраняйте папку «ИИ & IT & DSGN», чтобы быть в курсе всех новостей в мире IT и не только!

20 029

👩‍💻 Постройте логистическую регрессию вручную Напишите простую реализацию логистической регрессии с нуля (без sklearn) для бинарной классификации. Это поможет лучше понять, как работает один из самых базовых алгоритмов в машинном обучении. Решение задачи🔽

import numpy as np # Сигмоида def sigmoid(z): return 1 / (1 + np.exp(-z)) # Функция логистической регрессии def logistic_regression(X, y, lr=0.1, epochs=1000): m, n = X.shape X = np.c_[np.ones(m), X] # добавляем bias theta = np.zeros(n + 1) for _ in range(epochs): z = np.dot(X, theta) h = sigmoid(z) gradient = np.dot(X.T, (h - y)) / m theta -= lr * gradient return theta # Предсказание def predict(X, theta): X = np.c_[np.ones(X.shape[0]), X] return sigmoid(np.dot(X, theta)) >= 0.5 # Пример X = np.array([[1], [2], [3], [4]]) y = np.array([0, 0, 1, 1]) theta = logistic_regression(X, y) print(predict(X, theta)) # [False False True True]

20 029

🖥 Как работает Трансформер: очень простое описание Вот очень простое объяснение для тех, кто не хочет вдаваться в сложную математику, но и не готов принимать эту ключевую технологию как магию, которая просто работает. Конечно, никакого волшебства тут и нет — идея на самом деле довольно проста.. Читать...

20 029

🤖 AI агенты на основе LLM: что нас ждет? Приглашаем на открытый урок. 🗓 14 апреля в 18:00 МСК 🆓 Бесплатно. Урок в рамках старта курса «NLP. Advanced». Сегодня нейросети такие как ChatGPT, GPT4, GigaChat и другие из больших языковых моделей (LLMs), способных генерировать текст на очень высоком уровне, стремительно превращаются в AI агентов, по сути наших виртуальных ассистентов, способных взаимодействовать со средой, принимать решения и выполнять широкий набор команд. На вебинаре мы расскажем про то, что представляют из себя AI агенты сегодня и что нас ждет в ближайшем будущем. Кому подходит: - Продвинутым DS специалистам, которые хотят углубиться в тему NLP - Выпускникам и учащимся курсов ML-professional, ML-Advanced, NLP Отус - Исследователям и инженерам, работающими с LLM - Практикующим специалистам, которые хотят углубиться в область LLM Результаты урока: - познакомитесь с концепцией AI агентов и агентов на основе LLM - узнаете, какие принципы лежат в основе создания агентов - обсудите перспективы развития агентных систем Участвуйте и получите скидку для обучения на курсе «NLP. Advanced». 🔗 Ссылка на регистрацию: https://vk.cc/cKCA7C Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 029

🔎 Подборка вакансий для джунов Data Scientist (Middle) 🟢Python, SQL, Pandas, NumPy, Matplotlib 🟢Уровень дохода не указан | 3–6 лет Data Engineer (Middle) 🟢Python, Rust, SQL, ClickHouse, PostgreSQL, Greenplum, Airflow, Dagster, Prefect, Docker, Kubernetes 🟢от 200 000 ₽ | 1–3 года Data Scientist 🟢Python, SQL, A/B тесты, MLflow, DVC, Apache Airflow, Hadoop, Spark, LLM, NLP 🟢Уровень дохода не указан | 3–6 лет

20 029

⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется? One-Hot Encoding — это способ преобразования категориальных признаков в числовые. Он создаёт бинарные столбцы для каждого уникального значения категории. Это важно, потому что большинство алгоритмов машинного обучения не работают напрямую с текстовыми значениями. ➡️ Пример:

import pandas as pd

df = pd.DataFrame({'Цвет': ['красный', 'синий', 'зелёный']})

encoded = pd.get_dummies(df)
print(encoded)

🗣️ В этом примере get_dummies() преобразует колонку Цвет в три бинарных признака: Цвет_красный, Цвет_синий, Цвет_зелёный. Для каждой строки только один из них равен 1, остальные — 0.

🖥 Подробнее тут

20 029

🖥 Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект Кратко о том, как Суцкевер стал не просто сооснователем OpenAI, а мозгом ChatGPT, почему ушёл в новый проект и зачем вообще создавать "безопасный сверхинтеллект". Читать...

20 029

🔎 Подборка вакансий для джунов Data engineer (junior) 🟢SQL, Linux, Scala (желательно), понимание ООП, ФП, MapReduce, архитектуры Hadoop YARN, HDFS, Apache Spark 🟢от 70 000 до 140 000 ₽ | Без опыта DATA-аналитик/Аналитик данных (Junior) 🟢T-SQL (MS SQL), Python (pandas, SQLAlchemy, requests), ETL, Excel, Power BI, DAX (приветствуется) 🟢95 000 ₽ | 1–3 года Data Scientist (Junior) 🟢Python, SQL, машинное обучение, статистика, анализ данных 🟢до 150 000 ₽ | 1–3 года

20 029

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)