Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Сітка:Frontender's notes [ru]Росія33 739 Технології та додатки6 738...

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 041 підписників, посідаючи 6 738 місце в категорії Технології та додатки та 33 739 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 041 підписників.

За останніми даними від 14 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -87, а за останні 24 години на -13, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 7.71%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.62% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 1 546 переглядів. Протягом першої доби публікація в середньому набирає 926 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Завдяки високій частоті оновлень (останні дані отримано 15 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 041

Підписники

-1324 години

+257 днів

-8730 день

1 546

Перегляди допису

~ 92624 години

~ 1 11548 годин

7.71%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

20 043

VI российский саммит и Премия CDO/CDTO Summit & Awards 2025 собрали лидеров цифровой трансформации из различных отраслей. Это событие стало площадкой для обсуждения актуальных вопросов цифровизации, развития инфраструктуры на основе российского ПО и технологий, а также обмена опытом между представителями бизнеса и органов власти. Сразу две награды получила МТС Web Services: 🟢 Платформа MWS Octapi получила Гран-при в номинации «Digital-платформа года». Octapi позволяет бесшовно интегрировать сервисы в экосистему, обеспечивая их эффективное взаимодействие и повышая надежность. 🟢 Павел Воронин генеральный директор МТС Web Services стал лауреатом премии CDO/CDTO, войдя в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».

20 043

⚙️ Что такое data leakage в машинном обучении и почему это опасно? Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных. ➡️ Пример:

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Пример: диагностические данные пациента
df = pd.DataFrame({
    'age': [25, 40, 60, 35],
    'blood_pressure': [120, 130, 150, 110],
    'has_disease': [0, 1, 1, 0],
    'diagnosis_code': [0, 1, 1, 0]  # случайно совпадает с целевой переменной
})

X = df.drop('has_disease', axis=1)
y = df['has_disease']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))

🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakage

20 043

➡️ Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML Покажем, как связали нашу платформу ИИ и Озеро данных, чтобы модели удобно работали с витринами через Spark. Немного архитектуры, немного боли, немного магии. Читать...

20 043

⚡️ Python теперь в Telegram! Ребята сделали крутейший канал, где на простых картинках и понятном языке обучают Python, делятся полезными фишками и инструментами Подписывайтесь: @PythonPortal

20 043

👩‍💻 Задачка по Python Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле. Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity. Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту. ➡️ Пример: • python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту. Решение задачи ⬇️

import pandas as pd import sys def clean_and_aggregate(file_path): # Загружаем данные data = pd.read_csv(file_path) # Удаляем строки с пустыми значениями в колонках 'price' и 'quantity' data.dropna(subset=['price', 'quantity'], inplace=True) # Преобразуем колонки в числовой формат, ошибки игнорируем data['price'] = pd.to_numeric(data['price'], errors='coerce') data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce') # Удаляем строки с некорректными значениями data.dropna(subset=['price', 'quantity'], inplace=True) # Агрегируем данные aggregated_data = data.groupby('product_id').agg( total_quantity=('quantity', 'sum'), total_sales=('price', 'sum') ).reset_index() # Сохраняем в новый CSV aggregated_data.to_csv('aggregated_data.csv', index=False) print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.") if __name__ == "__main__": if len(sys.argv) != 2: print("Использование: python app.py <путь к файлу CSV>") sys.exit(1) file_path = sys.argv[1] clean_and_aggregate(file_path)

20 043

📈 Подборка статей для вашей карьеры • Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений • Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю • Все, пора увольняться: что я поняла после работы в токсичных командах • Базовое программирование, или Почему джуны не могут пройти к нам собеседование • Я стал аналитиком, потому что не смог быть программистом

20 043

👀 WorkTeam: новый мультиагентный фреймворк для автоматизации сложных бизнес-процессов Показываю, как платформа WorkTeam превращает описания процессов на обычном языке в работающий бизнес-процесс — без кодеров, без боли и почти без магии. Читать...

20 043

Учите машины учиться? Тогда вам на IML 🗓️16–17 мая 📍 Питер + онлайн IML — конференция для всех, кто использует ML в проектах. Здесь собираются ML-инженеры, дата-сайентисты, исследователи, аналитики и разработчики. В этот раз вас ждет двухдневный технологический хардкор об NLP, RecSys, MLOps и Computer Vision. С докладами выступят спикеры из Яндекса, Positive Technologies, Т-Банка, Точки и других известных компаний. А вот что с билетами: → Дают скидку 15% на билет для частных лиц по промокоду DEVSP; → Есть билет для студентов и преподавателей вузов — в два раза дешевле персонального; → Можно попросить руководство приобрести корпоративный билет. Бонус: в соседних залах пройдет Python-конференция PiterPy. Участники IML смогут послушать доклады PiterPy бесплатно. За подробностями и билетами

20 043

👀 Рептилоиды победили… но это не точно ИИ всё ещё не рептилоид: в статье — скептический разбор "интеллекта" нейросетей. Проверка на слонах, эволюция ответов Алисы, трезвый взгляд на истерики СМИ и разница между AGI и автокомплитом. Читать...

20 043

👩‍💻 Обучите модель для классификации текста с помощью Naive Bayes Создайте простую модель машинного обучения, которая определяет, является ли текст позитивным или негативным. Используем sklearn и алгоритм Naive Bayes Решение задачи🔽

from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.pipeline import make_pipeline # Обучающие данные texts = ["Это отличный фильм", "Ужасный опыт", "Мне понравилось", "Очень скучно", "Прекрасная история"] labels = ['positive', 'negative', 'positive', 'negative', 'positive'] # Модель model = make_pipeline(CountVectorizer(), MultinomialNB()) model.fit(texts, labels) # Прогноз print(model.predict(["Фильм был ужасен"])) # ['negative'] print(model.predict(["Обожаю это кино"])) # ['positive']

20 043

➡️ Человек, которого выбрал ИИ Рассказывается, как ИИ научили выбирать сперматозоиды для ЭКО, и один из них уже стал человеком. Не теория, а реальный кейс: без философии, с метриками и видео процедур. Читать...

20 043

Занимаетесь робототехникой или искусственным интеллектом? Тогда вам точно стоит посетить ROS Meetup 2025! 🤖 26 апреля в Москве соберётся всё ROS-сообщество, чтобы обменяться опытом в области робототехники, искусственного интеллекта и практического применения ROS. Вас ждут актуальные доклады от ведущих специалистов, увлекательные дискуссии и выставка роботов. Не упустите возможность завести новые знакомства среди единомышленников. Обязательно добавьте в календарь 26 апреля — будет познавательно и захватывающе!

20 043

🔎 Подборка вакансий для мидлов Middle Data Scientist (лидогенерация) 🟢Python, Airflow, MLflow, Hadoop (Hive, Spark), Oracle (SQL, PL/SQL), Linux, Bash, Git 🟢Уровень дохода не указан | 1–3 года Data Engineer (Middle) 🟢Python (pandas, Airflow), PostgreSQL, MongoDB, ClickHouse, AWS, Yandex Cloud, Kafka, Spark 🟢Уровень дохода не указан | 1–3 года Python Developer (Middle) 🟢Python, Flask, FastAPI, React.js, PostgreSQL, Airflow, Git, Docker, ElasticSearch, Kafka 🟢Уровень дохода не указан | 3–6 лет

20 043

⚙️ Что такое one-hot encoding и зачем он нужен в Data Science? One-hot encoding — это способ представления категориальных признаков в виде бинарных векторов. Он используется для подготовки данных к моделям машинного обучения, которые не могут работать напрямую с текстовыми значениями. ➡️ Пример:

import pandas as pd

df = pd.DataFrame({'цвет': ['красный', 'синий', 'красный', 'зелёный']})

encoded = pd.get_dummies(df['цвет'])
print(encoded)

🗣️ В этом примере get_dummies превращает колонку с названиями цветов в три бинарные колонки — по одному на каждый уникальный цвет. Это позволяет моделям легче обрабатывать категориальные данные.

🖥 Подробнее тут

20 043

А ничего тот факт, что Сбер приглашает тебя на One Day Offer для DS/ML/DE специалистов? 😏 Ты будешь работать над рекомендательной платформой: масштабируемой, способной каждый день удивлять пользователей и предлагать им релевантные рекомендации. Добавляй в свой календарь 26 апреля, регистрируйся по ссылке и готовься пройти отбор в команду мечты за один день!

20 043

⚙️ Под микроскопом: AI Product Hack Статья анализирует результаты AI Product Hack, рассматривая спорное судейство и кейс компании Raft по мониторингу токсичного контента в AI-продуктах. Исследуются риски и последствия неконтролируемого поведения LLM в реальных проектах. Читать...

20 043

🔎 Подборка вакансий для джунов Junior Data Scientist (A/B-testing) 🟢Python, Spark, Airflow, MLFlow, Postgres, Git, DVC, Docker 🟢Уровень дохода не указан | 1–3 года Junior ML Engineer / Data Scientist 🟢Python, SciPy, scikit-learn, LightGBM, CatBoost, Git, Docker, MLflow, Airflow 🟢от 120 000 до 200 000 ₽ | 1–3 года Junior Data Scientist 🟢Python, SQL, pandas, numpy, matplotlib, seaborn, Scikit-learn, PyTorch, XGBoost, CatBoost, TensorFlow, transformers, pymorphy2, NLTK, Gensim, spaCy, regexp 🟢Уровень дохода не указан | 1–3 года

20 043

Как контейнеризация меняет аналитику данных? Docker — не просто модное слово, а инструмент, который упрощает развертывание аналитических решений, повышает их масштабируемость и ускоряет работу с данными. 💥 На открытом вебинаре 24 апреля в 20:00 мск разберём: — Как работает Docker и почему он важен для аналитиков. — Как с его помощью развернуть BI-платформы и ELT-пайплайны. — Какие команды и практики нужно освоить для эффективной работы. Спикер Андрей Поляков — старший разработчик сервисов платежных систем в международной компании. ➡️ Открытый урок проходит в преддверии старта курса «Data Warehouse Analyst». Всем участникам — скидка на обучение. Подробности и регистрация: https://vk.cc/cL07AE Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 043

👩‍💻 Задача: Реализация собственного Score-функционала для оценки модели Напишите свою метрику custom_score, которая будет вычислять "взвешенную точность": за TP даём +2, за TN — +1, FP и FN — 0. Это может быть полезно в задачах, где ложноположительные и ложноотрицательные результаты имеют разный вес Решение задачи🔽

from sklearn.metrics import confusion_matrix def custom_score(y_true, y_pred): tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel() score = tp * 2 + tn * 1 return score / (tp + tn + fp + fn) # нормализуем # Пример использования: y_true = [1, 0, 1, 1, 0, 0, 1] y_pred = [1, 0, 0, 1, 0, 1, 1] print(custom_score(y_true, y_pred)) # Примерный вывод: 0.71

20 043

🤔 Насколько хороши LLM? Статья описывает создание и адаптацию бенчмарка для оценки русскоязычных LLM в российском контексте. Основное внимание уделено подбору вопросов, актуализации содержания и корректировке оценок для соответствия современным общественным реалиям. Читать...