Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Больше📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 045 подписчиков, занимая 6 738 место в категории Технологии и приложения и 33 739 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 045 подписчиков.
Согласно последним данным от 14 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -87, а за последние 24 часа — -13, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.71%. В первые 24 часа после публикации контент обычно набирает 4.62% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 1 546 просмотров. В течение первых суток публикация набирает 926 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Благодаря высокой частоте обновлений (последние данные получены 15 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# Пример: диагностические данные пациента
df = pd.DataFrame({
'age': [25, 40, 60, 35],
'blood_pressure': [120, 130, 150, 110],
'has_disease': [0, 1, 1, 0],
'diagnosis_code': [0, 1, 1, 0] # случайно совпадает с целевой переменной
})
X = df.drop('has_disease', axis=1)
y = df['has_disease']
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))
🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakage
python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.
Решение задачи ⬇️
import pandas as pd import sys def clean_and_aggregate(file_path): # Загружаем данные data = pd.read_csv(file_path) # Удаляем строки с пустыми значениями в колонках 'price' и 'quantity' data.dropna(subset=['price', 'quantity'], inplace=True) # Преобразуем колонки в числовой формат, ошибки игнорируем data['price'] = pd.to_numeric(data['price'], errors='coerce') data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce') # Удаляем строки с некорректными значениями data.dropna(subset=['price', 'quantity'], inplace=True) # Агрегируем данные aggregated_data = data.groupby('product_id').agg( total_quantity=('quantity', 'sum'), total_sales=('price', 'sum') ).reset_index() # Сохраняем в новый CSV aggregated_data.to_csv('aggregated_data.csv', index=False) print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.") if __name__ == "__main__": if len(sys.argv) != 2: print("Использование: python app.py <путь к файлу CSV>") sys.exit(1) file_path = sys.argv[1] clean_and_aggregate(file_path)
DEVSP;
→ Есть билет для студентов и преподавателей вузов — в два раза дешевле персонального;
→ Можно попросить руководство приобрести корпоративный билет.
Бонус: в соседних залах пройдет Python-конференция PiterPy. Участники IML смогут послушать доклады PiterPy бесплатно.
За подробностями и билетамиsklearn и алгоритм Naive Bayes
Решение задачи🔽
from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.pipeline import make_pipeline # Обучающие данные texts = ["Это отличный фильм", "Ужасный опыт", "Мне понравилось", "Очень скучно", "Прекрасная история"] labels = ['positive', 'negative', 'positive', 'negative', 'positive'] # Модель model = make_pipeline(CountVectorizer(), MultinomialNB()) model.fit(texts, labels) # Прогноз print(model.predict(["Фильм был ужасен"])) # ['negative'] print(model.predict(["Обожаю это кино"])) # ['positive']
import pandas as pd
df = pd.DataFrame({'цвет': ['красный', 'синий', 'красный', 'зелёный']})
encoded = pd.get_dummies(df['цвет'])
print(encoded)
🗣️ В этом примере get_dummies превращает колонку с названиями цветов в три бинарные колонки — по одному на каждый уникальный цвет. Это позволяет моделям легче обрабатывать категориальные данные.🖥 Подробнее тут
custom_score, которая будет вычислять "взвешенную точность": за TP даём +2, за TN — +1, FP и FN — 0. Это может быть полезно в задачах, где ложноположительные и ложноотрицательные результаты имеют разный вес
Решение задачи🔽
from sklearn.metrics import confusion_matrix def custom_score(y_true, y_pred): tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel() score = tp * 2 + tn * 1 return score / (tp + tn + fp + fn) # нормализуем # Пример использования: y_true = [1, 0, 1, 1, 0, 0, 1] y_pred = [1, 0, 0, 1, 0, 1, 1] print(custom_score(y_true, y_pred)) # Примерный вывод: 0.71
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
