Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Показати більше📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 021 підписників, посідаючи 6 726 місце в категорії Технології та додатки та 33 725 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 021 підписників.
За останніми даними від 18 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -63, а за останні 24 години на -3, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 8.21%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.21% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 1 645 переглядів. Протягом першої доби публікація в середньому набирає 843 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Завдяки високій частоті оновлень (останні дані отримано 19 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
feature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели.
Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting.
➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd
# Загрузка данных
data = load_iris()
X, y = data.data, data.target
# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)
# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')
🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.🖥 Подробнее тут
statsmodels и визуализируйте результат с помощью matplotlib. Скрипт должен принимать данные в формате CSV и выводить график, на котором будут отображены исходные данные, тренд и сезонные компоненты.
➡️ Пример:
• python app.py analyze timeseries.csv — анализирует временной ряд из файла timeseries.csv, разлагает его на тренд и сезонные компоненты и строит график с визуализацией.
Решение задачи ⬇️
import sys import pandas as pd import matplotlib.pyplot as plt from statsmodels.tsa.seasonal import seasonal_decompose def analyze_timeseries(file_path): # Чтение данных из CSV data = pd.read_csv(file_path, parse_dates=['Date'], index_col='Date') # Проверка, что в данных есть столбец 'Value' для анализа if 'Value' not in data.columns: print("Файл должен содержать столбец 'Value' с числовыми значениями.") sys.exit(1) # Декомпозиция временного ряда decomposition = seasonal_decompose(data['Value'], model='additive', period=12) # Визуализация исходного ряда, тренда, сезонной и остаточной составляющих plt.figure(figsize=(10, 8)) plt.subplot(411) plt.plot(data['Value'], label='Исходные данные') plt.legend(loc='best') plt.subplot(412) plt.plot(decomposition.trend, label='Тренд') plt.legend(loc='best') plt.subplot(413) plt.plot(decomposition.seasonal, label='Сезонность') plt.legend(loc='best') plt.subplot(414) plt.plot(decomposition.resid, label='Остатки') plt.legend(loc='best') plt.tight_layout() plt.show() if __name__ == "__main__": if len(sys.argv) < 2: print("Укажите путь к файлу CSV для анализа.") sys.exit(1) file_path = sys.argv[1] analyze_timeseries(file_path)
python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.
Решение задачи ⬇️
import pandas as pd import sys def clean_and_aggregate(file_path): # Загружаем данные data = pd.read_csv(file_path) # Удаляем строки с пустыми значениями в колонках 'price' и 'quantity' data.dropna(subset=['price', 'quantity'], inplace=True) # Преобразуем колонки в числовой формат, ошибки игнорируем data['price'] = pd.to_numeric(data['price'], errors='coerce') data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce') # Удаляем строки с некорректными значениями data.dropna(subset=['price', 'quantity'], inplace=True) # Агрегируем данные aggregated_data = data.groupby('product_id').agg( total_quantity=('quantity', 'sum'), total_sales=('price', 'sum') ).reset_index() # Сохраняем в новый CSV aggregated_data.to_csv('aggregated_data.csv', index=False) print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.") if __name__ == "__main__": if len(sys.argv) != 2: print("Использование: python app.py <путь к файлу CSV>") sys.exit(1) file_path = sys.argv[1] clean_and_aggregate(file_path)
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()
scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')
Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.
🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.🖥 Подробнее тут
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
