Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Показати більше📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 036 підписників, посідаючи 6 734 місце в категорії Технології та додатки та 33 730 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 036 підписників.
За останніми даними від 15 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -82, а за останні 24 години на -1, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 7.88%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.47% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 1 580 переглядів. Протягом першої доби публікація в середньому набирає 896 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Завдяки високій частоті оновлень (останні дані отримано 16 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
texts = [
"I love data science!",
"Data science is amazing.",
"Machine learning is a part of data science."
]
bag_of_words = create_bag_of_words(texts)
print(bag_of_words)
# Ожидаемый результат (пример):
# {'love': 1, 'data': 3, 'science': 3, 'amazing': 1, 'machine': 1, 'learning': 1, 'part': 1}
Решение задачи🔽
from collections import defaultdict import string from nltk.corpus import stopwords import nltk # Загружаем стоп-слова (если не загружены, выполнить: nltk.download('stopwords')) nltk.download('stopwords') stop_words = set(stopwords.words('english')) def preprocess_text(text): # Приведение к нижнему регистру и удаление знаков препинания text = text.lower() text = text.translate(str.maketrans('', '', string.punctuation)) return text def create_bag_of_words(texts): bag = defaultdict(int) for text in texts: # Предобработка текста processed_text = preprocess_text(text) # Разделение текста на слова и подсчет частот for word in processed_text.split(): if word not in stop_words: # Игнорируем стоп-слова bag[word] += 1 return dict(bag)
pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1.
Пример:
import pandas as pd
data = pd.DataFrame({
'feature1': [10, 20, 30, 40],
'feature2': [1, 2, 3, 4],
'feature3': ['A', 'B', 'C', 'D'] # Не числовой столбец
})
result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
# feature1 feature2 feature3
# 0 0.0 0.0 A
# 1 0.333 0.333 B
# 2 0.667 0.667 C
# 3 1.0 1.0 D
Решение задачи🔽
import pandas as pd def normalize_dataframe(df): df_normalized = df.copy() for col in df.select_dtypes(include='number').columns: min_val = df[col].min() max_val = df[col].max() df_normalized[col] = (df[col] - min_val) / (max_val - min_val) return df_normalized # Пример использования: data = pd.DataFrame({ 'feature1': [10, 20, 30, 40], 'feature2': [1, 2, 3, 4], 'feature3': ['A', 'B', 'C', 'D'] }) result = normalize_dataframe(data) print(result)
• SQL, Python, Apache Hadoop
• Уровень дохода не указан | от 3 лет
Data Engineer
• SQL, Python, Apache Airflow, Greenplum, Apache Spark
• от 250 000 ₽ | от 2 лет
Senior Data Scientist
• Python
• Уровень дохода не указан | опыт не указан
ML-инженер
• Машинное обучение, Deep Learning, Нейронные сети, Python, TensorFlow, PyTorch, Keras, Linux, Git, Docker
• Уровень дохода не указан | опыт не указан
Разработчик БД (PostgreSQL, прикладные витрины)
• SQL, PostgreSQL, ETL, Apache Airflow, Greenplum
• Уровень дохода не указан | от 3 летfeature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели.
Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting.
➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd
# Загрузка данных
data = load_iris()
X, y = data.data, data.target
# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)
# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')
🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.🖥 Подробнее тут
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
