Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Mostrar más📈 Análisis del canal de Telegram Data Science | Machinelearning [ru]
El canal Data Science | Machinelearning [ru] (@devsp) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 20 034 suscriptores, ocupando la posición 6 731 en la categoría Tecnologías y Aplicaciones y el puesto 33 747 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 20 034 suscriptores.
Según los últimos datos del 16 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -78, y en las últimas 24 horas de -7, conservando un alto alcance.
- Estado de verificación: No verificado
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 7.95%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 4.33% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 1 592 visualizaciones. En el primer día suele acumular 868 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 7.
- Intereses temáticos: El contenido se centra en temas clave como llm, nvidia, контекст, openai, архитектура.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 17 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
texts = [
"I love data science!",
"Data science is amazing.",
"Machine learning is a part of data science."
]
bag_of_words = create_bag_of_words(texts)
print(bag_of_words)
# Ожидаемый результат (пример):
# {'love': 1, 'data': 3, 'science': 3, 'amazing': 1, 'machine': 1, 'learning': 1, 'part': 1}
Решение задачи🔽
from collections import defaultdict import string from nltk.corpus import stopwords import nltk # Загружаем стоп-слова (если не загружены, выполнить: nltk.download('stopwords')) nltk.download('stopwords') stop_words = set(stopwords.words('english')) def preprocess_text(text): # Приведение к нижнему регистру и удаление знаков препинания text = text.lower() text = text.translate(str.maketrans('', '', string.punctuation)) return text def create_bag_of_words(texts): bag = defaultdict(int) for text in texts: # Предобработка текста processed_text = preprocess_text(text) # Разделение текста на слова и подсчет частот for word in processed_text.split(): if word not in stop_words: # Игнорируем стоп-слова bag[word] += 1 return dict(bag)
pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1.
Пример:
import pandas as pd
data = pd.DataFrame({
'feature1': [10, 20, 30, 40],
'feature2': [1, 2, 3, 4],
'feature3': ['A', 'B', 'C', 'D'] # Не числовой столбец
})
result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
# feature1 feature2 feature3
# 0 0.0 0.0 A
# 1 0.333 0.333 B
# 2 0.667 0.667 C
# 3 1.0 1.0 D
Решение задачи🔽
import pandas as pd def normalize_dataframe(df): df_normalized = df.copy() for col in df.select_dtypes(include='number').columns: min_val = df[col].min() max_val = df[col].max() df_normalized[col] = (df[col] - min_val) / (max_val - min_val) return df_normalized # Пример использования: data = pd.DataFrame({ 'feature1': [10, 20, 30, 40], 'feature2': [1, 2, 3, 4], 'feature3': ['A', 'B', 'C', 'D'] }) result = normalize_dataframe(data) print(result)
• SQL, Python, Apache Hadoop
• Уровень дохода не указан | от 3 лет
Data Engineer
• SQL, Python, Apache Airflow, Greenplum, Apache Spark
• от 250 000 ₽ | от 2 лет
Senior Data Scientist
• Python
• Уровень дохода не указан | опыт не указан
ML-инженер
• Машинное обучение, Deep Learning, Нейронные сети, Python, TensorFlow, PyTorch, Keras, Linux, Git, Docker
• Уровень дохода не указан | опыт не указан
Разработчик БД (PostgreSQL, прикладные витрины)
• SQL, PostgreSQL, ETL, Apache Airflow, Greenplum
• Уровень дохода не указан | от 3 летfeature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели.
Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting.
➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd
# Загрузка данных
data = load_iris()
X, y = data.data, data.target
# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)
# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')
🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.🖥 Подробнее тут
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
