Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Mostrar más📈 Análisis del canal de Telegram Data Science | Machinelearning [ru]
El canal Data Science | Machinelearning [ru] (@devsp) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 20 047 suscriptores, ocupando la posición 6 729 en la categoría Tecnologías y Aplicaciones y el puesto 33 727 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 20 047 suscriptores.
Según los últimos datos del 13 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -68, y en las últimas 24 horas de -19, conservando un alto alcance.
- Estado de verificación: No verificado
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 7.54%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 4.58% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 1 513 visualizaciones. En el primer día suele acumular 919 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 7.
- Intereses temáticos: El contenido se centra en temas clave como llm, nvidia, контекст, openai, архитектура.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 14 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.Реализуйте функцию
find_stable_features(matrix, threshold), которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию.
Решение задачи🔽
import numpy as np def find_stable_features(matrix, threshold=0.1): data = np.array(matrix) stds = np.std(data, axis=0) stable_indices = [i for i, std in enumerate(stds) if std < threshold] return stable_indices # Пример входных данных X = [ [1.0, 0.5, 3.2], [1.0, 0.49, 3.1], [1.0, 0.52, 3.0], [1.0, 0.5, 3.3], ] print(find_stable_features(X, threshold=0.05)) # Ожидаемый результат: [0, 1]
StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1.
Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans.
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[10, 200],
[20, 300],
[30, 400]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.🖥 Подробнее тут
StandardScaler из scikit-learn и зачем он нужен?
StandardScaler — это инструмент из библиотеки scikit-learn, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия).
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[10, 200], [15, 300], [14, 250]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
➡️ После трансформации признаки будут нормализованы, что помогает улучшить сходимость и стабильность модели.
🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей🖥 Подробнее тут
k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[1, 100], [2, 300], [3, 500]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут
"user_id", "action", и "timestamp". Нужно реализовать функцию, которая определит, является ли пользователь "уникальным".
Уникальный пользователь — это тот, кто:
• совершал более 3 действий, • все действия происходили в разные дни, • не совершал одинаковые действия дважды.Верните список
user_id, соответствующих этому критерию.
Решение задачи🔽
from collections import defaultdict from datetime import datetime def find_unique_users(logs): activity = defaultdict(lambda: {"actions": set(), "days": set(), "count": 0}) for log in logs: user = log["user_id"] action = log["action"] date = datetime.fromisoformat(log["timestamp"]).date() activity[user]["actions"].add(action) activity[user]["days"].add(date) activity[user]["count"] += 1 result = [] for user, data in activity.items(): if ( data["count"] > 3 and len(data["days"]) == data["count"] and len(data["actions"]) == data["count"] ): result.append(user) return result # Пример использования logs = [ {"user_id": 1, "action": "login", "timestamp": "2023-05-01T10:00:00"}, {"user_id": 1, "action": "view", "timestamp": "2023-05-02T11:00:00"}, {"user_id": 1, "action": "click", "timestamp": "2023-05-03T12:00:00"}, {"user_id": 1, "action": "logout", "timestamp": "2023-05-04T13:00:00"}, {"user_id": 2, "action": "login", "timestamp": "2023-05-01T10:00:00"}, {"user_id": 2, "action": "login", "timestamp": "2023-05-01T11:00:00"}, {"user_id": 2, "action": "click", "timestamp": "2023-05-01T12:00:00"}, ] print(find_unique_users(logs)) # Ожидаемый результат: [1]
train_test_split() из библиотеки sklearn разбивает данные на обучающую и тестовую выборки.
Это важно, чтобы проверить, как хорошо модель работает на невидимых данных.
➡️ Пример:
from sklearn.model_selection import train_test_split
X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
print("Обучение:", X_train)
print("Тест:", X_test)
🗣️ Почему важно: • Модель не должна учиться на тех же данных, на которых её оценивают • test_size указывает, какой процент данных пойдёт на тест • random_state нужен для воспроизводимости Это один из самых базовых, но обязательных шагов в любом ML-проекте🖥 Подробнее тут
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
