Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Больше📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 058 подписчиков, занимая 6 732 место в категории Технологии и приложения и 33 731 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 058 подписчиков.
Согласно последним данным от 12 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -35, а за последние 24 часа — -4, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.60%. В первые 24 часа после публикации контент обычно набирает 4.48% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 1 526 просмотров. В течение первых суток публикация набирает 899 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Благодаря высокой частоте обновлений (последние данные получены 13 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
Первая умеет превращать текст в аудиозапись длиной в минуту за меньше чем секунду на одном GPU — то есть говорить быстрее, чем успеваешь моргнуть. Вторая — MAI-1-preview — даёт представление о будущих возможностях Copilot и способна давать полезные ответы на повседневные вопросы, обучаясь на огромном массиве данных.MAI-Voice-1 уже применяется внутри Microsoft: она ведёт рубрику Copilot Daily, зачитывая главные новости дня, а также помогает создавать обсуждения в формате подкастов. Любители тестировать новинки могут попробовать модель в Copilot Labs, где ИИ произнесёт любой введённый вами текст. MAI-1-preview, в свою очередь, обучалась на 15 000 графических процессоров Nvidia H100 и сейчас проходит публичное тестирование на платформе LMArena, где её можно сравнить с другими ИИ. Глава Microsoft AI Мустафа Сулейман подчёркивает: внутренние модели компании не ориентированы только на корпоративные задачи. «Мы создаём ИИ для потребителя, чтобы он реально был полезен в повседневной жизни», — говорит Сулейман. Компания планирует внедрять MAI-1-preview в Copilot, расширяя возможности помощника, который до сих пор опирался на модели OpenAI. Microsoft AI явно нацелена на будущее: они видят потенциал в создании специализированных моделей под разные задачи и сценарии, а не одной универсальной системы. Мустафа Сулейман при этом напоминает о рисках «кажущегося сознательного ИИ» (Seemingly Conscious AI), когда люди начинают воспринимать нейросети как живых существ. По его словам, подобные иллюзии могут отвлекать от реальных проблем и создавать лишние споры о правах и гражданстве ИИ 😁 Data Science
👍 — Эволюция, ничего сверхъестественного 🤔 — Сложно заметить разницуData Science
python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.
Решение задачи ⬇️
import pandas as pd import sys def clean_and_aggregate(file_path): # Загружаем данные data = pd.read_csv(file_path) # Удаляем строки с пустыми значениями в колонках 'price' и 'quantity' data.dropna(subset=['price', 'quantity'], inplace=True) # Преобразуем колонки в числовой формат, ошибки игнорируем data['price'] = pd.to_numeric(data['price'], errors='coerce') data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce') # Удаляем строки с некорректными значениями data.dropna(subset=['price', 'quantity'], inplace=True) # Агрегируем данные aggregated_data = data.groupby('product_id').agg( total_quantity=('quantity', 'sum'), total_sales=('price', 'sum') ).reset_index() # Сохраняем в новый CSV aggregated_data.to_csv('aggregated_data.csv', index=False) print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.") if __name__ == "__main__": if len(sys.argv) != 2: print("Использование: python app.py <путь к файлу CSV>") sys.exit(1) file_path = sys.argv[1] clean_and_aggregate(file_path)
StandardScaler из scikit-learn и зачем он нужен?
StandardScaler — это инструмент из библиотеки scikit-learn, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия).
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[10, 200], [15, 300], [14, 250]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
➡️ После трансформации признаки будут нормализованы, что помогает улучшить сходимость и стабильность модели.
🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей🖥 Подробнее тут
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
