Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 731 Technologies & Applications6 732...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 058 subscribers, ranking 6 732 in the Technologies & Applications category and 33 731 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 058 subscribers.

According to the latest data from 12 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -35 over the last 30 days and by -4 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.60%. Within the first 24 hours after publication, content typically collects 4.48% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 526 views. Within the first day, a publication typically gains 899 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 13 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 058

Subscribers

-424 hours

+497 days

-3530 days

1 526

Post views

~ 89924 hours

~ 1 04348 hours

7.60%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 056

E-CODE'25 — IT-событие для опытных инженеров Ozon Tech собирает экспертное комьюнити на главную конференцию осени. Два дня докладов, лекции от учёных, нетворк в формате 1х1 и неформальное общение. И, конечно, вечеринки. В лайнапе НТР, Нейромонах Феофан, ILWT и Заточка. Звучит, как лучший 256 день года. И это так и есть. 📅 13–14 сентября 🏠 Москва Loft Hall + онлайн 💻 Регистрация обязательна. Успейте забронировать место — они уже заканчиваются. Зарегистрироваться #реклама 16+ ecode.ozon.tech О рекламодателе

20 056

👩‍💻 Поиск коррелирующих признаков Вам дана матрица признаков (таблица) в виде списка списков. Каждый вложенный список — это объект, каждый столбец — признак. Нужно реализовать функцию highly_correlated_features(data, threshold), которая вернёт список пар индексов признаков, корреляция между которыми по модулю превышает указанный threshold (от 0 до 1, не включительно). Использовать можно только корреляцию Пирсона. Повторы пар и зеркальные дубли учитывать не нужно ((1, 2) и (2, 1) — одно и то же). Цель:

Выявить признаки, которые слишком сильно "повторяют" друг друга и могут вызвать мультиколлинеарность в моделях.

Решение задачи🔽

import numpy as np from itertools import combinations def pearson_corr(x, y): x = np.array(x) y = np.array(y) return np.corrcoef(x, y)[0, 1] def highly_correlated_features(data, threshold=0.9): arr = np.array(data) n_features = arr.shape[1] result = [] for i, j in combinations(range(n_features), 2): corr = pearson_corr(arr[:, i], arr[:, j]) if abs(corr) > threshold: result.append((i, j)) return result # Пример использования X = [ [1, 2, 10], [2, 4, 20], [3, 6, 30], [4, 8, 40], [5, 10, 50] ] print(highly_correlated_features(X, threshold=0.95)) # Ожидаемый результат: [(0, 1), (0, 2), (1, 2)]

20 056

⚙️ Нейросети без градиентов: спектральное моделирование и построение решений Пробую собрать нейросеть без backpropagation — только спектр, только хардкор. Показываю на XOR и друзьях, как активации влияют на частоты и как строить модели в лоб. Будет странно, но интересно. Читать...

20 056

⚙️ Великая иллюзия Copilot Рассказываю, как Copilot в парном программировании может быть опаснее любой нейросети — баги, хаос, StackOverflow-копипасты и моя потерянная вера в здравый смысл. Читать...

20 056

👩‍💻 Вычисление “стабильных” признаков Вам дана матрица признаков — список списков, где каждая строка представляет собой объект, а каждый столбец — отдельный числовой признак. Ваша задача — определить, какие признаки можно считать стабильными.

Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.

Реализуйте функцию find_stable_features(matrix, threshold), которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию. Решение задачи🔽

import numpy as np def find_stable_features(matrix, threshold=0.1): data = np.array(matrix) stds = np.std(data, axis=0) stable_indices = [i for i, std in enumerate(stds) if std < threshold] return stable_indices # Пример входных данных X = [ [1.0, 0.5, 3.2], [1.0, 0.49, 3.1], [1.0, 0.52, 3.0], [1.0, 0.5, 3.3], ] print(find_stable_features(X, threshold=0.05)) # Ожидаемый результат: [0, 1]

20 056

➡️ Что забирает до 90% времени на созвонах и как перестать проводить их впустую Когда митапов больше, чем решений, пора что-то менять. Мы выработали способ делать онлайн-созвоны короче, полезнее и без «а что мы вообще решили?». Делюсь, как именно. Читать...

20 056

❓ Как работает кросс-валидация в ML? Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения. ➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥 Подробнее тут

20 056

⚙️ Отлаживай систему целиком, а не по кускам Баг может прятаться не в отдельной функции, а в том, как модули взаимодействуют между собой. 👉 Совет: проверяй сценарии целиком — от входных данных до финального результата. Иногда проблема не в коде, а в том, как части системы «разговаривают» между собой.

20 056

➡️ Объяснимый ИИ в ML и DL Разбираемся, зачем нужен объяснимый ИИ, как подступиться к интерпретации моделей и что с этим делать на практике — от EDA до XAI на примере. Всё на русском, без магии. Читать...

20 056

🗺 Решение задачи коммивояжера (TSP) в реальных приложениях Покажу, как задача коммивояжёра перекочевала из учебников в жизнь курьеров, таксистов и логистов, и какие алгоритмы реально помогают пройти маршрут быстро и без лишних кругов. Читать...

20 056

⚙️ Что такое Feature Scaling в ML и зачем он нужен? Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно. Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут

20 056

❌ Защитим вдов и сирот от хищных ИИ-стартаперов Расскажу про свою AI-задачку по SystemVerilog для EDA, на которой одни тулы падают, а другие халтурят. Это способ фильтровать стартаперов-болтунов и экономить деньги VC, а значит — и пенсионеров. Читать...

20 056

🧠 Компании уходят от пилотов к продуктиву В беседе Роман Стятюгин пояснил: VK Predict — это команда более ста специалистов. Решения выпускают в двух форматах: модели по API и продукты с интерфейсом для бизнес-пользователей, включая дашборды, тепловые карты и чат-боты на LLM. Среди сервисов: «Рейтинг» для прогнозирования признаков аудитории, «Телеком Радар», которым пользуются три из четырех крупнейших операторов, «ГеоКурсор» с гравитационными моделями, «Девелопер» для квартирографии, платформа Predict AutoML и AI Persona для персонализации коммуникаций. Читать интервью

20 056

🔝 Как мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часам Покажу, как мы в Яндекс Погоде боремся с самой ускользающей частью прогноза — осадками. Расскажу, почему всё сложно, как меняем модели и почему теперь гроза не застанет врасплох. Читать...

20 056

Неформально про реком Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы. 27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики. В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели. Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер. 📍 Москва, только офлайн 📅 27 августа, сбор с 18:00 🎟 Вход по регистрации

20 056

🔝 Топ-5 бесплатных AI-сервисов для генерации 3D-моделей Я протестил 5 AI-сервисов для генерации 3D-моделей — без навыков и софта. Закинул туда героев детства и теперь знаю: быть 3D-дизайнером — не боль, а фан. Модели вышли… ну, сами увидите. Читать...

20 056

🔥 Самые интересные статьи за последние дни: • Пишем Wake-on-LAN сервис на ESP8266 при помощи ChatGPT • Необычные вкусы покупателей: что такое товарные пары и как их исследовать • Сгенерированный ИИ код сделает вас плохим программистом • Словари в Python: обзор и как пользоваться • Поиск жулика: Как понять, что перед вами ChatGPT 4?

20 056

Дима Билан на Yandex Ecom Open Air 8 августа Море инсайтов для бизнеса, музыкальный open-air, лекции и нетворкинг. Участие бесплатно! Зарегистрироваться #реклама 18+ ecomfest.ru О рекламодателе

20 056

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 056

📉 RL-агент для алгоритмической торговли на Binance Futures: архитектура, бэктест, результаты В статье собираю торгового агента на Dueling Double DQN с приоритетным реплеем. Тестирую на Binance Futures с учётом комиссий и проскальзывания, чтобы PnL выглядел как в реальной торговле. Читать...