Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 731 Texnologiyalar & Aralashmalar6 732...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 058 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 732-o'rinni va Rossiya mintaqasida 33 731-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 058 obunachiga ega bo‘ldi.

12 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -35 ga, so‘nggi 24 soatda esa -4 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.60% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.48% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 526 marta ko‘riladi; birinchi sutkada odatda 899 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 13 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 058

Obunachilar

-424 soatlar

+497 kunlar

-3530 kunlar

1 526

Post ko'rishlar

~ 89924 soatlar

~ 1 04348 soatlar

7.60%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 056

E-CODE'25 — IT-событие для опытных инженеров Ozon Tech собирает экспертное комьюнити на главную конференцию осени. Два дня докладов, лекции от учёных, нетворк в формате 1х1 и неформальное общение. И, конечно, вечеринки. В лайнапе НТР, Нейромонах Феофан, ILWT и Заточка. Звучит, как лучший 256 день года. И это так и есть. 📅 13–14 сентября 🏠 Москва Loft Hall + онлайн 💻 Регистрация обязательна. Успейте забронировать место — они уже заканчиваются. Зарегистрироваться #реклама 16+ ecode.ozon.tech О рекламодателе

20 056

👩‍💻 Поиск коррелирующих признаков Вам дана матрица признаков (таблица) в виде списка списков. Каждый вложенный список — это объект, каждый столбец — признак. Нужно реализовать функцию highly_correlated_features(data, threshold), которая вернёт список пар индексов признаков, корреляция между которыми по модулю превышает указанный threshold (от 0 до 1, не включительно). Использовать можно только корреляцию Пирсона. Повторы пар и зеркальные дубли учитывать не нужно ((1, 2) и (2, 1) — одно и то же). Цель:

Выявить признаки, которые слишком сильно "повторяют" друг друга и могут вызвать мультиколлинеарность в моделях.

Решение задачи🔽

import numpy as np from itertools import combinations def pearson_corr(x, y): x = np.array(x) y = np.array(y) return np.corrcoef(x, y)[0, 1] def highly_correlated_features(data, threshold=0.9): arr = np.array(data) n_features = arr.shape[1] result = [] for i, j in combinations(range(n_features), 2): corr = pearson_corr(arr[:, i], arr[:, j]) if abs(corr) > threshold: result.append((i, j)) return result # Пример использования X = [ [1, 2, 10], [2, 4, 20], [3, 6, 30], [4, 8, 40], [5, 10, 50] ] print(highly_correlated_features(X, threshold=0.95)) # Ожидаемый результат: [(0, 1), (0, 2), (1, 2)]

20 056

⚙️ Нейросети без градиентов: спектральное моделирование и построение решений Пробую собрать нейросеть без backpropagation — только спектр, только хардкор. Показываю на XOR и друзьях, как активации влияют на частоты и как строить модели в лоб. Будет странно, но интересно. Читать...

20 056

⚙️ Великая иллюзия Copilot Рассказываю, как Copilot в парном программировании может быть опаснее любой нейросети — баги, хаос, StackOverflow-копипасты и моя потерянная вера в здравый смысл. Читать...

20 056

👩‍💻 Вычисление “стабильных” признаков Вам дана матрица признаков — список списков, где каждая строка представляет собой объект, а каждый столбец — отдельный числовой признак. Ваша задача — определить, какие признаки можно считать стабильными.

Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.

Реализуйте функцию find_stable_features(matrix, threshold), которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию. Решение задачи🔽

import numpy as np def find_stable_features(matrix, threshold=0.1): data = np.array(matrix) stds = np.std(data, axis=0) stable_indices = [i for i, std in enumerate(stds) if std < threshold] return stable_indices # Пример входных данных X = [ [1.0, 0.5, 3.2], [1.0, 0.49, 3.1], [1.0, 0.52, 3.0], [1.0, 0.5, 3.3], ] print(find_stable_features(X, threshold=0.05)) # Ожидаемый результат: [0, 1]

20 056

➡️ Что забирает до 90% времени на созвонах и как перестать проводить их впустую Когда митапов больше, чем решений, пора что-то менять. Мы выработали способ делать онлайн-созвоны короче, полезнее и без «а что мы вообще решили?». Делюсь, как именно. Читать...

20 056

❓ Как работает кросс-валидация в ML? Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения. ➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥 Подробнее тут

20 056

⚙️ Отлаживай систему целиком, а не по кускам Баг может прятаться не в отдельной функции, а в том, как модули взаимодействуют между собой. 👉 Совет: проверяй сценарии целиком — от входных данных до финального результата. Иногда проблема не в коде, а в том, как части системы «разговаривают» между собой.

20 056

➡️ Объяснимый ИИ в ML и DL Разбираемся, зачем нужен объяснимый ИИ, как подступиться к интерпретации моделей и что с этим делать на практике — от EDA до XAI на примере. Всё на русском, без магии. Читать...

20 056

🗺 Решение задачи коммивояжера (TSP) в реальных приложениях Покажу, как задача коммивояжёра перекочевала из учебников в жизнь курьеров, таксистов и логистов, и какие алгоритмы реально помогают пройти маршрут быстро и без лишних кругов. Читать...

20 056

⚙️ Что такое Feature Scaling в ML и зачем он нужен? Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно. Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут

20 056

❌ Защитим вдов и сирот от хищных ИИ-стартаперов Расскажу про свою AI-задачку по SystemVerilog для EDA, на которой одни тулы падают, а другие халтурят. Это способ фильтровать стартаперов-болтунов и экономить деньги VC, а значит — и пенсионеров. Читать...

20 056

🧠 Компании уходят от пилотов к продуктиву В беседе Роман Стятюгин пояснил: VK Predict — это команда более ста специалистов. Решения выпускают в двух форматах: модели по API и продукты с интерфейсом для бизнес-пользователей, включая дашборды, тепловые карты и чат-боты на LLM. Среди сервисов: «Рейтинг» для прогнозирования признаков аудитории, «Телеком Радар», которым пользуются три из четырех крупнейших операторов, «ГеоКурсор» с гравитационными моделями, «Девелопер» для квартирографии, платформа Predict AutoML и AI Persona для персонализации коммуникаций. Читать интервью

20 056

🔝 Как мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часам Покажу, как мы в Яндекс Погоде боремся с самой ускользающей частью прогноза — осадками. Расскажу, почему всё сложно, как меняем модели и почему теперь гроза не застанет врасплох. Читать...

20 056

Неформально про реком Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы. 27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики. В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели. Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер. 📍 Москва, только офлайн 📅 27 августа, сбор с 18:00 🎟 Вход по регистрации

20 056

🔝 Топ-5 бесплатных AI-сервисов для генерации 3D-моделей Я протестил 5 AI-сервисов для генерации 3D-моделей — без навыков и софта. Закинул туда героев детства и теперь знаю: быть 3D-дизайнером — не боль, а фан. Модели вышли… ну, сами увидите. Читать...

20 056

🔥 Самые интересные статьи за последние дни: • Пишем Wake-on-LAN сервис на ESP8266 при помощи ChatGPT • Необычные вкусы покупателей: что такое товарные пары и как их исследовать • Сгенерированный ИИ код сделает вас плохим программистом • Словари в Python: обзор и как пользоваться • Поиск жулика: Как понять, что перед вами ChatGPT 4?

20 056

Дима Билан на Yandex Ecom Open Air 8 августа Море инсайтов для бизнеса, музыкальный open-air, лекции и нетворкинг. Участие бесплатно! Зарегистрироваться #реклама 18+ ecomfest.ru О рекламодателе

20 056

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 056

📉 RL-агент для алгоритмической торговли на Binance Futures: архитектура, бэктест, результаты В статье собираю торгового агента на Dueling Double DQN с приоритетным реплеем. Тестирую на Binance Futures с учётом комиссий и проскальзывания, чтобы PnL выглядел как в реальной торговле. Читать...