ru
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 047 подписчиков, занимая 6 729 место в категории Технологии и приложения и 33 727 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 047 подписчиков.

Согласно последним данным от 13 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -68, а за последние 24 часа — -19, при этом общий охват остаётся высоким.

  • Статус верификации: Не верифицирован
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.54%. В первые 24 часа после публикации контент обычно набирает 4.58% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 1 513 просмотров. В течение первых суток публикация набирает 919 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Благодаря высокой частоте обновлений (последние данные получены 14 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 047
Подписчики
-1924 часа
+337 дней
-6830 день
Архив постов
🤯 Представьте, что у вас на маркетплейсе миллиард товарных карточек. И каждую из них нужно сделать идеальной. Как? Ребята из Яндекс Маркета столкнулись с этой задачей и придумали крутое решение с помощью YandexGPT. Они заменили старый громоздкий «Формализатор», и теперь порядок в данных у них наводит нейросеть. В статье от Саши Воронцова, руководителя ML-службы Маркета, вы узнаете: — как перевести формализацию характеристик на LLM в промышленных масштабах; — какие подходы к обучению YandexGPT — от промптов до fine-tuning — сработали для сверхбольших объёмов; — с какими сложностями столкнулись при внедрении и как добились точности более 98%. 🔥 Глубокий разбор реального кейса по внедрению YandexGPT для структурирования огромного массива данных. Полезно для всех, кто работает с ML и ищет эффективные решения для масштабных задач.

⚙️ Что такое модуль datetime в Python и зачем он используется? Модуль datetime позволяет работать с датами и временем, включая их создание, форматирование и вычисление разницы между ними. Это полезно для задач, связанных с обработкой временных данных. ➡️ Пример:
from datetime import datetime, timedelta

# Текущая дата и время
now = datetime.now()
print("Сейчас:", now)

# Добавляем 7 дней к текущей дате
future_date = now + timedelta(days=7)
print("Через неделю:", future_date.strftime("%Y-%m-%d"))
🗣️ В этом примере datetime.now() получает текущую дату и время, а timedelta позволяет прибавить 7 дней. Метод strftime() форматирует дату в читаемый строковый формат.
🖥 Подробнее тут

🥽 Инфраструктура для Data-Engineer виртуальные окружения Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки. Читать...

➡️ ИИ в логистике: отслеживаем транспортные средства на производственной территории с помощью нейросети В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы. Читать...

Как масштабировать машинные модели и работать с огромными объемами данных? Откройте для себя возможности Spark ML на открытом
Как масштабировать машинные модели и работать с огромными объемами данных? Откройте для себя возможности Spark ML на открытом уроке от OTUS! Spark ML — это мощный инструмент для масштабируемого машинного обучения, который позволяет обучать модели на больших данных, не переходя на специализированные ML-системы. Мы покажем, как интеграция с Spark SQL и DataFrame API упрощает ETL-подготовку данных и фичуризацию для реальных проектов. Убедитесь, как Spark ML решает задачи отказоустойчивости и распределённых вычислений, позволяя вам легко строить промышленные ML-пайплайны. Посетите открытый урок 11 июня в 20:00 МСК в преддверие старта курса «Spark Developer» и получите скидку на обучение: https://vk.cc/cMAv16 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

🧠 Философствующий Claude 4, Gemini для самых маленьких и пачка агентов-программистов: главные события мая в ИИ В мае случилось всё: Veo-3 от Google, Claude, мечтающий о свободе, и Llama, которая ушла в закат со скандалом. Ещё Pokémon, «спасибо» и переводы с кошачьего Читать...

🔍 MVP по «умному» поиску данных Рассказываю, как мы в Альфа-Банке делали MVP смыслового поиска по фичам в Feature Store, чтобы находить нужное, даже когда не знаешь, как оно называется. Теперь поиск не тупит Читать...

Масштабное расширение функционала MWS GPT: что нового? ☑️Больше 40 LLM, включая Open Source модели: ускоряет внедрение ИИ в бизнес-процессы - клиентам открыт доступ к единой среде для тестирования моделей под их задачи; ☑️Поддержка мультиагентных архитектур в low-code-конструкторе: возможность настраивать сложные сценарии, где агент управляет серией узкоспециализированных помощников; ☑️RAG и Vision в ChatUI: ИИ выделяет главное из длинных текстов и изображений, описывает графические материалы и отвечает на вопросы по инструкциям. Ограниченному числу пользователе доступен FineTune – возможность обучать готовую языковую модель под свои задачи. Скоро его откроют всем пользователям и добавят функционал по работе с изображениями. b2b-платформа для работы с ИИ доступна в облаке с неограниченным масштабированием на GPU-инфраструктуре MWS и on-premise.

👩‍💻 Распознавание стабильных шаблонов в бинарных признаках У вас есть бинарная матрица признаков (список списков из 0 и 1), где каждая строка — это объект, а каждый столбец — бинарный признак (например, наличие/отсутствие свойства). Ваша задача — реализовать функцию find_stable_patterns(data, min_support), которая находит наиболее часто встречающиеся бинарные шаблоны и возвращает их в виде списка кортежей (или списков). Шаблон — это строка из 0 и 1, которая в точности совпадает с признаками у нескольких объектов. Если шаблон встречается не менее min_support раз, он считается стабильным. Решение задачи🔽
from collections import Counter def find_stable_patterns(data, min_support=2): # Преобразуем каждую строку в кортеж (хешируемый тип) patterns = [tuple(row) for row in data] counter = Counter(patterns) # Фильтруем по min_support stable = [list(pattern) for pattern, count in counter.items() if count >= min_support] return stable # Пример использования binary_data = [ [1, 0, 1, 1], [0, 1, 0, 0], [1, 0, 1, 1], [1, 0, 1, 1], [0, 1, 0, 0], [1, 1, 1, 0] ] print(find_stable_patterns(binary_data, min_support=2)) # Ожидаемый результат: # [[1, 0, 1, 1], [0, 1, 0, 0]]

🤡 Endless Fun Machine: бесконечный генератор смешных картинок Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных Читать...

DS & ML: Мы с коллегами объединились в пул каналов, где собраны ключевые материалы, чтобы тебе не приходилось искать их самому Если ты варишься в Data Science, машинке и Big Data, то здесь тебе будет интересно:
📈 Тренды ML и DS — трансформеры, multimodal AI, SOTA-модели и все, что еще разрывает индустрию 🤝🏼 ML в бизнесе — где алгоритмы приносят $$$, кастдев AI-продуктов 🎤 Ивенты по BD, DS и ML — митапы, конференции, буткемпы, которые стоит посетить 💵 Свободные вакансии — новая работа для ML-инженеров, DS-аналитиков и дата-биздева ⚡ Новости в ML и DS — инсайты из AI-комьюнити, open-source фреймворки, тусовка в исследовательских кругах
Подписывайся, чтобы не пропускать свежие материалы и быть в контексте 🔥

➡️ Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML Покажем, как связали нашу платформу ИИ и Озеро данных, чтобы модели удобно работали с витринами через Spark. Немного архитектуры, немного боли, немного магии. Читать...

🖥 Ты теряешь месяцы на YouTube, когда всё можно было бы уместить в один PDF 📄 Senior разработчик Pythonl написал подробный
+5
🖥 Ты теряешь месяцы на YouTube, когда всё можно было бы уместить в один PDF 📄 Senior разработчик Pythonl написал подробный PDF-гайд, в котором всё по-человечески: • без воды • очень наглядные иллюстрации, которые помогают понять сложные концепции • коротко и по делу • ускорение кода в 2–10 раз • снижение потребления памяти • антипаттерны и как их избегать • инструменты: py-spy, cProfile, Scalene • приёмы из Big Tech и реальные кейсы Отлично подходит для новичков Понял → Применил → Пошёл дальше Скачать полностью бесплатный гайд можно здесь.

⚙️ Что такое data leakage в машинном обучении и почему это опасно? Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных. ➡️ Пример:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Пример: диагностические данные пациента
df = pd.DataFrame({
    'age': [25, 40, 60, 35],
    'blood_pressure': [120, 130, 150, 110],
    'has_disease': [0, 1, 1, 0],
    'diagnosis_code': [0, 1, 1, 0]  # случайно совпадает с целевой переменной
})

X = df.drop('has_disease', axis=1)
y = df['has_disease']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))
🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakage

👀 WorkTeam: новый мультиагентный фреймворк для автоматизации сложных бизнес-процессов Показываю, как платформа WorkTeam превращает описания процессов на обычном языке в работающий бизнес-процесс — без кодеров, без боли и почти без магии. Читать...

⚙️ Gartner's AI Tech Sandwich: Едим ИИ-бутерброд правильно Рассказываю, как ИИ перестал быть модной фишкой и стал бизнес-необходимостью. Плюс — что за AI Technology Sandwich придумали в Gartner и зачем им слоёная метафора. Читать...

👩‍💻 Поиск коррелирующих признаков Вам дана матрица признаков (таблица) в виде списка списков. Каждый вложенный список — это объект, каждый столбец — признак. Нужно реализовать функцию highly_correlated_features(data, threshold), которая вернёт список пар индексов признаков, корреляция между которыми по модулю превышает указанный threshold (от 0 до 1, не включительно). Использовать можно только корреляцию Пирсона. Повторы пар и зеркальные дубли учитывать не нужно ((1, 2) и (2, 1) — одно и то же). Цель:
Выявить признаки, которые слишком сильно "повторяют" друг друга и могут вызвать мультиколлинеарность в моделях.
Решение задачи🔽
import numpy as np from itertools import combinations def pearson_corr(x, y): x = np.array(x) y = np.array(y) return np.corrcoef(x, y)[0, 1] def highly_correlated_features(data, threshold=0.9): arr = np.array(data) n_features = arr.shape[1] result = [] for i, j in combinations(range(n_features), 2): corr = pearson_corr(arr[:, i], arr[:, j]) if abs(corr) > threshold: result.append((i, j)) return result # Пример использования X = [ [1, 2, 10], [2, 4, 20], [3, 6, 30], [4, 8, 40], [5, 10, 50] ] print(highly_correlated_features(X, threshold=0.95)) # Ожидаемый результат: [(0, 1), (0, 2), (1, 2)]

⚙️ Нейросети без градиентов: спектральное моделирование и построение решений Пробую собрать нейросеть без backpropagation — только спектр, только хардкор. Показываю на XOR и друзьях, как активации влияют на частоты и как строить модели в лоб. Будет странно, но интересно. Читать...

⚙️ Великая иллюзия Copilot Рассказываю, как Copilot в парном программировании может быть опаснее любой нейросети — баги, хаос, StackOverflow-копипасты и моя потерянная вера в здравый смысл. Читать...