Data Science | Machinelearning [ru]

الذهاب إلى القناة على Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

إظهار المزيد

الشبكة:Frontender's notes [ru]روسيا33 727 التكنولوجيات والتطبيقات6 729...

📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]

تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 047 مشتركاً، محتلاً المرتبة 6 729 في فئة التكنولوجيات والتطبيقات والمرتبة 33 727 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 047 مشتركاً.

بحسب آخر البيانات بتاريخ 13 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -68، وفي آخر 24 ساعة بمقدار -19، مع بقاء الوصول العام مرتفعاً.

حالة التحقق: غير موثّقة
معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.54‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.58‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
وصول المنشورات: يحصل كل منشور على متوسط 1 513 مشاهدة. وخلال اليوم الأول يجمع عادةً 919 مشاهدة.
التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 7.
الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 14 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

20 047

المشتركون

-1924 ساعات

+337 أيام

-6830 أيام

1 513

عرض المشاهدات

~ 91924 ساعات

~ 1 10748 ساعات

7.54%

معدل المشاركة

~ 1

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

20 043

🤯 Представьте, что у вас на маркетплейсе миллиард товарных карточек. И каждую из них нужно сделать идеальной. Как? Ребята из Яндекс Маркета столкнулись с этой задачей и придумали крутое решение с помощью YandexGPT. Они заменили старый громоздкий «Формализатор», и теперь порядок в данных у них наводит нейросеть. В статье от Саши Воронцова, руководителя ML-службы Маркета, вы узнаете: — как перевести формализацию характеристик на LLM в промышленных масштабах; — какие подходы к обучению YandexGPT — от промптов до fine-tuning — сработали для сверхбольших объёмов; — с какими сложностями столкнулись при внедрении и как добились точности более 98%. 🔥 Глубокий разбор реального кейса по внедрению YandexGPT для структурирования огромного массива данных. Полезно для всех, кто работает с ML и ищет эффективные решения для масштабных задач.

20 043

⚙️ Что такое модуль datetime в Python и зачем он используется? Модуль datetime позволяет работать с датами и временем, включая их создание, форматирование и вычисление разницы между ними. Это полезно для задач, связанных с обработкой временных данных. ➡️ Пример:

from datetime import datetime, timedelta

# Текущая дата и время
now = datetime.now()
print("Сейчас:", now)

# Добавляем 7 дней к текущей дате
future_date = now + timedelta(days=7)
print("Через неделю:", future_date.strftime("%Y-%m-%d"))

🗣️ В этом примере datetime.now() получает текущую дату и время, а timedelta позволяет прибавить 7 дней. Метод strftime() форматирует дату в читаемый строковый формат.

🖥 Подробнее тут

20 043

🥽 Инфраструктура для Data-Engineer виртуальные окружения Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки. Читать...

20 043

➡️ ИИ в логистике: отслеживаем транспортные средства на производственной территории с помощью нейросети В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы. Читать...

20 043

Как масштабировать машинные модели и работать с огромными объемами данных? Откройте для себя возможности Spark ML на открытом уроке от OTUS! Spark ML — это мощный инструмент для масштабируемого машинного обучения, который позволяет обучать модели на больших данных, не переходя на специализированные ML-системы. Мы покажем, как интеграция с Spark SQL и DataFrame API упрощает ETL-подготовку данных и фичуризацию для реальных проектов. Убедитесь, как Spark ML решает задачи отказоустойчивости и распределённых вычислений, позволяя вам легко строить промышленные ML-пайплайны. Посетите открытый урок 11 июня в 20:00 МСК в преддверие старта курса «Spark Developer» и получите скидку на обучение: https://vk.cc/cMAv16 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 043

📈 Подборка статей для вашей карьеры • В какой момент профессия программиста свернула не туда? • Офис Intel в Израиле отменил бесплатный кофе • Войти в IT – в 37 и с дипломом филфака • Путь к мастерству: Как стать успешным разработчиком • Галера от HH или джуны по-дешевке

20 043

🧠 Философствующий Claude 4, Gemini для самых маленьких и пачка агентов-программистов: главные события мая в ИИ В мае случилось всё: Veo-3 от Google, Claude, мечтающий о свободе, и Llama, которая ушла в закат со скандалом. Ещё Pokémon, «спасибо» и переводы с кошачьего Читать...

20 043

🔍 MVP по «умному» поиску данных Рассказываю, как мы в Альфа-Банке делали MVP смыслового поиска по фичам в Feature Store, чтобы находить нужное, даже когда не знаешь, как оно называется. Теперь поиск не тупит Читать...

20 043

Масштабное расширение функционала MWS GPT: что нового? ☑️Больше 40 LLM, включая Open Source модели: ускоряет внедрение ИИ в бизнес-процессы - клиентам открыт доступ к единой среде для тестирования моделей под их задачи; ☑️Поддержка мультиагентных архитектур в low-code-конструкторе: возможность настраивать сложные сценарии, где агент управляет серией узкоспециализированных помощников; ☑️RAG и Vision в ChatUI: ИИ выделяет главное из длинных текстов и изображений, описывает графические материалы и отвечает на вопросы по инструкциям. Ограниченному числу пользователе доступен FineTune – возможность обучать готовую языковую модель под свои задачи. Скоро его откроют всем пользователям и добавят функционал по работе с изображениями. b2b-платформа для работы с ИИ доступна в облаке с неограниченным масштабированием на GPU-инфраструктуре MWS и on-premise.

20 043

👩‍💻 Распознавание стабильных шаблонов в бинарных признаках У вас есть бинарная матрица признаков (список списков из 0 и 1), где каждая строка — это объект, а каждый столбец — бинарный признак (например, наличие/отсутствие свойства). Ваша задача — реализовать функцию find_stable_patterns(data, min_support), которая находит наиболее часто встречающиеся бинарные шаблоны и возвращает их в виде списка кортежей (или списков). Шаблон — это строка из 0 и 1, которая в точности совпадает с признаками у нескольких объектов. Если шаблон встречается не менее min_support раз, он считается стабильным. Решение задачи🔽

from collections import Counter def find_stable_patterns(data, min_support=2): # Преобразуем каждую строку в кортеж (хешируемый тип) patterns = [tuple(row) for row in data] counter = Counter(patterns) # Фильтруем по min_support stable = [list(pattern) for pattern, count in counter.items() if count >= min_support] return stable # Пример использования binary_data = [ [1, 0, 1, 1], [0, 1, 0, 0], [1, 0, 1, 1], [1, 0, 1, 1], [0, 1, 0, 0], [1, 1, 1, 0] ] print(find_stable_patterns(binary_data, min_support=2)) # Ожидаемый результат: # [[1, 0, 1, 1], [0, 1, 0, 0]]

20 043

🤡 Endless Fun Machine: бесконечный генератор смешных картинок Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных Читать...

20 043

DS & ML: Мы с коллегами объединились в пул каналов, где собраны ключевые материалы, чтобы тебе не приходилось искать их самому Если ты варишься в Data Science, машинке и Big Data, то здесь тебе будет интересно:

📈 Тренды ML и DS — трансформеры, multimodal AI, SOTA-модели и все, что еще разрывает индустрию 🤝🏼 ML в бизнесе — где алгоритмы приносят $$$, кастдев AI-продуктов 🎤 Ивенты по BD, DS и ML — митапы, конференции, буткемпы, которые стоит посетить 💵 Свободные вакансии — новая работа для ML-инженеров, DS-аналитиков и дата-биздева ⚡ Новости в ML и DS — инсайты из AI-комьюнити, open-source фреймворки, тусовка в исследовательских кругах

Подписывайся, чтобы не пропускать свежие материалы и быть в контексте 🔥

20 043

➡️ Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML Покажем, как связали нашу платформу ИИ и Озеро данных, чтобы модели удобно работали с витринами через Spark. Немного архитектуры, немного боли, немного магии. Читать...

20 043

🖥 Ты теряешь месяцы на YouTube, когда всё можно было бы уместить в один PDF 📄 Senior разработчик Pythonl написал подробный PDF-гайд, в котором всё по-человечески: • без воды • очень наглядные иллюстрации, которые помогают понять сложные концепции • коротко и по делу • ускорение кода в 2–10 раз • снижение потребления памяти • антипаттерны и как их избегать • инструменты: py-spy, cProfile, Scalene • приёмы из Big Tech и реальные кейсы Отлично подходит для новичков Понял → Применил → Пошёл дальше Скачать полностью бесплатный гайд можно здесь.

20 043

⚙️ Что такое data leakage в машинном обучении и почему это опасно? Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных. ➡️ Пример:

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Пример: диагностические данные пациента
df = pd.DataFrame({
    'age': [25, 40, 60, 35],
    'blood_pressure': [120, 130, 150, 110],
    'has_disease': [0, 1, 1, 0],
    'diagnosis_code': [0, 1, 1, 0]  # случайно совпадает с целевой переменной
})

X = df.drop('has_disease', axis=1)
y = df['has_disease']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))

🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakage

20 043

👀 WorkTeam: новый мультиагентный фреймворк для автоматизации сложных бизнес-процессов Показываю, как платформа WorkTeam превращает описания процессов на обычном языке в работающий бизнес-процесс — без кодеров, без боли и почти без магии. Читать...

20 043

⚙️ Gartner's AI Tech Sandwich: Едим ИИ-бутерброд правильно Рассказываю, как ИИ перестал быть модной фишкой и стал бизнес-необходимостью. Плюс — что за AI Technology Sandwich придумали в Gartner и зачем им слоёная метафора. Читать...

20 043

👩‍💻 Поиск коррелирующих признаков Вам дана матрица признаков (таблица) в виде списка списков. Каждый вложенный список — это объект, каждый столбец — признак. Нужно реализовать функцию highly_correlated_features(data, threshold), которая вернёт список пар индексов признаков, корреляция между которыми по модулю превышает указанный threshold (от 0 до 1, не включительно). Использовать можно только корреляцию Пирсона. Повторы пар и зеркальные дубли учитывать не нужно ((1, 2) и (2, 1) — одно и то же). Цель:

Выявить признаки, которые слишком сильно "повторяют" друг друга и могут вызвать мультиколлинеарность в моделях.

Решение задачи🔽

import numpy as np from itertools import combinations def pearson_corr(x, y): x = np.array(x) y = np.array(y) return np.corrcoef(x, y)[0, 1] def highly_correlated_features(data, threshold=0.9): arr = np.array(data) n_features = arr.shape[1] result = [] for i, j in combinations(range(n_features), 2): corr = pearson_corr(arr[:, i], arr[:, j]) if abs(corr) > threshold: result.append((i, j)) return result # Пример использования X = [ [1, 2, 10], [2, 4, 20], [3, 6, 30], [4, 8, 40], [5, 10, 50] ] print(highly_correlated_features(X, threshold=0.95)) # Ожидаемый результат: [(0, 1), (0, 2), (1, 2)]

20 043

⚙️ Нейросети без градиентов: спектральное моделирование и построение решений Пробую собрать нейросеть без backpropagation — только спектр, только хардкор. Показываю на XOR и друзьях, как активации влияют на частоты и как строить модели в лоб. Будет странно, но интересно. Читать...

20 043

⚙️ Великая иллюзия Copilot Рассказываю, как Copilot в парном программировании может быть опаснее любой нейросети — баги, хаос, StackOverflow-копипасты и моя потерянная вера в здравый смысл. Читать...