Data Science | Machinelearning [ru]

الذهاب إلى القناة على Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

إظهار المزيد

الشبكة:Frontender's notes [ru]روسيا33 731 التكنولوجيات والتطبيقات6 732...

📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]

تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 058 مشتركاً، محتلاً المرتبة 6 732 في فئة التكنولوجيات والتطبيقات والمرتبة 33 731 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 058 مشتركاً.

بحسب آخر البيانات بتاريخ 12 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -35، وفي آخر 24 ساعة بمقدار -4، مع بقاء الوصول العام مرتفعاً.

حالة التحقق: غير موثّقة
معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.60‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.48‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
وصول المنشورات: يحصل كل منشور على متوسط 1 526 مشاهدة. وخلال اليوم الأول يجمع عادةً 899 مشاهدة.
التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 7.
الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 13 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

20 058

المشتركون

-424 ساعات

+497 أيام

-3530 أيام

1 526

عرض المشاهدات

~ 89924 ساعات

~ 1 04348 ساعات

7.60%

معدل المشاركة

~ 1

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

20 056

⚙️ Пишем персонального AI-ассистента на Python Делюсь, как собрать простого голосового ассистента: он сам распознаёт речь, общается с LLM и отвечает голосом. Без GUI, но с кучей потенциала. Всё на Python, всё работает. Читать...

20 056

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥 Подробнее тут

20 056

Стань AI-инженером мирового уровня и зарабатывай до 1 млн. ₽ Уже сейчас работодатели активно ищут таких специалистов, и спрос на них будет только расти! Магистратура «ИИ и компьютерное зрение» в ИТ-университете НЕЙМАРК — это: 1) онлайн обучение на английском языке 2) 2 диплома: НИУ ВШЭ + НЕЙМАРК 3) реальные задачи от Intel, Huawei, SBERLAB и других 4) возможность запустить стартап при поддержке наставников во время обучения 5) отсрочка от армии Узнай, как поступить и учиться бесплатно — переходи в бот и забирай инструкцию! Реклама. НЕЙМАРК, УНИВЕРСИТЕТ НЕЙМАРК. ИНН 5256209106.

20 056

📈 Подборка статей для вашей карьеры • Как продакт-менеджеру учить английский: план, сроки, советы • Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт • Interview copilots: как кандидаты используют ChatGPT на интервью • Моя история входа в IT: как я ломал стены своих ограничений • Как мы разработали систему грейдинга для системных аналитиков

20 056

👩‍💻 Определение "аномального" элемента в сбалансированных данных Вам передаётся сбалансированный набор объектов из 3-х различных классов (например, "cat", "dog", "bird"). Каждый объект представлен вектором признаков (list of floats). Один объект — подброшенный и не принадлежит ни одному из трёх известных классов: он отличается распределением. Ваша задача — реализовать функцию detect_outlier(data: List[List[float]], labels: List[str]) -> int, которая возвращает индекс выброса в списке. Гарантируется, что в labels один лейбл может быть "unknown", а может и вовсе отсутствовать — выброс может быть замаскирован. Метрика — средняя евклидова дистанция до других представителей того же класса должна быть на порядок выше, чем у нормальных объектов. Пример данных:

data = [
  [1.1, 0.9], [1.2, 1.0], [0.9, 1.1],     # cat
  [3.0, 3.1], [2.9, 3.0], [3.1, 2.9],     # dog
  [5.0, 5.1], [5.1, 5.0], [8.0, 8.0],     # last — выброс
]

labels = ["cat", "cat", "cat", "dog", "dog", "dog", "bird", "bird", "bird"]

Решение задачи🔽

import numpy as np from collections import defaultdict def detect_outlier(data, labels): data = np.array(data) grouped = defaultdict(list) for i, label in enumerate(labels): grouped[label].append(i) outlier_idx = -1 max_score = -1 for i, point in enumerate(data): label = labels[i] others = [j for j in grouped[label] if j != i] if not others: continue distances = [np.linalg.norm(point - data[j]) for j in others] avg_dist = np.mean(distances) if avg_dist > max_score: max_score = avg_dist outlier_idx = i return outlier_idx # Тест print(detect_outlier(data, labels)) # ➜ 8

20 056

⚙️ Обнаружение аномалий в данных временных рядов с помощью статистического анализа Рассказываю, почему статичные пороги — не выход, когда дело доходит до пользовательской активности. Покажу, как в таких случаях спасает обнаружение аномалий. Читать...

20 056

Задача классификации с BERT: научи модель BERT понимать настроение отзывов о ресторанах Представь, что ты — владелец сети кафе. Каждый день приходят десятки отзывов: кто-то хвалит десерты, кто-то жалуется на медленное обслуживание. Нужно быстро понять, какие отзывы положительные, а какие — негативные. 🔵 Что у тебя уже есть: Предобученная модель BERT, которая умеет работать с текстами, но пока не знает ничего про рестораны. Исторические размеченные отзывы: positive и negative. 💬 Примеры отзывов: — «Лучшие пельмени в городе!» — «Ждали заказ 40 минут, больше не придём» 📌 Что нужно сделать: - Загрузить датасет и разделить его на обучение и тест. - Подготовить тексты для BERT: токенизация, паддинг, усечение. - Дообучить модель на этих отзывах. - Проверить, как она справляется на тесте (accuracy, F1). - Протестировать на своих примерах — вбить пару «живых» отзывов и посмотреть предсказание. 🎯 Результат: Модель, которая сама читает отзывы и понимает их настроение. После курса «NLP / Natural Language Processing» от OTUS вы будете делать такие вещи играючи — и не только с ресторанами. Пройдите короткое вступительное тестирование и получите скидку на обучение: https://vk.cc/cOLspv Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 056

⚙️ ChatGPT все еще не догнать: что происходит на ИИ-рынке к середине 2025 года? 2025 год подходит к экватору, поэтому самое время посмотреть, как поменялись позиции крупнейших компаний-разработчиков. Но для начала предлагаю посмотреть на две иллюстрации. Первая — рейтинг ИИ от ресурса LMArena. Читать...

20 056

⚙️ Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото Расскажу, как из одного кадра получить свободную 3D-прогулку: доращиваем панорамы, меняем проекции и крутим ракурсы в VR с помощью кастомного модуля для ComfyUI. Читать...

20 056

⚙️ Что бы я сделал, если бы сегодня начинал учить Data Science / ML? Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня , учитывая свой опыт работы в крупных компаниях, проваленные проекты, ошибки и победы.. Читать...

20 056

👩‍💻 Чем отличается метод .transform() от .apply() в pandas? В pandas методы .transform() и .apply() часто используются для обработки данных по столбцам и строкам, но они работают по-разному. Метод .apply() применяет функцию к каждому элементу или ряду, и возвращает объект любой формы (например, DataFrame или Series). В отличие от него, .transform() применяет функцию к каждой ячейке или группе и возвращает объект той же формы, что и входной. ➡️ Пример:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

# Используем .apply() для вычисления суммы по столбцам
print(df.apply(sum))  # Вернет Series с суммами столбцов

# Используем .transform() для нормализации каждого значения в столбце
print(df.transform(lambda x: (x - x.mean()) / x.std()))
# Вернет DataFrame с нормализованными значениями

🗣 .apply() подходит для сложных операций и агрегаций, а .transform() удобно использовать для обработки данных с сохранением исходной структуры.

🖥 Подробнее тут

20 056

⚙️ Как устроено глубокое обучение нейросетей Эта статья не ответит на все вопросы, но мы пробежимся по всем основам глубокого машинного обучения, что бы создать примерную начальную картину без сильного углубления в детали. Читать...

20 056

⚙️ Прогнозирование исходов футбольных матчей в реальном времени с помощью байесовской модели Показываю, как модель с динамической силой команд предсказывает исходы матчей лучше классики. Не угадываю счёт, но выигрываю на ставках. У букмекеров шансы тают. Читать...

20 056

👩‍💻 Построй визуализацию распределения признаков с автоматической категоризацией Создайте функцию plot_distributions, которая принимает DataFrame и автоматически определяет числовые и категориальные признаки. Затем строит гистограммы или bar-графики в зависимости от типа данных. Это удобно для EDA (исследовательского анализа данных). Решение задачи🔽

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns def plot_distributions(df, max_categories=10): for column in df.columns: plt.figure(figsize=(6, 4)) if pd.api.types.is_numeric_dtype(df[column]): sns.histplot(df[column].dropna(), kde=True) plt.title(f'Гистограмма: {column}') elif df[column].nunique() <= max_categories: df[column].value_counts().plot(kind='bar') plt.title(f'Категории: {column}') else: print(f'Пропущен {column}: слишком много уникальных категорий') continue plt.tight_layout() plt.show() # Пример использования df = pd.DataFrame({ 'age': [23, 45, 31, 35, 62, 44, 23], 'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'female'], 'income': [40000, 50000, 45000, 52000, 61000, 48000, 46000] }) plot_distributions(df)

20 056

⚙️ Похож ли ваш текст на ИИ? Пытаюсь вычленить шаблоны, по которым палятся тексты от нейросетей: гладкие, пустые, «умные». И придумать способ автоматом понять — писал ли это ИИ или просто скучный человек. Читать...

20 056

🔥 Самые интересные статьи за последние дни: • Всё, что вы хотели знать о Django Channels • Сборка Python проекта с uv и Docker • DE-1. DIY ассистент на LLM • Ваши генераторные выражения сломаны: чиним и разбираемся • Всё, что вы хотели знать о Django Channels

20 056

👩‍💻 Постройте простую модель классификации с использованием scikit-learn Создайте модель на датасете Iris, обучите классификатор KNeighborsClassifier и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении. Решение задачи🔽

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # Загружаем данные iris = load_iris() X, y = iris.data, iris.target # Делим на обучающую и тестовую выборки X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # Обучаем модель model = KNeighborsClassifier(n_neighbors=3) model.fit(X_train, y_train) # Предсказание y_pred = model.predict(X_test) # Оценка качества print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")

20 056

⚙️ От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию Покажу, как мы в Positive Technologies заменили формальные правила машинкой — чтобы чувствительные данные находились не по шаблону, а по смыслу. Меньше false negative, больше пользы. Читать...

20 056

⚙️ ИИ-агенты в современных IT-решениях Разбирался, как ИИ «собирается» нас всех заменить. Спойлер: не спешит. Но уже сейчас кое-что делает лучше нас — и это не только котиков генерировать. Читать...

20 056

🧭 Держи архитектуру «видимой» Самая большая проблема больших проектов — то, что картину целиком никто не держит в голове. 👉 Совет: регулярно обновляй схемы, диаграммы или хотя бы заметки по архитектуре. Пусть у каждого будет карта системы. Без карты любой проект превращается в джунгли, даже если код отличный.