fa
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

رفتن به کانال در Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

نمایش بیشتر

📈 تحلیل کانال تلگرام Data Science | Machinelearning [ru]

کانال Data Science | Machinelearning [ru] (@devsp) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 20 047 مشترک است و جایگاه 6 729 را در دسته فناوری و برنامه‌ها و رتبه 33 727 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 20 047 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 13 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -68 و در ۲۴ ساعت گذشته برابر -19 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

  • وضعیت تأیید: تأیید نشده
  • نرخ تعامل (ER): میانگین تعامل مخاطب 7.54% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.58% واکنش نسبت به کل مشترکان کسب می‌کند.
  • دسترسی پست‌ها: هر پست به طور میانگین 1 513 بازدید دریافت می‌کند. در اولین روز معمولاً 919 بازدید جمع‌آوری می‌شود.
  • واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 7 است.
  • علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, nvidia, контекст, openai, архитектура تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 14 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

20 047
مشترکین
-1924 ساعت
+337 روز
-6830 روز
آرشیو پست ها
👩‍💻 Вычисление “стабильных” признаков Вам дана матрица признаков — список списков, где каждая строка представляет собой объект, а каждый столбец — отдельный числовой признак. Ваша задача — определить, какие признаки можно считать стабильными.
Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.
Реализуйте функцию find_stable_features(matrix, threshold), которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию. Решение задачи🔽
import numpy as np def find_stable_features(matrix, threshold=0.1): data = np.array(matrix) stds = np.std(data, axis=0) stable_indices = [i for i, std in enumerate(stds) if std < threshold] return stable_indices # Пример входных данных X = [ [1.0, 0.5, 3.2], [1.0, 0.49, 3.1], [1.0, 0.52, 3.0], [1.0, 0.5, 3.3], ] print(find_stable_features(X, threshold=0.05)) # Ожидаемый результат: [0, 1]

⚙️ Тиндер для работодателей и соискателей: как мы разработали алгоритм мэтчинга на Авито Я рассказываю, как мы запилили мэтчинг в «Авито Подработке»: без анкет, но с кучей данных, офлайн-тестами и ML. Делюсь опытом, как сделать выдачу умнее и продукт лучше. Читать...

⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах. Читать...

⚙️ Что такое StandardScaler в Data Science и зачем он используется? StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1. Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans. ➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)
🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.
🖥 Подробнее тут

➡️ Что забирает до 90% времени на созвонах и как перестать проводить их впустую Когда митапов больше, чем решений, пора что-то менять. Мы выработали способ делать онлайн-созвоны короче, полезнее и без «а что мы вообще решили?». Делюсь, как именно. Читать...

⚙️ Что такое StandardScaler из scikit-learn и зачем он нужен? StandardScaler — это инструмент из библиотеки scikit-learn, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия). ➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200], [15, 300], [14, 250]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)
➡️ После трансформации признаки будут нормализованы, что помогает улучшить сходимость и стабильность модели.
🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей
🖥 Подробнее тут

⚙️ Yandex Cloud представила апдейты своей платформы AI Studio на конференции Data&ML2Business. Упор — на кастомизацию RAG под конкретные базы знаний при работе с AI Assistant API: поддерживаются таблицы, pdf, метаданные для чанков, рефразер запросов и batch-инференс. У инструмента появился визуальный интерфейс, так что не обязательно городить пайплайны руками. Совместимость с OpenAI API упрощает интеграцию — решения на базе AI Studio легко встраиваются в LangChain, AutoGPT и другие популярные ML-стэки. При этом платформу теперь можно развернуть on-premise на собственной инфраструктуре. Также рассказали про обновления в речевой аналитике – теперь нейросети сами подберут смысловые теги для поиска нужной информации в диалогах. Также компания представила новые решения для работы с данными – представила управляемые сервисы Spark и Trino. В Datalens добавили кастомизация графиков на JS и публичную витрину дашбордов. Читать…

🧘 Перезагружайся осознанно, а не прокрастинацией Переутомился — и вместо отдыха залипаешь в YouTube, соцсети, чат с мемами. Отдохнул? Нет. 👉 Совет: включай «активный отдых» — прогулку, растяжку, даже 5 минут с закрытыми глазами. Это реально перезагружает мозг. Прокрастинация даёт иллюзию паузы, но не даёт ресурса на следующий рывок.

➡️ Объяснимый ИИ в ML и DL Разбираемся, зачем нужен объяснимый ИИ, как подступиться к интерпретации моделей и что с этим делать на практике — от EDA до XAI на примере. Всё на русском, без магии. Читать...

⚙️ Что такое Feature Scaling в ML и зачем он нужен? Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно. Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных ➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)
🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.
Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут

🤔 На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям START — опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.. Читать...

🤖📈 Папка Экспертов: ИИ, ИТ и Маркетинг https://t.me/addlist/f_e6mA-BQio3YmJi Ключевые инсайты, свежие новости и экспертные
🤖📈 Папка Экспертов: ИИ, ИТ и Маркетинг https://t.me/addlist/f_e6mA-BQio3YmJi Ключевые инсайты, свежие новости и экспертные комментарии этой недели Что внутри подборки: ✅ Актуальные тренды в мире ИИ и ИТ: от новых технологий до внедрения в бизнес ✅ Изменения в алгоритмах и платформах: Google, Meta, Яндекс, Telegram, SEO, таргетинг ✅ Разбор свежих кейсов: как используют ИИ в маркетинге и автоматизации ✅ Практические советы по интеграции AI-инструментов в маркетинговые процессы ✅ Наша экспертная аналитика: что эти новости значат для бизнеса и как адаптироваться https://t.me/addlist/f_e6mA-BQio3YmJi Почему это важно: Технологии развиваются стремительно — то, что работало вчера, сегодня устаревает. Мы отбираем действительно важное, чтобы вы не тратили время на фильтрацию потока информации, а получали только то, что помогает масштабировать бизнес и находить новые точки роста. Для кого: • Для предпринимателей, которые ищут новые возможности для развития • Для маркетологов, которые хотят быть на шаг впереди рынка • Для ИТ-специалистов, которые внедряют AI-решения в бизнес 📩 Подписывайтесь, чтобы быть в курсе ключевых изменений в ИИ, ИТ и маркетинге. https://t.me/addlist/f_e6mA-BQio3YmJi

🖥 Играемся с RTX 5090 (GB202) для инференса Автор тестирует RTX 5090 в хостинге, сравнивает с 3090 и A100, гоняет gpu-burn и инференс-сетку, проверяя, есть ли прирост для ML-задач. Без фанатизма, но с графиком. Читать...

👩‍💻 Предсказание уникальности пользователя У вас есть список действий пользователей на платформе. Каждое действие представлено словарём с полями "user_id", "action", и "timestamp". Нужно реализовать функцию, которая определит, является ли пользователь "уникальным". Уникальный пользователь — это тот, кто:
• совершал более 3 действий, • все действия происходили в разные дни, • не совершал одинаковые действия дважды.
Верните список user_id, соответствующих этому критерию. Решение задачи🔽
from collections import defaultdict from datetime import datetime def find_unique_users(logs): activity = defaultdict(lambda: {"actions": set(), "days": set(), "count": 0}) for log in logs: user = log["user_id"] action = log["action"] date = datetime.fromisoformat(log["timestamp"]).date() activity[user]["actions"].add(action) activity[user]["days"].add(date) activity[user]["count"] += 1 result = [] for user, data in activity.items(): if ( data["count"] > 3 and len(data["days"]) == data["count"] and len(data["actions"]) == data["count"] ): result.append(user) return result # Пример использования logs = [ {"user_id": 1, "action": "login", "timestamp": "2023-05-01T10:00:00"}, {"user_id": 1, "action": "view", "timestamp": "2023-05-02T11:00:00"}, {"user_id": 1, "action": "click", "timestamp": "2023-05-03T12:00:00"}, {"user_id": 1, "action": "logout", "timestamp": "2023-05-04T13:00:00"}, {"user_id": 2, "action": "login", "timestamp": "2023-05-01T10:00:00"}, {"user_id": 2, "action": "login", "timestamp": "2023-05-01T11:00:00"}, {"user_id": 2, "action": "click", "timestamp": "2023-05-01T12:00:00"}, ] print(find_unique_users(logs)) # Ожидаемый результат: [1]

🗣 Синтез речи 2025: топ-4 бесплатных нейросетей для озвучки текста Сравниваем 4 синтеза речи: интонации, паузы, эмоции. Кто из них справится с «Хоббитом» и сможет звучать как рассказчик, а не как робот? Проверим голосом, а не графиком. Читать...

⚙️ Как все рынки мира оказались уязвимы конкуренции с любым умным айтишником История о том, как в текущем моменте истории, по сути любой разработчик может в одиночку задизраптить любой вертикальный рынок и даже отрасль. Читать...

Где взять ресурсы для обучения ML-моделей и анализа больших данных? Все эти сложные задачи можно решить на серверах с GPU от
Где взять ресурсы для обучения ML-моделей и анализа больших данных? Все эти сложные задачи можно решить на серверах с GPU от Selectel — на покупку оборудования тратиться не придется, а все ресурсы GPU только ваши. Преимущества аренды сервера с GPU в Selectel: https://slc.tl/46jmk ☑️Оптимальный сервер под ваши задачи. Выбирайте из десятка готовых конфигураций или соберите собственную с нужной видеокартой под ваши запросы и бюджет; ☑️Более 20 моделей видеокарт в наличии: от базовой GTX 1080 до профессиональных H100 и А100; ☑️Безопасность хранения и обработки данных. Серверы соответствуют 152-ФЗ и «из коробки» имеют бесплатную защиту от DDoS-атак. Арендуйте серверы с GPU за пару минут: https://slc.tl/46jmk Реклама. АО «Селектел», ИНН 7810962785, ERID: 2Vtzqwia3qo

🧠 Что делает train_test_split в ML и зачем он нужен Функция train_test_split() из библиотеки sklearn разбивает данные на обучающую и тестовую выборки. Это важно, чтобы проверить, как хорошо модель работает на невидимых данных. ➡️ Пример:
from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

print("Обучение:", X_train)
print("Тест:", X_test)
🗣️ Почему важно: • Модель не должна учиться на тех же данных, на которых её оценивают • test_size указывает, какой процент данных пойдёт на тест • random_state нужен для воспроизводимости Это один из самых базовых, но обязательных шагов в любом ML-проекте
🖥 Подробнее тут

⚙️ Где ИИ врёт и как с этим жить — мой гайд после фейлов Автор копает, почему ИИ фантазирует, как это мешает в работе и чем тут помогут промпты. В финале — гайд, как писать запросы без сюрпризов. Читать...