ar
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

الذهاب إلى القناة على Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]

تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 041 مشتركاً، محتلاً المرتبة 6 738 في فئة التكنولوجيات والتطبيقات والمرتبة 33 739 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 041 مشتركاً.

بحسب آخر البيانات بتاريخ 14 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -87، وفي آخر 24 ساعة بمقدار -13، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.71‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.62‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 1 546 مشاهدة. وخلال اليوم الأول يجمع عادةً 926 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 7.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 15 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

20 041
المشتركون
-1324 ساعات
+257 أيام
-8730 أيام
أرشيف المشاركات
⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется? One-Hot Encoding — это способ преобразования категориальных признаков (текста) в числовой формат для обучения моделей машинного обучения. Каждое уникальное значение категории превращается в отдельную колонку с 0 или 1. ➡️ Пример:
import pandas as pd

data = pd.DataFrame({
    'Color': ['Red', 'Green', 'Blue', 'Red']
})

# Применяем One-Hot Encoding
encoded = pd.get_dummies(data)

print(encoded)

   Color_Blue  Color_Green  Color_Red
0           0            0          1
1           0            1          0
2           1            0          0
3           0            0          1
🗣️ В этом примере категориальный столбец Color преобразован в три колонки с бинарными значениями. Такой формат данных необходим для многих моделей, например, линейной регрессии и деревьев решений.
🖥 Подробнее тут

⚙️ Организация ML-проекта с примерами Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами. Читать...

Repost from Data Fusion
Тик-так! Конференция уже совсем скоро ⏰ Начинаем рассказывать о самых интересных событиях на Data Fusion 2025. Время планиров
Тик-так! Конференция уже совсем скоро Начинаем рассказывать о самых интересных событиях на Data Fusion 2025. Время планировать программу: сделать это можно, например, в нашем чат-боте @Data_Fusion_bot. 16 апреля рекомендуем посетить сессию «О науке и жизни: неформальный разговор с известными учеными». Трое хорошо вам знакомых ученых — Константин Вячеславович Воронцов, Андрей Михайлович Райгородский и Иван Валерьевич Оселедец — соберутся на одной площадке, чтобы ответить на все, даже самые каверзные, вопросы. ‼️Вопросы собираем прямо здесь — в комментариях. Задавайте вопрос и указывайте, кому он адресован. 🕑 16 апреля, 14:10 📍Зал «Атом» или онлайн-трансляция на платформе VK Видео За актуальной программой и временем начала сессии следите на сайте 💙

Присоединяйтесь к дискуссии — задавайте свои вопросы в комментариях к посту Рекламодатель БАНК ВТБ (ПАО), ИНН 7702070139, Генеральная лицензия банка России №1000. Реклама, erid: 2SDnjdpp8nG. 0+ https://t.me/Data_fusion/152

🔎 Подборка вакансий для джунов ​Data Engineer (Junior) 🟢Scala или Python, SQL, Apache Spark, Hadoop, NiFi 🟢Уровень дохода не указан | 1–3 года​ Junior/Middle Data Engineer (Финансовый блок) 🟢Scala, Python, Java, SQL, Apache Spark, Hadoop, Apache Airflow 🟢Уровень дохода не указан | 1–3 года​ Data Analyst (Junior) 🟢SQL, Python, A/B тесты, BI, ML Base, EDA, продуктовая аналитика 🟢от 70 000 ₽ | Без опыта

👩‍💻 Напишите функцию для расчёта Accuracy вручную В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно. Решение задачи🔽
def accuracy_score(y_true, y_pred): correct = 0 for true, pred in zip(y_true, y_pred): if true == pred: correct += 1 return correct / len(y_true) # Пример использования: y_true = [1, 0, 1, 1, 0, 1] y_pred = [1, 0, 0, 1, 0, 1] print(accuracy_score(y_true, y_pred)) # 0.833...

Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип Приглашаем
Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и внеси вклад в продукты, которые приносят пользу разработчикам по всей России. На хакатоне ты сможешь: — Выбрать один из пяти треков и создать решение на базе ИТ-платформ МТС. — Побороться за призовой фонд — 1 500 000 рублей. — Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС. — Повысить шансы на прохождение стажировки в МТС. — Узнать больше о продуктах и технологиях МТС от экспертов компании. Хакатон будет проходить с 17 по 25 апреля. Регистрация открыта до 16 апреля. https://truetechhack.ru/

⚙️ Когда обучение не идет. Loss is NaN. Причины и решения В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли. Читать...

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией. ➡️ Пример:
data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [1, 0, 1, 0],
    'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))  
# Ожидаемый результат: ('B', 'D')
Решение задачи ⬇️
def find_highest_correlation(df): corr_matrix = df.corr() max_corr = 0 columns = (None, None) for col1 in corr_matrix.columns: for col2 in corr_matrix.columns: if col1 != col2 and corr_matrix[col1][col2] > max_corr: max_corr = corr_matrix[col1][col2] columns = (col1, col2) return columns # Пример использования: import pandas as pd data = pd.DataFrame({ 'A': [1, 2, 3, 4], 'B': [2, 4, 6, 8], 'C': [1, 0, 1, 0], 'D': [10, 20, 30, 40] }) print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

👩‍💻 Разрабатываем первое AI приложение Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации. Читать...

🔎 Подборка зарубежных вакансий ​Python-разработчик 🟢Python, Django, Docker, PostgreSQL, Kafka, FastAPI, Kubernetes, Keycloak 🟢от 200 000 ₽ | 1–3 года​ AI Engineer 🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP 🟢Уровень дохода не указан | 1–3 года​ DBA | Senior Database Administrator 🟢PostgreSQL, MongoDB, Redis, MySQL, ClickHouse, Ansible, Bash, Python, Grafana, Prometheus, ELK 🟢Уровень дохода не указан | 3–6 лет

🎮 Погружайся в чужие проекты как в игру Попал на новый проект и боишься "чужого" кода? Сложно и страшно? 👉 Совет: относись к чужому проекту как к исследовательской игре. Ваша миссия — понять карту, найти скрытые механики, собрать артефакты знаний. Геймификация процесса сильно снижает стресс и делает погружение гораздо приятнее.

⚙️ Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных? В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает. Читать...

🔎 Подборка вакансий для лидов ​Team Lead Data Scientist 🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps (Experiment Tracking, Model Registry, Feature Store, auto-retraining, Online serving, Models monitoring), CI/CD 🟢от 5 000 до 7 250 $ | 3–6 лет​ Lead Data Engineer 🟢Python, Apache Spark, Airflow, PostgreSQL, ClickHouse, SQL, CI/CD, Linux, k8s 🟢от 450 000 ₽ | более 6 лет​ Lead Data Engineer 🟢Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter 🟢Уровень дохода не указан | 3–6 лет

⚡️Строим рекомендательную систему фильмов на Kaggle Вы когда-нибудь хотели сделать свою собственную систему рекомендаций филь
⚡️Строим рекомендательную систему фильмов на Kaggle Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬 Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle. Что будем делать на вебинаре: 🟠Разберем имеющиеся данные фильмов с их оценками 🟠Проведем предобработку данных 🟠Построим рекомендательную систему на основе машинного обучения 🟠Проведем расчет и анализ метрик на основе результатов работы модели Вебинар будет интересен как новичкам, так и уже опытным специалистам 😶Зарегистрироваться на бесплатный вебинар

⚙️ Что такое StandardScaler в Data Science и зачем он используется? StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1. Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans. ➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)
🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.
🖥 Подробнее тут

⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах. Читать...

Этичные хакеры будут искать уязвимости в нейросетках Яндекса Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы. Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.