uk
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Показати більше

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 041 підписників, посідаючи 6 738 місце в категорії Технології та додатки та 33 739 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 041 підписників.

За останніми даними від 14 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -87, а за останні 24 години на -13, загальне охоплення залишається високим.

  • Статус верифікації: Не верифікований
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 7.71%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.62% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 1 546 переглядів. Протягом першої доби публікація в середньому набирає 926 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Завдяки високій частоті оновлень (останні дані отримано 15 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 041
Підписники
-1324 години
+257 днів
-8730 день
Архів дописів
⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется? One-Hot Encoding — это способ преобразования категориальных признаков (текста) в числовой формат для обучения моделей машинного обучения. Каждое уникальное значение категории превращается в отдельную колонку с 0 или 1. ➡️ Пример:
import pandas as pd

data = pd.DataFrame({
    'Color': ['Red', 'Green', 'Blue', 'Red']
})

# Применяем One-Hot Encoding
encoded = pd.get_dummies(data)

print(encoded)

   Color_Blue  Color_Green  Color_Red
0           0            0          1
1           0            1          0
2           1            0          0
3           0            0          1
🗣️ В этом примере категориальный столбец Color преобразован в три колонки с бинарными значениями. Такой формат данных необходим для многих моделей, например, линейной регрессии и деревьев решений.
🖥 Подробнее тут

⚙️ Организация ML-проекта с примерами Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами. Читать...

Repost from Data Fusion
Тик-так! Конференция уже совсем скоро ⏰ Начинаем рассказывать о самых интересных событиях на Data Fusion 2025. Время планиров
Тик-так! Конференция уже совсем скоро Начинаем рассказывать о самых интересных событиях на Data Fusion 2025. Время планировать программу: сделать это можно, например, в нашем чат-боте @Data_Fusion_bot. 16 апреля рекомендуем посетить сессию «О науке и жизни: неформальный разговор с известными учеными». Трое хорошо вам знакомых ученых — Константин Вячеславович Воронцов, Андрей Михайлович Райгородский и Иван Валерьевич Оселедец — соберутся на одной площадке, чтобы ответить на все, даже самые каверзные, вопросы. ‼️Вопросы собираем прямо здесь — в комментариях. Задавайте вопрос и указывайте, кому он адресован. 🕑 16 апреля, 14:10 📍Зал «Атом» или онлайн-трансляция на платформе VK Видео За актуальной программой и временем начала сессии следите на сайте 💙

Присоединяйтесь к дискуссии — задавайте свои вопросы в комментариях к посту Рекламодатель БАНК ВТБ (ПАО), ИНН 7702070139, Генеральная лицензия банка России №1000. Реклама, erid: 2SDnjdpp8nG. 0+ https://t.me/Data_fusion/152

🔎 Подборка вакансий для джунов ​Data Engineer (Junior) 🟢Scala или Python, SQL, Apache Spark, Hadoop, NiFi 🟢Уровень дохода не указан | 1–3 года​ Junior/Middle Data Engineer (Финансовый блок) 🟢Scala, Python, Java, SQL, Apache Spark, Hadoop, Apache Airflow 🟢Уровень дохода не указан | 1–3 года​ Data Analyst (Junior) 🟢SQL, Python, A/B тесты, BI, ML Base, EDA, продуктовая аналитика 🟢от 70 000 ₽ | Без опыта

👩‍💻 Напишите функцию для расчёта Accuracy вручную В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно. Решение задачи🔽
def accuracy_score(y_true, y_pred): correct = 0 for true, pred in zip(y_true, y_pred): if true == pred: correct += 1 return correct / len(y_true) # Пример использования: y_true = [1, 0, 1, 1, 0, 1] y_pred = [1, 0, 0, 1, 0, 1] print(accuracy_score(y_true, y_pred)) # 0.833...

Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип Приглашаем
Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и внеси вклад в продукты, которые приносят пользу разработчикам по всей России. На хакатоне ты сможешь: — Выбрать один из пяти треков и создать решение на базе ИТ-платформ МТС. — Побороться за призовой фонд — 1 500 000 рублей. — Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС. — Повысить шансы на прохождение стажировки в МТС. — Узнать больше о продуктах и технологиях МТС от экспертов компании. Хакатон будет проходить с 17 по 25 апреля. Регистрация открыта до 16 апреля. https://truetechhack.ru/

⚙️ Когда обучение не идет. Loss is NaN. Причины и решения В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли. Читать...

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией. ➡️ Пример:
data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [1, 0, 1, 0],
    'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))  
# Ожидаемый результат: ('B', 'D')
Решение задачи ⬇️
def find_highest_correlation(df): corr_matrix = df.corr() max_corr = 0 columns = (None, None) for col1 in corr_matrix.columns: for col2 in corr_matrix.columns: if col1 != col2 and corr_matrix[col1][col2] > max_corr: max_corr = corr_matrix[col1][col2] columns = (col1, col2) return columns # Пример использования: import pandas as pd data = pd.DataFrame({ 'A': [1, 2, 3, 4], 'B': [2, 4, 6, 8], 'C': [1, 0, 1, 0], 'D': [10, 20, 30, 40] }) print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

👩‍💻 Разрабатываем первое AI приложение Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации. Читать...

🔎 Подборка зарубежных вакансий ​Python-разработчик 🟢Python, Django, Docker, PostgreSQL, Kafka, FastAPI, Kubernetes, Keycloak 🟢от 200 000 ₽ | 1–3 года​ AI Engineer 🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP 🟢Уровень дохода не указан | 1–3 года​ DBA | Senior Database Administrator 🟢PostgreSQL, MongoDB, Redis, MySQL, ClickHouse, Ansible, Bash, Python, Grafana, Prometheus, ELK 🟢Уровень дохода не указан | 3–6 лет

🎮 Погружайся в чужие проекты как в игру Попал на новый проект и боишься "чужого" кода? Сложно и страшно? 👉 Совет: относись к чужому проекту как к исследовательской игре. Ваша миссия — понять карту, найти скрытые механики, собрать артефакты знаний. Геймификация процесса сильно снижает стресс и делает погружение гораздо приятнее.

⚙️ Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных? В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает. Читать...

🔎 Подборка вакансий для лидов ​Team Lead Data Scientist 🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps (Experiment Tracking, Model Registry, Feature Store, auto-retraining, Online serving, Models monitoring), CI/CD 🟢от 5 000 до 7 250 $ | 3–6 лет​ Lead Data Engineer 🟢Python, Apache Spark, Airflow, PostgreSQL, ClickHouse, SQL, CI/CD, Linux, k8s 🟢от 450 000 ₽ | более 6 лет​ Lead Data Engineer 🟢Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter 🟢Уровень дохода не указан | 3–6 лет

⚡️Строим рекомендательную систему фильмов на Kaggle Вы когда-нибудь хотели сделать свою собственную систему рекомендаций филь
⚡️Строим рекомендательную систему фильмов на Kaggle Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬 Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle. Что будем делать на вебинаре: 🟠Разберем имеющиеся данные фильмов с их оценками 🟠Проведем предобработку данных 🟠Построим рекомендательную систему на основе машинного обучения 🟠Проведем расчет и анализ метрик на основе результатов работы модели Вебинар будет интересен как новичкам, так и уже опытным специалистам 😶Зарегистрироваться на бесплатный вебинар

⚙️ Что такое StandardScaler в Data Science и зачем он используется? StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1. Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans. ➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)
🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.
🖥 Подробнее тут

⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах. Читать...

Этичные хакеры будут искать уязвимости в нейросетках Яндекса Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы. Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.