Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 739 Texnologiyalar & Aralashmalar6 738...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 041 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 738-o'rinni va Rossiya mintaqasida 33 739-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 041 obunachiga ega bo‘ldi.

14 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -87 ga, so‘nggi 24 soatda esa -13 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.71% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.62% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 546 marta ko‘riladi; birinchi sutkada odatda 926 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 15 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 041

Obunachilar

-1324 soatlar

+257 kunlar

-8730 kunlar

1 546

Post ko'rishlar

~ 92624 soatlar

~ 1 11548 soatlar

7.71%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 042

⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется? One-Hot Encoding — это способ преобразования категориальных признаков (текста) в числовой формат для обучения моделей машинного обучения. Каждое уникальное значение категории превращается в отдельную колонку с 0 или 1. ➡️ Пример:

import pandas as pd

data = pd.DataFrame({
    'Color': ['Red', 'Green', 'Blue', 'Red']
})

# Применяем One-Hot Encoding
encoded = pd.get_dummies(data)

print(encoded)

   Color_Blue  Color_Green  Color_Red
0           0            0          1
1           0            1          0
2           1            0          0
3           0            0          1

🗣️ В этом примере категориальный столбец Color преобразован в три колонки с бинарными значениями. Такой формат данных необходим для многих моделей, например, линейной регрессии и деревьев решений.

🖥 Подробнее тут

20 042

⚙️ Организация ML-проекта с примерами Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами. Читать...

20 042

Repost from Data Fusion

Тик-так! Конференция уже совсем скоро ⏰ Начинаем рассказывать о самых интересных событиях на Data Fusion 2025. Время планировать программу: сделать это можно, например, в нашем чат-боте @Data_Fusion_bot. 16 апреля рекомендуем посетить сессию «О науке и жизни: неформальный разговор с известными учеными». Трое хорошо вам знакомых ученых — Константин Вячеславович Воронцов, Андрей Михайлович Райгородский и Иван Валерьевич Оселедец — соберутся на одной площадке, чтобы ответить на все, даже самые каверзные, вопросы. ‼️Вопросы собираем прямо здесь — в комментариях. Задавайте вопрос и указывайте, кому он адресован. 🕑 16 апреля, 14:10 📍Зал «Атом» или онлайн-трансляция на платформе VK Видео За актуальной программой и временем начала сессии следите на сайте 💙

20 042

Присоединяйтесь к дискуссии — задавайте свои вопросы в комментариях к посту Рекламодатель БАНК ВТБ (ПАО), ИНН 7702070139, Генеральная лицензия банка России №1000. Реклама, erid: 2SDnjdpp8nG. 0+ https://t.me/Data_fusion/152

20 042

🔎 Подборка вакансий для джунов Data Engineer (Junior) 🟢Scala или Python, SQL, Apache Spark, Hadoop, NiFi 🟢Уровень дохода не указан | 1–3 года Junior/Middle Data Engineer (Финансовый блок) 🟢Scala, Python, Java, SQL, Apache Spark, Hadoop, Apache Airflow 🟢Уровень дохода не указан | 1–3 года Data Analyst (Junior) 🟢SQL, Python, A/B тесты, BI, ML Base, EDA, продуктовая аналитика 🟢от 70 000 ₽ | Без опыта

20 042

👩‍💻 Напишите функцию для расчёта Accuracy вручную В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно. Решение задачи🔽

def accuracy_score(y_true, y_pred): correct = 0 for true, pred in zip(y_true, y_pred): if true == pred: correct += 1 return correct / len(y_true) # Пример использования: y_true = [1, 0, 1, 1, 0, 1] y_pred = [1, 0, 0, 1, 0, 1] print(accuracy_score(y_true, y_pred)) # 0.833...

20 042

Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и внеси вклад в продукты, которые приносят пользу разработчикам по всей России. На хакатоне ты сможешь: — Выбрать один из пяти треков и создать решение на базе ИТ-платформ МТС. — Побороться за призовой фонд — 1 500 000 рублей. — Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС. — Повысить шансы на прохождение стажировки в МТС. — Узнать больше о продуктах и технологиях МТС от экспертов компании. Хакатон будет проходить с 17 по 25 апреля. Регистрация открыта до 16 апреля. https://truetechhack.ru/

20 042

⚙️ Когда обучение не идет. Loss is NaN. Причины и решения В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли. Читать...

20 042

🔥 Самые интересные статьи за последние дни: • Разбей и властвуй: как создать кастомный токенизатор в SpaCy • Функция property() в Python: добавляем управляемые атрибуты в классы • Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году • cgroups и namespaces в Linux: как это работает? • ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

20 042

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией. ➡️ Пример:

data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [1, 0, 1, 0],
    'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))  
# Ожидаемый результат: ('B', 'D')

Решение задачи ⬇️

def find_highest_correlation(df): corr_matrix = df.corr() max_corr = 0 columns = (None, None) for col1 in corr_matrix.columns: for col2 in corr_matrix.columns: if col1 != col2 and corr_matrix[col1][col2] > max_corr: max_corr = corr_matrix[col1][col2] columns = (col1, col2) return columns # Пример использования: import pandas as pd data = pd.DataFrame({ 'A': [1, 2, 3, 4], 'B': [2, 4, 6, 8], 'C': [1, 0, 1, 0], 'D': [10, 20, 30, 40] }) print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

20 042

👩‍💻 Разрабатываем первое AI приложение Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации. Читать...

20 042

🔎 Подборка зарубежных вакансий Python-разработчик 🟢Python, Django, Docker, PostgreSQL, Kafka, FastAPI, Kubernetes, Keycloak 🟢от 200 000 ₽ | 1–3 года AI Engineer 🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP 🟢Уровень дохода не указан | 1–3 года DBA | Senior Database Administrator 🟢PostgreSQL, MongoDB, Redis, MySQL, ClickHouse, Ansible, Bash, Python, Grafana, Prometheus, ELK 🟢Уровень дохода не указан | 3–6 лет

20 042

🎮 Погружайся в чужие проекты как в игру Попал на новый проект и боишься "чужого" кода? Сложно и страшно? 👉 Совет: относись к чужому проекту как к исследовательской игре. Ваша миссия — понять карту, найти скрытые механики, собрать артефакты знаний. Геймификация процесса сильно снижает стресс и делает погружение гораздо приятнее.

20 042

⚙️ Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных? В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает. Читать...

20 042

🔎 Подборка вакансий для лидов Team Lead Data Scientist 🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps (Experiment Tracking, Model Registry, Feature Store, auto-retraining, Online serving, Models monitoring), CI/CD 🟢от 5 000 до 7 250 $ | 3–6 лет Lead Data Engineer 🟢Python, Apache Spark, Airflow, PostgreSQL, ClickHouse, SQL, CI/CD, Linux, k8s 🟢от 450 000 ₽ | более 6 лет Lead Data Engineer 🟢Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter 🟢Уровень дохода не указан | 3–6 лет

20 042

⚡️Строим рекомендательную систему фильмов на Kaggle Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬 Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle. Что будем делать на вебинаре: 🟠Разберем имеющиеся данные фильмов с их оценками 🟠Проведем предобработку данных 🟠Построим рекомендательную систему на основе машинного обучения 🟠Проведем расчет и анализ метрик на основе результатов работы модели Вебинар будет интересен как новичкам, так и уже опытным специалистам 😶Зарегистрироваться на бесплатный вебинар

20 042

⚙️ Что такое StandardScaler в Data Science и зачем он используется? StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1. Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans. ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.

🖥 Подробнее тут

20 042

⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах. Читать...

20 042

Этичные хакеры будут искать уязвимости в нейросетках Яндекса Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы. Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.

20 042

📈 Подборка статей для вашей карьеры • Больше чем книга • Как поставить цель на обучение, чтобы дойти до конца • Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров • Найм дизайнеров глазами лида • Software Architect vs Solution Architect