Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 747 Texnologiyalar & Aralashmalar6 731...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 034 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 731-o'rinni va Rossiya mintaqasida 33 747-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 034 obunachiga ega bo‘ldi.

16 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -78 ga, so‘nggi 24 soatda esa -7 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.95% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.33% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 592 marta ko‘riladi; birinchi sutkada odatda 868 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 17 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 034

Obunachilar

-724 soatlar

+167 kunlar

-7830 kunlar

1 592

Post ko'rishlar

~ 86824 soatlar

~ 1 04948 soatlar

7.95%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 036

⚙️ Что такое StandardScaler в Data Science и зачем он используется? StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1. Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans. ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.

🖥 Подробнее тут

20 036

⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах. Читать...

20 036

Этичные хакеры будут искать уязвимости в нейросетках Яндекса Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы. Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.

20 036

📈 Подборка статей для вашей карьеры • Больше чем книга • Как поставить цель на обучение, чтобы дойти до конца • Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров • Найм дизайнеров глазами лида • Software Architect vs Solution Architect

20 036

Алоха товарищи. Тут подкаст вышел интересный. Спикер - Антон Полднев — специалист по рекламным технологиям Яндекса с опытом свыше 10 лет. В подкасте он рассказывает о своем пути от стажера, который писал на Perl, до руководителя и делится инсайтами разработки высоконагруженных систем. Он объясняет, как работает рекомендательная система рекламы, как ML помогает предсказывать поведение пользователей и вероятность конверсии для бизнеса. ⠀ Ключевые моменты: 👉 Ответственность за рекламные технологии. 👉 Переход на C++ для повышения производительности. 👉 Внедрение нейросетей и машинного обучения. 👉 Важность командной работы и четкого распределения задач. 👉 Эксперименты и A/B-тесты для оптимизации решений. Также Антон рассказал про Perforator — opensource-инструмент, который помогает анализировать работу приложений на сервере в реальном времени. С помощью этого инструмента разработчики могут увидеть, как распределяются ресурсы серверов и какие программы расходуют их больше всего. Ссылки на подкаст 👉 YouTube 👉 VK 👉 Rutube

20 036

🔎 Подборка вакансий для сеньоров Ведущий Python разработчик 🟢Python, Django, Pydantic, SQL, NoSQL, AWS, Docker, Kubernetes, asyncio, aiohttp, RabbitMQ, Kafka 🟢Уровень дохода не указан | 3–6 лет Ведущий менеджер AI (Data Scientist) 🟢Python, машинное обучение, SQL, A/B тесты, NLP, deep learning, RNN, трансформеры, MLOps, DVC, MLflow, Airflow, Hadoop, Spark, LangChain, LangGraph, LLM 🟢Уровень дохода не указан | 3–6 лет Senior Data Analyst 🟢SQL, Python, Excel, BI tools (Tableau, PowerBI, Metabase) 🟢Уровень дохода не указан | 3–6 лет

20 036

⚙️ Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных. Читать...

20 036

🖥 Про разработку LLM: какие ещё есть справочники и кукбуки В статье — разбор, почему собирать платформу инференса LLM с нуля не всегда разумно, и как MWS GPT помогает запускать большие языковые модели проще, быстрее и без лишнего сумасшествия. Читать...

20 036

📂 Мы делимся с вами папкой «ИИ & IT & DSGN», в которой собрали статьи с полезными советами от экспертов. ⚙ Внутри вас ждет: 🟠 Статья "Можете ли Вы отличить ИИ в общении?" 🟠 ИИ-ментор для новых сотрудников 🟠 Игровой помощник от Nvidia. 🟠 ИИ-инструменты для дизайнеров. 🟠 И еще 28 полезные статьи, которые прокачают ваши навыки. 🔗 А мы с вами делимся статьёй: «Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5». ✔ Сохраняйте папку «ИИ & IT & DSGN», чтобы быть в курсе всех новостей в мире IT и не только!

20 036

👩‍💻 Постройте логистическую регрессию вручную Напишите простую реализацию логистической регрессии с нуля (без sklearn) для бинарной классификации. Это поможет лучше понять, как работает один из самых базовых алгоритмов в машинном обучении. Решение задачи🔽

import numpy as np # Сигмоида def sigmoid(z): return 1 / (1 + np.exp(-z)) # Функция логистической регрессии def logistic_regression(X, y, lr=0.1, epochs=1000): m, n = X.shape X = np.c_[np.ones(m), X] # добавляем bias theta = np.zeros(n + 1) for _ in range(epochs): z = np.dot(X, theta) h = sigmoid(z) gradient = np.dot(X.T, (h - y)) / m theta -= lr * gradient return theta # Предсказание def predict(X, theta): X = np.c_[np.ones(X.shape[0]), X] return sigmoid(np.dot(X, theta)) >= 0.5 # Пример X = np.array([[1], [2], [3], [4]]) y = np.array([0, 0, 1, 1]) theta = logistic_regression(X, y) print(predict(X, theta)) # [False False True True]

20 036

🖥 Как работает Трансформер: очень простое описание Вот очень простое объяснение для тех, кто не хочет вдаваться в сложную математику, но и не готов принимать эту ключевую технологию как магию, которая просто работает. Конечно, никакого волшебства тут и нет — идея на самом деле довольно проста.. Читать...

20 036

🤖 AI агенты на основе LLM: что нас ждет? Приглашаем на открытый урок. 🗓 14 апреля в 18:00 МСК 🆓 Бесплатно. Урок в рамках старта курса «NLP. Advanced». Сегодня нейросети такие как ChatGPT, GPT4, GigaChat и другие из больших языковых моделей (LLMs), способных генерировать текст на очень высоком уровне, стремительно превращаются в AI агентов, по сути наших виртуальных ассистентов, способных взаимодействовать со средой, принимать решения и выполнять широкий набор команд. На вебинаре мы расскажем про то, что представляют из себя AI агенты сегодня и что нас ждет в ближайшем будущем. Кому подходит: - Продвинутым DS специалистам, которые хотят углубиться в тему NLP - Выпускникам и учащимся курсов ML-professional, ML-Advanced, NLP Отус - Исследователям и инженерам, работающими с LLM - Практикующим специалистам, которые хотят углубиться в область LLM Результаты урока: - познакомитесь с концепцией AI агентов и агентов на основе LLM - узнаете, какие принципы лежат в основе создания агентов - обсудите перспективы развития агентных систем Участвуйте и получите скидку для обучения на курсе «NLP. Advanced». 🔗 Ссылка на регистрацию: https://vk.cc/cKCA7C Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 036

🔎 Подборка вакансий для джунов Data Scientist (Middle) 🟢Python, SQL, Pandas, NumPy, Matplotlib 🟢Уровень дохода не указан | 3–6 лет Data Engineer (Middle) 🟢Python, Rust, SQL, ClickHouse, PostgreSQL, Greenplum, Airflow, Dagster, Prefect, Docker, Kubernetes 🟢от 200 000 ₽ | 1–3 года Data Scientist 🟢Python, SQL, A/B тесты, MLflow, DVC, Apache Airflow, Hadoop, Spark, LLM, NLP 🟢Уровень дохода не указан | 3–6 лет

20 036

⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется? One-Hot Encoding — это способ преобразования категориальных признаков в числовые. Он создаёт бинарные столбцы для каждого уникального значения категории. Это важно, потому что большинство алгоритмов машинного обучения не работают напрямую с текстовыми значениями. ➡️ Пример:

import pandas as pd

df = pd.DataFrame({'Цвет': ['красный', 'синий', 'зелёный']})

encoded = pd.get_dummies(df)
print(encoded)

🗣️ В этом примере get_dummies() преобразует колонку Цвет в три бинарных признака: Цвет_красный, Цвет_синий, Цвет_зелёный. Для каждой строки только один из них равен 1, остальные — 0.

🖥 Подробнее тут

20 036

🖥 Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект Кратко о том, как Суцкевер стал не просто сооснователем OpenAI, а мозгом ChatGPT, почему ушёл в новый проект и зачем вообще создавать "безопасный сверхинтеллект". Читать...

20 036

🔎 Подборка вакансий для джунов Data engineer (junior) 🟢SQL, Linux, Scala (желательно), понимание ООП, ФП, MapReduce, архитектуры Hadoop YARN, HDFS, Apache Spark 🟢от 70 000 до 140 000 ₽ | Без опыта DATA-аналитик/Аналитик данных (Junior) 🟢T-SQL (MS SQL), Python (pandas, SQLAlchemy, requests), ETL, Excel, Power BI, DAX (приветствуется) 🟢95 000 ₽ | 1–3 года Data Scientist (Junior) 🟢Python, SQL, машинное обучение, статистика, анализ данных 🟢до 150 000 ₽ | 1–3 года

20 036

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)

20 036

🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс. Читать...

20 036

Последний шанс попасть на топовое событие по DS и AI 🚀 Остались считанные дни до закрытия регистрации на конференцию по AI и данным — Data Fusion 2025! Не упустите возможность присоединиться к большому DS-сообществу и узнать о новейших исследованиях и рабочих решениях. 💡 Более 250 экспертов расскажут, как они решают реальные задачи в DS. Вас ждут кейсы, дебаты и дискуссии на актуальные темы: ✔️ Как проектировать ML-инфраструктуру, которая не сломается на проде? ✔️ RAG и LLM в аналитике — как генеративные модели меняют Data Science? ✔️ Практики CDO, DataOps и новые подходы к обработке и хранению данных. Это только часть запланированных сессий — полная программа конференции на сайте: https://data-fusion.ru/programma2025.html Если хотите быть в центре ключевых изменений в индустрии Data Science, тогда Data Fusion 2025 — это must-have! 📌 Бесплатно. 16–17 апреля, Москва, технопарк «Ломоносов». Поторопитесь, регистрация скоро закроется — https://data-fusion.ru/. Ваша безопасность для нас приоритет, поэтому для участия в конференции мы просим заполнить развернутую форму. Благодарим за понимание! — *AI — искусственный интеллект *ML — машинное обучение *LLM — Large language model — большая языковая модель *DataOps — методология разработки и предоставления данных *DS — Data Science — наука о методах анализа данных *RAG — генерация с расширенным поиском

20 036

🔥 Самые интересные статьи за последние дни: • KAN: Kolmogorov–Arnold Networks • Стандартное отклонение для полных чайников • Почему галлюцинируют нейросети [и что с этим делают] • Понимает ли Vision Llama импрессионистов? • Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL