Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 725 Texnologiyalar & Aralashmalar6 726...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 021 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 726-o'rinni va Rossiya mintaqasida 33 725-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 021 obunachiga ega bo‘ldi.

18 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -63 ga, so‘nggi 24 soatda esa -3 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.21% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.21% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 645 marta ko‘riladi; birinchi sutkada odatda 843 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 19 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 021

Obunachilar

-324 soatlar

-507 kunlar

-6330 kunlar

1 645

Post ko'rishlar

~ 84324 soatlar

~ 1 00948 soatlar

8.21%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 022

Avito ML Cup — это соревнование для ML-инженеров и специалистов в области Data Science, где предстоит создать модель для рекомендаций на основе полусинтетических данных. 🚀Старт: 5 ноября 🔥Призовой фонд: 600 000 рублей. Участвовать можно как индивидуально, так и в команде до 4 человек. Предлагаемые решения проверяются автоматически по метрике ROC-AUC, а результат будет виден в лидерборде. Регистрация уже началась, не пропустите возможность! Подробности ➡️ по ссылке.

20 022

🔎 Подборка вакансий для мидлов Разработчик Python (Middle) 🟢Python, Django, Django Rest Framework, Git, MongoDB, Linux 🟢от 90 000 до 150 000 ₽ | 1–3 года Middle Python Developer 🟢Python, FastAPI, SQLAlchemy, PostgreSQL, MongoDB, Redis, Docker, GNU/Linux 🟢от 120 000 до 180 000 ₽ | 3–6 лета Middle Python разработчик 🟢Python, aiohttp, FastAPI, PostgreSQL, MongoDB, RabbitMQ, Kafka, NumPy, OpenCV 🟢от 140 000 до 240 000 ₽ до вычета налогов | 3–6 лет Data Engineer/Дата инженер (ученик) 🟢Python, SQL, Big Data, MLflow, NoSQL, machine learning, Hadoop, Apache Spark, Scala, Apache Kafka 🟢от 100 000 до 110 000 ₽ | Без опыта Data Engineer / Дата-инженер 🟢Python, PySpark, SQL, Azure (ADF, SQL DB), Databricks, Power BI, Azure DevOps 🟢от 190 000 ₽ до вычета налогов | 1–3 года

20 022

Яндекс продлил этап Квалификации на международный чемпионат по программированию Yandex Cup 2024 для ML-направления. В этом году участники погрузятся в древние эпохи и попробуют решить задачи цивилизаций прошлого с точки зрения IT. На картинках — примеры ситуаций, с которыми предстоит справиться: настроить систему разгрузки драккаров в порту викингов, помочь композитору в создании алгоритма для написания музыки, придумать систему архивации табличек астрономов династии Хань или помочь роботам пройти лабиринт Майя. Принять участие могут начинающие и опытные разработчики со всего мира. Регистрация на ML-трек доступна до 4 ноября.

20 022

❓ Как работает метод feature_importances_ в Python и зачем он нужен в Machine Learning? Метод feature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели. Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting. ➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)

# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')

🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.

🖥 Подробнее тут

20 022

🤔 Насколько хороши LLM? Статья описывает создание и адаптацию бенчмарка для оценки русскоязычных LLM в российском контексте. Основное внимание уделено подбору вопросов, актуализации содержания и корректировке оценок для соответствия современным общественным реалиям. Читать...

20 022

Поговорим про деньги в IT? Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы. Пройти опрос можно здесь

20 022

🔎 Подборка вакансий для джунов Стажер Python Back-end (офис) 🟢Python, Git, PostgreSQL, SQL, Linux, JavaScript 🟢Уровень дохода не указан | Без опыта Junior Data Engineer 🟢SQL, Big Data, DWH, ETL, Airflow, Python 🟢до 130 000 ₽ | 1–3 года Junior Python developer 🟢Python, SQL/NoSQL, BeautifulSoup, requests, pandas, Selenium, Playwright, FastAPI, pytest, unittest, Docker 🟢от 70 000 ₽ | 1–3 года Python-разработчик (Junior - Middle) 🟢Python, Django, MySQL, Django REST Framework, Linux, Git, Vue.js, HTML, CSS 🟢от 70 000 ₽ | 1–3 года Junior Data Analyst / Data Analyst 🟢SQL, Atlassian Jira, Atlassian Confluence 🟢от 60 000 до 110 000 ₽ | 1–3 года

20 022

👩‍💻 Задачка по Python Создайте Python-скрипт, который анализирует временной ряд, выявляя тренд и сезонные колебания. Используйте для этого библиотеку statsmodels и визуализируйте результат с помощью matplotlib. Скрипт должен принимать данные в формате CSV и выводить график, на котором будут отображены исходные данные, тренд и сезонные компоненты. ➡️ Пример: • python app.py analyze timeseries.csv — анализирует временной ряд из файла timeseries.csv, разлагает его на тренд и сезонные компоненты и строит график с визуализацией. Решение задачи ⬇️

import sys import pandas as pd import matplotlib.pyplot as plt from statsmodels.tsa.seasonal import seasonal_decompose def analyze_timeseries(file_path): # Чтение данных из CSV data = pd.read_csv(file_path, parse_dates=['Date'], index_col='Date') # Проверка, что в данных есть столбец 'Value' для анализа if 'Value' not in data.columns: print("Файл должен содержать столбец 'Value' с числовыми значениями.") sys.exit(1) # Декомпозиция временного ряда decomposition = seasonal_decompose(data['Value'], model='additive', period=12) # Визуализация исходного ряда, тренда, сезонной и остаточной составляющих plt.figure(figsize=(10, 8)) plt.subplot(411) plt.plot(data['Value'], label='Исходные данные') plt.legend(loc='best') plt.subplot(412) plt.plot(decomposition.trend, label='Тренд') plt.legend(loc='best') plt.subplot(413) plt.plot(decomposition.seasonal, label='Сезонность') plt.legend(loc='best') plt.subplot(414) plt.plot(decomposition.resid, label='Остатки') plt.legend(loc='best') plt.tight_layout() plt.show() if __name__ == "__main__": if len(sys.argv) < 2: print("Укажите путь к файлу CSV для анализа.") sys.exit(1) file_path = sys.argv[1] analyze_timeseries(file_path)

20 022

⚙️ Как мы создаём Visionatrix: упрощая ComfyUI В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени. Читать...

20 022

Как ускорить обучение нейросетей и обработку данных? С помощью мощных видеокарт GPU: RTX 2080Ti и RTX 4090. Они подойдут для решения сложных графических задач, обучения нейросетей и выполнения сложных вычислений в области ИИ Арендовать и потестить эти видеокарты можно в Selectel — одном из ведущих российских провайдеров ИТ-инфраструктуры. Что вы сможете при аренде облачного сервера с GPU в Selectel: ● Получить ресурсы для обучения ML-моделей ● Платить только за время использования — почасовая ставка от 29 рублей ● Использовать лучшее железо — к вашим услугам процессоры с частотами 2,4-2,6 Ггц ● Масштабироваться без проблем — мгновенный переезд на более мощную видеокарту ● Выбирать из широкого ассортимента GPU-карт — доступно 9 моделей под самые разные задачи ● Чувствовать себя спокойно — предоставляем бесплатную защиту от DDoS-атак. Арендовать серверы с почасовой оплатой

20 022

➡️ Самые интересные статьи за последние дни: • Эксперимент: даём ChatGPT полный доступ к компьютеру • Правильный путь создания python-библиотеки: от создания до публикации • Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini • Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения • Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

20 022

👩‍💻 Задачка по Python Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле. Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity. Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту. ➡️ Пример: • python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту. Решение задачи ⬇️

import pandas as pd import sys def clean_and_aggregate(file_path): # Загружаем данные data = pd.read_csv(file_path) # Удаляем строки с пустыми значениями в колонках 'price' и 'quantity' data.dropna(subset=['price', 'quantity'], inplace=True) # Преобразуем колонки в числовой формат, ошибки игнорируем data['price'] = pd.to_numeric(data['price'], errors='coerce') data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce') # Удаляем строки с некорректными значениями data.dropna(subset=['price', 'quantity'], inplace=True) # Агрегируем данные aggregated_data = data.groupby('product_id').agg( total_quantity=('quantity', 'sum'), total_sales=('price', 'sum') ).reset_index() # Сохраняем в новый CSV aggregated_data.to_csv('aggregated_data.csv', index=False) print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.") if __name__ == "__main__": if len(sys.argv) != 2: print("Использование: python app.py <путь к файлу CSV>") sys.exit(1) file_path = sys.argv[1] clean_and_aggregate(file_path)

20 022

👩‍💻 Под капотом asyncio: принципы работы и ключевые концепции Библиотека asyncio предоставляет полный набор инструментов для организации параллельного выполнения кода в Python с использованием концепции асинхронности. Но как на самом деле работает asyncio? Давайте разберемся в ключевых принципах и понятиях. Читать...

20 022

🔎 Подборка валютных вакансий Data Engineer (Дата инженер) 🟢Stack: Python, SQL, Amazon Web Services, GCP, Azure 🟢от 2 500 до 5 500 $ | 3–6 лет Data Engineer AI (удаленно) 🟢Python, DWH, PostgreSQL, CRM, ERP, SQL, ETL, Power BI, ML 🟢от 2 200 до 3 400 $ | 3–6 лет Senior backend developer - Python 🟢Python, PostgreSQL, Redis, FastAPI, Flask, Pyramid, SQLAlchemy, Celery, Pydantic, AWS 🟢от 4 000 $ | Более 6 лет QA manual/Продакт Разработчик операций AI 🟢Python, SQL, Aiogram, GPT, PostgreSQL, CRM 🟢от 800 до 1 300 $ | 1–3 года

20 022

💡 Карьера — это не про «идеальную работу», а про опыт и умение адаптироваться В мире, где всё меняется быстрее, чем ты успеваешь обновлять резюме, держаться за одну карьерную траекторию — всё равно что пытаться угнаться за горизонтом. Умение перестраиваться, пробовать новое и брать на себя задачи, которые немного пугают, — вот что реально важно. И это не про «выйди из зоны комфорта», а про осознанный выбор расти и не цепляться за привычное. 🎯 Что делать: пообщайся с коллегой из другой области, возьми на себя один проект вне своей зоны, попробуй новый инструмент или язык, устрой «ревизию» навыков — что сейчас реально работает на тебя, а что пора обновить? Простые шаги, но каждый — ключ к росту и новым возможностям.

20 022

⚙️ Оценка LLM: метрики, фреймворки и лучшие практики Статья объясняет, почему оценка LLM важна для бизнеса: модели ИИ не всегда достигают цели и нуждаются в доработке. Разбираются ключевые метрики, инструменты и лучшие практики для повышения надежности и точности. Читать...

20 022

🎃 Приглашаем на вебинар перед Хэллоуином: «Нужна ли математика на собеседованиях?» 🧙‍♀️ Темные тучи сгущаются, и в воздухе витает мистическая атмосфера... Готовы ли вы окунуться в мир загадочной математики и раскрыть тайны успешного собеседования? Тогда ждем вас 28 октября в 20:00! 🕸 https://proglib.io/w/2d4a7398 Что вас ждет в эту зловещую ночь: 💀 Ошибаться не страшно: узнаем, как неудачные проекты и опыт «в стол» превращают джуниоров в сеньоров. Расскажем истории о том, как ошибки закаляют и помогают достигать вершин мастерства. 🧛 Собеседования без подготовки? Обсудим, возможно ли пройти через испытания рекрутеров без специальной подготовки или это путь в лабиринт с привидениями. 🧙 Теория и практика — зелье успеха: • Выбор метрики оценки модели: какую метрику показать бизнесу, чтобы не столкнуться с гневом нечисти? Разберемся в разнице между MAPE и WAPE и когда какую применять. • Трансформация распределений: как превратить логнормальное распределение в нормальное без волшебной палочки? Поговорим о том, зачем это нужно и как обойтись изменением функции потерь вместо магических превращений. 🦇 Бонус для смельчаков: раскроем секреты тестирования в маркетинге, которые помогут не заблудиться в темном лесу конкурентного рынка. Не упустите шанс провести вечер в компании единомышленников, погрузиться в атмосферу Хэллоуина и получить ценные знания! 🕯 Записывайтесь на вебинар и готовьтесь к мистическим открытиям! https://proglib.io/w/2d4a7398 👻 Реклама. ИП Дрёмов Артём Сергеевич, ИНН 771391651571. Erid 2Vtzqx3tvHr

20 022

🔎 Подборка вакансий для лидов Data Science Lead 🟢Pandas, SciPy, Scikit-learn, Seaborn, Grafana, PowerBI, SQL 🟢Уровень дохода не указан | 3–6 лет Data Science Lead 🟢MLOps, Hadoop, Python, TensorFlow, PyTorch, R 🟢Уровень дохода не указан | 3–6 лет Data Science Tech Lead 🟢Python, Apache Spark, Gen AI, Chat GPT 🟢Уровень дохода не указан | 3–6 лет Tech Lead Python 🟢Python, FastAPI, Flask, Django, NoSQL 🟢Уровень дохода не указан | Более 6 лет Tech Lead (Python) 🟢Python, Linux, Nginx, Docker, Asyncio, aiohttp, Squid 🟢Уровень дохода не указан | 3–6 лет

20 022

❓ Как работает кросс-валидация в ML? Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения. ➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥 Подробнее тут

20 022

🤔 Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов? В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать. Читать...