Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 725 Texnologiyalar & Aralashmalar6 726...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 028 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 726-o'rinni va Rossiya mintaqasida 33 725-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 028 obunachiga ega bo‘ldi.

18 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -63 ga, so‘nggi 24 soatda esa -3 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.21% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.21% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 645 marta ko‘riladi; birinchi sutkada odatda 843 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 19 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 028

Obunachilar

-324 soatlar

-507 kunlar

-6330 kunlar

1 645

Post ko'rishlar

~ 84324 soatlar

~ 1 00948 soatlar

8.21%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 026

👩‍💻 Нормализация набора данных Напишите функцию, которая принимает pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1. Пример:

import pandas as pd

data = pd.DataFrame({
    'feature1': [10, 20, 30, 40],
    'feature2': [1, 2, 3, 4],
    'feature3': ['A', 'B', 'C', 'D']  # Не числовой столбец
})

result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
#    feature1  feature2 feature3
# 0       0.0      0.0       A
# 1       0.333    0.333     B
# 2       0.667    0.667     C
# 3       1.0      1.0       D

Решение задачи🔽

import pandas as pd def normalize_dataframe(df): df_normalized = df.copy() for col in df.select_dtypes(include='number').columns: min_val = df[col].min() max_val = df[col].max() df_normalized[col] = (df[col] - min_val) / (max_val - min_val) return df_normalized # Пример использования: data = pd.DataFrame({ 'feature1': [10, 20, 30, 40], 'feature2': [1, 2, 3, 4], 'feature3': ['A', 'B', 'C', 'D'] }) result = normalize_dataframe(data) print(result)

20 026

🤖 Псст, ИИ нужен? 5 полезных инструментов для разработчика Статья предлагает подборку инструментов, платформ и шаблонов для работы с языковыми моделями и создания ИИ-ассистентов. Рассматриваются протестированные в МТС решения, упрощающие разработку и интеграцию. Читать...

20 026

🔎 Подборка зарубежных вакансий Senior Data Engineer 🟢Python, Java, AWS, MS SQL 🟢от 4 000 до 6 000 $ до вычета налогов | от 3 до 6 лет Data Engineer AI (удаленно) 🟢Python, DWH, SQL, ETL, PostgreSQL, Power BI 🟢от 2 200 до 3 400 $ на руки | от 1 до 3 лет Senior Data Scientist 🟢RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, A/B тестирование, MLOps, SQL 🟢от 4 500 до 6 500 $ до вычета налогов | более 6 лет Junior Consultant / German AI consulting company 🟢Английский язык, B2B маркетинг, Социальный маркетинг, Email маркетинг, Data Analysis, Python, Контент-маркетинг, B2B Продажи, Автоматизация, Нейронные сети, ChatGPT, Lean Startup, CRM, 🟢от 500 € на руки | от 1 до 3 лет

20 026

🔍 Учись читать чужой код, как книгу Работаешь над багом или новым функционалом, но каждый раз стопоришься на чужом коде? Это не только твоя боль — многим сложно понять чужую логику. 👉 Совет: подходи к коду как к истории. Читай, где начинается действие (инициализация), как развивается сюжет (основной алгоритм) и где развязка (возврат результата). Комментарии, даже редкие, — это подсказки от автора, используй их. Так ты научишься быстрее ориентироваться и даже предугадывать ошибки.

20 026

📖 «Охота на электроовец: большая книга искусственного интеллекта» или как написать книгу про ИИ без регистрации и SMS История о том, как за 6 лет я написал двухтомник, посвящённый искусственному интеллекту и машинному обучению. Читать...

20 026

📝 Подборка вакансий для лидов Team Lead Data Scientist (кредитный скоринг) • Python, SQL, Scikit-learn, Pandas, NumPy, XGBoost, LightGBM, Matplotlib, Seaborn, Plotly • Уровень дохода не указан | от 3 лет Ведущий аналитик • Microsoft Excel, Pandas, Tableau, PowerBI, SQL, Python, NumPy, SQLAlchemy • от 100 000 ₽ | опыт не указан Team Lead • Java, Golang, Python, C++, .NET • Уровень дохода не указан | от 1,5 лет QAA Lead в Сервис Транспорта • Python, Linux, Git, Docker • Уровень дохода не указан | от 5 лет

20 026

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥 Подробнее тут

20 026

💳 Как мы провели ИИ-трансформацию стратегических процессов Сбера Статья рассказывает об ИИ-трансформации Сбера, включая ключевые задачи, такие как стресс-тестирование, анализ рынков и прогнозирование эффективности сотрудников. Рассматривается использование ИИ до и после трансформации. Читать...

20 026

Ищем DL-разработчика в Точку. Мы — финтех-компания, создаём онлайн-банк и более 60 сервисов для предпринимателей, которые делают их жизнь проще. 📍До 450 000 ₽, удалёнка по всему миру Из крутого в Точке — свобода действовать. Никто не будет навязывать методы, трекать время и контролировать каждое действие. Если у тебя есть идеи, что можно улучшить — ты будешь услышан и сможешь влиять на процессы и стек. Работать предстоит в команде RnD, которая занимается экспериментальными ML-проектами. Будешь следить за новыми методами, моделями и инструментами в ML, разворачивать и адаптировать их для задач разных команд Точки. Больше о задачах и требованиях на сайте.

20 026

📈 Подборка статей для вашей карьеры • Больше чем книга • Как поставить цель на обучение, чтобы дойти до конца • Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров • Найм дизайнеров глазами лида • Software Architect vs Solution Architect

20 026

Хотите создавать идеальные C++ API, которые не ломаются на первой же нагрузке? 👉 Тогда не пропустите этот бесплатный вебинар! 3 декабря в 20:00 мск — открытый урок, который кардинально изменит ваш подход к проектированию API на C++! **Что вас ждет?** - Понимание плохого и хорошего API: как отличить чудовищное API от шедевра? - Умение правильно именовать сущности и разбивать их на атомарные элементы. Прокачаем навыки, чтобы не было «кучи кода» и «головной боли». - Идеи data-oriented подхода для создания API в высоконагруженных приложениях. **Кому это будет полезно?** - Разработчикам, кто только знакомится с C++ или переходит с других языков. - C++-программистам, которые хотят прокачать свои навыки разработки API. Вы научитесь проектировать удобный, стабильный и эффективный API для C++, который будет работать как часы. ⭐️ Спикер Андрей Рыжиков — разработчик в НИИ обработки аэрокосмических изображений. Успейте записаться на открытый урок и получите скидку на большое обучение «C++ Developer». Для участия зарегистрируйтесь: https://vk.cc/cFqnyx Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 026

📝 Подборка вакансий для сеньоров Data Engineer • Python, SQL, pandas, PostgreSQL, Docker, Redis, ClickHouse, Airflow, Spark, Git, Django, Node.js, React, Kubernetes • Уровень дохода не указан | от 2 лет Senior Data Scientist (Ценообразование) • Spark, Hadoop, S3 • до 420 000 ₽ | опыт не указан Data-аналитик (Senior) • SQL, DWH, PostgreSQL, ETL, Greenplum • Уровень дохода не указан | от 2 лет Senior Data Scientist [NUUM] • Python, SQL, Машинное обучение • Уровень дохода не указан | опыт не указан

20 026

🤖 Как удалить Excel навсегда: делегируем юнит-экономику на Wildberries нейронке Статья объясняет, как нейросети помогают оптимизировать юнит-экономику продавцов на WB, особенно при работе с большим ассортиментом. Рассматриваются подходы к автоматизации анализа и принятию решений. Читать...

20 026

⚙️ KAN 2.0: Kolmogorov-Arnold Networks Meet Science Статья представляет перевод работы о нейронных сетях на основе алгоритма Колмогорова-Арнольда (KAN). Рассматриваются новые исследования, связь с наукой и использование библиотеки pykan на Python для практических задач. Читать...

20 026

👩‍💻 Подсчёт количества слов в строке Напишите функцию, которая принимает строку и возвращает словарь, где ключами являются слова из строки, а значениями — количество их вхождений. Игнорируйте регистр и знаки препинания. Пример:

text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)  
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}

Решение задачи🔽

import re from collections import Counter def count_words(text): # Убираем знаки препинания и приводим к нижнему регистру words = re.findall(r'\b\w+\b', text.lower()) # Подсчитываем количество вхождений каждого слова return Counter(words) # Пример использования: text = "Hello, world! Hello Python world." result = count_words(text) print(result) # Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}

20 026

👀 Сравнение 30 фотореалистичных ИИ-изображений: Flux1.1 против SD3.5 В статье обсуждаются возможности Flux1.1 Pro и SD3.5 Large в генерации фотореалистичных изображений. Описаны различия моделей и их результаты после разделения команды разработчиков. Читать...

20 026

📝 Подборка вакансий для джунов Data engineer (Python Hadoop Spark) • Python 3.8+, Hadoop, Hive, Spark (PySpark), Airflow, PostgreSQL, ClickHouse, Kubernetes • Уровень дохода не указан | от 2 лет Data Engineer • Python или Scala, SQL, Apache Spark, CI/CD, Airflow • Уровень дохода не указан | от 1-2 лет Data Analyst • SQL, PL/SQL, Oracle, Jira, Confluence • Уровень дохода не указан | от 3 лет Разработчик AI • Python, Pandas, NumPy, SQL, LangChain, LlamaIndex, OpenAI API, RAG, Faiss, Qdrant, Chroma, Elasticsearch, Git • Уровень дохода не указан | от 1 года с LLM, от 3 лет с Python Python Developer • Python, Django, Linux, PostgreSQL, Celery, Redis, Pandas, NumPy • до 250 000 ₽ | от 3 лет

20 026

Yandex Cloud запустил AI Assistant API — сервис для быстрого создания умных ассистентов AI Assistant API объединяет YandexGPT и технологию поиска по базам знаний Retrieval Augmented Generation для интеграции с внешними бизнес‑системами. RAG позволяет подгружать файлы в формате PDF, DOC, TEXT или XLS в модель (загружать можно до 1000 файлов). То есть ассистента можно будет наделять новыми знаниями: его ответы будут релевантными, а галлюцинации сильно снизятся. Для создания помощников предусмотрена SDA-библиотека, где реализованы все функции по взаимодействию с моделью, инфраструктурой и внешними функциями. При этом писать код с нуля или адаптировать сторонние фреймворки не нужно. Это открывает новые возможности для компаний, у которых нет специальных ML-команд: разработать ассистента смогут и те, кто не обладает нужной экспертизой в области. Такие ассистенты могут оптимизировать техническую поддержку, создавать рекомендации на маркетплейсах, формировать индивидуальные программы обучения для сотрудников и не только. В будущем в сервисе будет реализована поддержка обращения к внешним базам знаний.

20 026

⚙️ Что такое train_test_split в Scikit-learn и зачем он используется? train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения. ➡️ Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)

🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.

🖥 Подробнее тут

20 026

💬 Внедрение ИИ в общение с клиентами Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ. Читать...