Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 725 技术与应用6 726...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 028 名订阅者，在 技术与应用 类别中位列第 6 726，并在 俄罗斯 地区排名第 33 725 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 028 名订阅者。

根据 18 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -63，过去 24 小时变化为 -3，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.21%。内容发布后 24 小时内通常能获得 4.21% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 645 次浏览，首日通常累积 843 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 7。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 19 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 028

订阅者

-324 小时

-507 天

-6330 天

1 645

帖子浏览量

~ 84324 小时

~ 1 00948 小时

8.21%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 026

👩‍💻 Нормализация набора данных Напишите функцию, которая принимает pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1. Пример:

import pandas as pd

data = pd.DataFrame({
    'feature1': [10, 20, 30, 40],
    'feature2': [1, 2, 3, 4],
    'feature3': ['A', 'B', 'C', 'D']  # Не числовой столбец
})

result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
#    feature1  feature2 feature3
# 0       0.0      0.0       A
# 1       0.333    0.333     B
# 2       0.667    0.667     C
# 3       1.0      1.0       D

Решение задачи🔽

import pandas as pd def normalize_dataframe(df): df_normalized = df.copy() for col in df.select_dtypes(include='number').columns: min_val = df[col].min() max_val = df[col].max() df_normalized[col] = (df[col] - min_val) / (max_val - min_val) return df_normalized # Пример использования: data = pd.DataFrame({ 'feature1': [10, 20, 30, 40], 'feature2': [1, 2, 3, 4], 'feature3': ['A', 'B', 'C', 'D'] }) result = normalize_dataframe(data) print(result)

20 026

🤖 Псст, ИИ нужен? 5 полезных инструментов для разработчика Статья предлагает подборку инструментов, платформ и шаблонов для работы с языковыми моделями и создания ИИ-ассистентов. Рассматриваются протестированные в МТС решения, упрощающие разработку и интеграцию. Читать...

20 026

🔎 Подборка зарубежных вакансий Senior Data Engineer 🟢Python, Java, AWS, MS SQL 🟢от 4 000 до 6 000 $ до вычета налогов | от 3 до 6 лет Data Engineer AI (удаленно) 🟢Python, DWH, SQL, ETL, PostgreSQL, Power BI 🟢от 2 200 до 3 400 $ на руки | от 1 до 3 лет Senior Data Scientist 🟢RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, A/B тестирование, MLOps, SQL 🟢от 4 500 до 6 500 $ до вычета налогов | более 6 лет Junior Consultant / German AI consulting company 🟢Английский язык, B2B маркетинг, Социальный маркетинг, Email маркетинг, Data Analysis, Python, Контент-маркетинг, B2B Продажи, Автоматизация, Нейронные сети, ChatGPT, Lean Startup, CRM, 🟢от 500 € на руки | от 1 до 3 лет

20 026

🔍 Учись читать чужой код, как книгу Работаешь над багом или новым функционалом, но каждый раз стопоришься на чужом коде? Это не только твоя боль — многим сложно понять чужую логику. 👉 Совет: подходи к коду как к истории. Читай, где начинается действие (инициализация), как развивается сюжет (основной алгоритм) и где развязка (возврат результата). Комментарии, даже редкие, — это подсказки от автора, используй их. Так ты научишься быстрее ориентироваться и даже предугадывать ошибки.

20 026

📖 «Охота на электроовец: большая книга искусственного интеллекта» или как написать книгу про ИИ без регистрации и SMS История о том, как за 6 лет я написал двухтомник, посвящённый искусственному интеллекту и машинному обучению. Читать...

20 026

📝 Подборка вакансий для лидов Team Lead Data Scientist (кредитный скоринг) • Python, SQL, Scikit-learn, Pandas, NumPy, XGBoost, LightGBM, Matplotlib, Seaborn, Plotly • Уровень дохода не указан | от 3 лет Ведущий аналитик • Microsoft Excel, Pandas, Tableau, PowerBI, SQL, Python, NumPy, SQLAlchemy • от 100 000 ₽ | опыт не указан Team Lead • Java, Golang, Python, C++, .NET • Уровень дохода не указан | от 1,5 лет QAA Lead в Сервис Транспорта • Python, Linux, Git, Docker • Уровень дохода не указан | от 5 лет

20 026

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥 Подробнее тут

20 026

💳 Как мы провели ИИ-трансформацию стратегических процессов Сбера Статья рассказывает об ИИ-трансформации Сбера, включая ключевые задачи, такие как стресс-тестирование, анализ рынков и прогнозирование эффективности сотрудников. Рассматривается использование ИИ до и после трансформации. Читать...

20 026

Ищем DL-разработчика в Точку. Мы — финтех-компания, создаём онлайн-банк и более 60 сервисов для предпринимателей, которые делают их жизнь проще. 📍До 450 000 ₽, удалёнка по всему миру Из крутого в Точке — свобода действовать. Никто не будет навязывать методы, трекать время и контролировать каждое действие. Если у тебя есть идеи, что можно улучшить — ты будешь услышан и сможешь влиять на процессы и стек. Работать предстоит в команде RnD, которая занимается экспериментальными ML-проектами. Будешь следить за новыми методами, моделями и инструментами в ML, разворачивать и адаптировать их для задач разных команд Точки. Больше о задачах и требованиях на сайте.

20 026

📈 Подборка статей для вашей карьеры • Больше чем книга • Как поставить цель на обучение, чтобы дойти до конца • Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров • Найм дизайнеров глазами лида • Software Architect vs Solution Architect

20 026

Хотите создавать идеальные C++ API, которые не ломаются на первой же нагрузке? 👉 Тогда не пропустите этот бесплатный вебинар! 3 декабря в 20:00 мск — открытый урок, который кардинально изменит ваш подход к проектированию API на C++! **Что вас ждет?** - Понимание плохого и хорошего API: как отличить чудовищное API от шедевра? - Умение правильно именовать сущности и разбивать их на атомарные элементы. Прокачаем навыки, чтобы не было «кучи кода» и «головной боли». - Идеи data-oriented подхода для создания API в высоконагруженных приложениях. **Кому это будет полезно?** - Разработчикам, кто только знакомится с C++ или переходит с других языков. - C++-программистам, которые хотят прокачать свои навыки разработки API. Вы научитесь проектировать удобный, стабильный и эффективный API для C++, который будет работать как часы. ⭐️ Спикер Андрей Рыжиков — разработчик в НИИ обработки аэрокосмических изображений. Успейте записаться на открытый урок и получите скидку на большое обучение «C++ Developer». Для участия зарегистрируйтесь: https://vk.cc/cFqnyx Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 026

📝 Подборка вакансий для сеньоров Data Engineer • Python, SQL, pandas, PostgreSQL, Docker, Redis, ClickHouse, Airflow, Spark, Git, Django, Node.js, React, Kubernetes • Уровень дохода не указан | от 2 лет Senior Data Scientist (Ценообразование) • Spark, Hadoop, S3 • до 420 000 ₽ | опыт не указан Data-аналитик (Senior) • SQL, DWH, PostgreSQL, ETL, Greenplum • Уровень дохода не указан | от 2 лет Senior Data Scientist [NUUM] • Python, SQL, Машинное обучение • Уровень дохода не указан | опыт не указан

20 026

🤖 Как удалить Excel навсегда: делегируем юнит-экономику на Wildberries нейронке Статья объясняет, как нейросети помогают оптимизировать юнит-экономику продавцов на WB, особенно при работе с большим ассортиментом. Рассматриваются подходы к автоматизации анализа и принятию решений. Читать...

20 026

⚙️ KAN 2.0: Kolmogorov-Arnold Networks Meet Science Статья представляет перевод работы о нейронных сетях на основе алгоритма Колмогорова-Арнольда (KAN). Рассматриваются новые исследования, связь с наукой и использование библиотеки pykan на Python для практических задач. Читать...

20 026

👩‍💻 Подсчёт количества слов в строке Напишите функцию, которая принимает строку и возвращает словарь, где ключами являются слова из строки, а значениями — количество их вхождений. Игнорируйте регистр и знаки препинания. Пример:

text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)  
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}

Решение задачи🔽

import re from collections import Counter def count_words(text): # Убираем знаки препинания и приводим к нижнему регистру words = re.findall(r'\b\w+\b', text.lower()) # Подсчитываем количество вхождений каждого слова return Counter(words) # Пример использования: text = "Hello, world! Hello Python world." result = count_words(text) print(result) # Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}

20 026

👀 Сравнение 30 фотореалистичных ИИ-изображений: Flux1.1 против SD3.5 В статье обсуждаются возможности Flux1.1 Pro и SD3.5 Large в генерации фотореалистичных изображений. Описаны различия моделей и их результаты после разделения команды разработчиков. Читать...

20 026

📝 Подборка вакансий для джунов Data engineer (Python Hadoop Spark) • Python 3.8+, Hadoop, Hive, Spark (PySpark), Airflow, PostgreSQL, ClickHouse, Kubernetes • Уровень дохода не указан | от 2 лет Data Engineer • Python или Scala, SQL, Apache Spark, CI/CD, Airflow • Уровень дохода не указан | от 1-2 лет Data Analyst • SQL, PL/SQL, Oracle, Jira, Confluence • Уровень дохода не указан | от 3 лет Разработчик AI • Python, Pandas, NumPy, SQL, LangChain, LlamaIndex, OpenAI API, RAG, Faiss, Qdrant, Chroma, Elasticsearch, Git • Уровень дохода не указан | от 1 года с LLM, от 3 лет с Python Python Developer • Python, Django, Linux, PostgreSQL, Celery, Redis, Pandas, NumPy • до 250 000 ₽ | от 3 лет

20 026

Yandex Cloud запустил AI Assistant API — сервис для быстрого создания умных ассистентов AI Assistant API объединяет YandexGPT и технологию поиска по базам знаний Retrieval Augmented Generation для интеграции с внешними бизнес‑системами. RAG позволяет подгружать файлы в формате PDF, DOC, TEXT или XLS в модель (загружать можно до 1000 файлов). То есть ассистента можно будет наделять новыми знаниями: его ответы будут релевантными, а галлюцинации сильно снизятся. Для создания помощников предусмотрена SDA-библиотека, где реализованы все функции по взаимодействию с моделью, инфраструктурой и внешними функциями. При этом писать код с нуля или адаптировать сторонние фреймворки не нужно. Это открывает новые возможности для компаний, у которых нет специальных ML-команд: разработать ассистента смогут и те, кто не обладает нужной экспертизой в области. Такие ассистенты могут оптимизировать техническую поддержку, создавать рекомендации на маркетплейсах, формировать индивидуальные программы обучения для сотрудников и не только. В будущем в сервисе будет реализована поддержка обращения к внешним базам знаний.

20 026

⚙️ Что такое train_test_split в Scikit-learn и зачем он используется? train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения. ➡️ Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)

🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.

🖥 Подробнее тут

20 026

💬 Внедрение ИИ в общение с клиентами Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ. Читать...