Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 727 技术与应用6 729...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 056 名订阅者，在 技术与应用 类别中位列第 6 729，并在 俄罗斯 地区排名第 33 727 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 056 名订阅者。

根据 13 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -68，过去 24 小时变化为 -19，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.54%。内容发布后 24 小时内通常能获得 4.58% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 513 次浏览，首日通常累积 919 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 7。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 14 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 056

订阅者

-1924 小时

+337 天

-6830 天

1 513

帖子浏览量

~ 91924 小时

~ 1 10748 小时

7.54%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 051

🤔 3750 дней разработки AI или почему боты всё ещё не захватили покер Статья рассматривает создание AI для покера (Техасского безлимитного холдема) и анализирует его сложность как модели бизнес-отношений. Обсуждаются метрики и стратегии, которые игроки используют в изменяющемся контексте для принятия решений. Читать...

20 051

Отбор статей в научный журнал конференции AI Journey 2025: лови миллион за прорывное исследование! Открыт конкурс научных статей в журнал Международной конференции AI Journey с призовым фондом 1 000 000 рублей! Ключевые работы будут опубликованы в спецвыпуске журнала «Доклады РАН. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics (индексируется в Scopus/WoS). Что ждёт автора лучшей статьи? - Шанс выиграть крутой денежный приз - Возможность представить исследования на главной AI-площадке страны Правила жёсткие, но игра стоит свеч: • Только оригинальные исследования (никакого плагиата!) • Принимаются работы на русском и английском • Дедлайн — 20 августа (успей подать заявку!) Узнать подробности по ссылке: https://aij.ru/science

20 051

🔥 Самые интересные статьи за последние дни: • Реализация подобия Apple Vision Pro • Почему LLM так плохо играют в шахматы (и что с этим делать) • LLM будут врать вечно • Как мы создали LLM-модель Cotype Nano • Человек и LLM: как построить метрики для оценки моделей

20 051

🎤 Векторный поиск в YDB: семантический поиск в СУБД В блоге Яндекса рассказали о запуске векторного поиска в СУБД YDB, полностью разработанная в России с такой функциональностью. Технология позволяет искать по смыслу, а не по ключевым словам: тексты, изображения, аудио и видео переводятся в эмбеддинги и индексируются в базе. Реализация включает точный и приближенный режимы, подходит для RAG, ИИ-ассистентов и рекомендательных систем. Уже используется в «Алисе», теперь доступна и внешнему бизнесу — в облаке и on-premises. Читать...

20 051

👩‍💻 Задачка по Python Напишите функцию, которая принимает список чисел и возвращает все значения, которые являются выбросами. Выбросы определяются как значения, которые находятся ниже первого квартиля (Q1) минус 1.5 * IQR или выше третьего квартиля (Q3) плюс 1.5 * IQR, где IQR — межквартильный размах. ➡️ Пример:

Входной список:
[10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100]

Ожидаемый вывод:
[100]

Решение задачи ⬇️

import numpy as np def find_outliers(data): q1 = np.percentile(data, 25) q3 = np.percentile(data, 75) iqr = q3 - q1 lower_bound = q1 - 1.5 * iqr upper_bound = q3 + 1.5 * iqr return [x for x in data if x < lower_bound or x > upper_bound] # Пример использования: input_data = [10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100] result = find_outliers(input_data) print(result) # Ожидаемый результат: [100]

20 051

➡️ Семантическая сегментация: самый полный гайд Статья раскрывает, как семантическая сегментация помогает машинам «видеть», разбивая изображение на классы объектов. Обсуждаются её применение в автономных авто, медицине и обработке спутниковых снимков для точного распознавания контекста. Читать...

20 051

🤔 Prompt Me One More Time. Учим LLM строить графы знаний из текстов Статья описывает метод, разработанный для автоматического наполнения графов знаний с помощью LLM, что снижает вероятность «галлюцинаций» и повышает точность ответов. Решение Prompt Me One More Time подробно представлено на TextGraphs-17 конференции ACL-2024. Читать...

20 051

Получи грант на обучение в Центральном университете Несгораемый грант до 2 800 000 Р на учебу в бакалавриате Центрального университета. Подробнее о гранте: – Покрывает до 100% стоимости обучения – Выдается на все 4 года обучения в вузе – Сумма гранта не уменьшается, а может увеличиться за дополнительные достижения и успехи в учебе. Для учеников 10-х и 11-х классов. Участвуй в отборе! Подать заявку #реклама apply.centraluniversity.ru О рекламодателе

20 051

Если вы работаете с нейросетями — от файнтюнинга LLM до генерации изображений — без мощных видеокарт не обойтись. Но покупать железо — долго, дорого и не всегда оправдано. immers.cloud — облачный GPU-сервис, созданный специально для ИИ-задач. Мы знаем, что нужно разработчику и data scientist-у: 💰 Посекундная тарификация: тарифы от 23 рублей/час, платите только за время, когда сервер реально работает. ⚡️ Быстрый старт: нужный сервер поднимается за пару минут. 📈 Гибкость и масштабируемость: 12 моделей видеокарт на выбор 🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку. А если нужно прерваться — можно просто заморозить ВМ с помощью функции Shelve: данные сохранятся, а платить за простои не придется. 🎁 Дарим +20% к первому пополнению. чтобы было приятнее начать

20 051

👩‍💻 Чем отличается метод .transform() от .apply() в pandas? В pandas методы .transform() и .apply() часто используются для обработки данных по столбцам и строкам, но они работают по-разному. Метод .apply() применяет функцию к каждому элементу или ряду, и возвращает объект любой формы (например, DataFrame или Series). В отличие от него, .transform() применяет функцию к каждой ячейке или группе и возвращает объект той же формы, что и входной. ➡️ Пример:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

# Используем .apply() для вычисления суммы по столбцам
print(df.apply(sum))  # Вернет Series с суммами столбцов

# Используем .transform() для нормализации каждого значения в столбце
print(df.transform(lambda x: (x - x.mean()) / x.std()))
# Вернет DataFrame с нормализованными значениями

🗣 .apply() подходит для сложных операций и агрегаций, а .transform() удобно использовать для обработки данных с сохранением исходной структуры.

🖥 Подробнее тут

20 051

👩‍💻 FlexiPrompt: Удобное создание динамических промптов в Python Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM. Читать...

20 051

🎓 Онлайн-магистратура по ML от УрФУ и Нетологии Если ты хочешь глубже разобраться в машинном обучении, архитектуре данных и продакшене ИИ-систем — посмотри в сторону новой магистратуры «Инженерия машинного обучения » от УрФУ и Нетологии. 💡 За 2 года ты: — Освоишь разработку ML-моделей и пайплайнов — Будешь работать с Big Data и проектировать инфраструктуру под хранение/обработку данных — Получишь практику на реальных проектах, хакатонах и Kaggle — Пройдёшь путь от математики до продакшена — Получишь два диплома: от УрФУ и Нетологии 📚 Формат — полностью онлайн, можно совмещать с работой. Отличный вариант для разработчиков, которые хотят прокачаться в ML и выйти в индустрию с сильным бэкграундом. 👉 Подробнее: https://netolo.gy/egvt

20 051

⚙️ Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных. Читать...

20 051

✍ Печатает приглашение... на Cloud․ru Tech Lab! 🗓 Когда: 24 июля, 18:00 📍 Где: Москва, Гоэлро Лофт (м. Электрозаводская) В программе — четыре доклада от экспертов Cloud․ru и приглашенных гостей про AI-агентов, RAG, Ragas и сборку MCP-сервера без кода. После — тестируем AI-решения в демозоне, практикуем нетворкинг и остаемся на afterparty. Что в программе:

😶‍🌫️ Открытие митапа Дмитрий Юдин, технический лидер по развитию искусственного интеллекта, Cloud․ru 😶‍🌫️ «Как мы встроили AI-агента в онлайн-обучение» Стас Гридин, менеджер проектов и Илья Жбанов, Data Science инженер, Cloud․ru 😶‍🌫️ «Model Context Protocol (MCP): главный тренд AI-индустрии» Игорь Латкин, управляющий партнер и системный архитектор, KTS И еще два секретных доклада — от наших экспертов и приглашенного гостя.

Митап будет особенно полезен разработчикам, продуктовым менеджерам и архитекторам, а также всем, кто интересуется внедрением AI в свои сервисы. Какой формат участия выбрать? — Офлайн, если хочется присутствовать лично на площадке. — Онлайн, если вы не в Москве. Всеми записями Cloud․ru поделится после митапа. 😶‍🌫️Регистрируйтесь на митап

20 051

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)

20 051

🖥 Как работает Трансформер: очень простое описание Вот очень простое объяснение для тех, кто не хочет вдаваться в сложную математику, но и не готов принимать эту ключевую технологию как магию, которая просто работает. Конечно, никакого волшебства тут и нет — идея на самом деле довольно проста.. Читать...

20 051

🔥 Самые интересные статьи за последние дни: • Разбей и властвуй: как создать кастомный токенизатор в SpaCy • Функция property() в Python: добавляем управляемые атрибуты в классы • Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году • cgroups и namespaces в Linux: как это работает? • ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

20 051

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")

20 051

🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс. Читать...

20 051

➡️ Путь разметки данных для NER: от Open Source до Prodigy Статья посвящена созданию обучающей выборки для NER. Описан опыт разметки данных с использованием Open Source инструментов и Prodigy, профессионального решения для ускорения процесса создания наборов данных. Читать...