Data Science | Machinelearning [ru]

前往频道在 Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

显示更多

网络:Frontender's notes [ru]俄罗斯33 725 技术与应用6 726...

📈 Telegram 频道 Data Science | Machinelearning [ru] 的分析概览

频道 Data Science | Machinelearning [ru] (@devsp) 俄语语言赛道中的是活跃参与者。目前社区聚集了 20 028 名订阅者，在 技术与应用 类别中位列第 6 726，并在 俄罗斯 地区排名第 33 725 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 20 028 名订阅者。

根据 18 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -63，过去 24 小时变化为 -3，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.21%。内容发布后 24 小时内通常能获得 4.21% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 1 645 次浏览，首日通常累积 843 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 7。
主题关注点： 内容集中在 llm, nvidia, контекст, openai, архитектура 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

凭借高频更新（最新数据采集于 19 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

20 028

订阅者

-324 小时

-507 天

-6330 天

1 645

帖子浏览量

~ 84324 小时

~ 1 00948 小时

8.21%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

20 024

🕵️‍♂️ Когда твоя работа зависит от Василия Задача вроде простая, но всё стопорится, потому что «это знает только Василий, он тут со времён динозавров». Никакой документации, только магия в его голове. В итоге — пока он не ответит, ты зависаешь, а проект буксует. Звучит знакомо? ⚙️ Если так, пора разорвать этот порочный круг. Вместо бесконечных вопросов начни собирать всё в одну базу знаний — хоть в Notion, хоть на салфетках. Предложи команде попробовать парное программирование: пока Василий творит чудеса, ты уже разбираешься, как эти фокусы повторить.

20 024

✔️ 30k аудиозаписей: наводим порядок Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных. Читать...

20 024

Как расти в Data Science: опыт Авито. В новой статье команды data science-инженеров Авито собраны практические советы для тех, кто хочет вырасти от джуна до лида в Data Science. Ревью, знания и инициативность — что еще важно для карьерного успеха? Читайте подробности по ссылке. Реклама. ООО «Авито Тех».

20 024

🔎 Подборка вакансий для сеньоров Data Scientist / Дата сайентист 🟢Python, SQL, Git, Docker, Airflow 🟢от 250 000 до 300 000 ₽ на руки | 3–6 лет Middle/Senior Python Developer 🟢Python, Django, FastAPI, Flask, PostgreSQL, MongoDB, Redis, AWS, Google Cloud, Microsoft Azure, Kafka, RabbitMQ 🟢Уровень дохода не указан | 1–3 года Senior ML Engineer (NLP, TTS) 🟢Deep Learning, NLP, TTS, CV, Python 🟢до 15 000 $ на руки | более 6 лет ML Engineer / Senior Data Scientist 🟢Python, PyTorch, TensorFlow, Airflow, PySpark, ONNX, NumPy, SQL, Docker 🟢Уровень дохода не указан | 3–6 лет Data Analyst (Antifraud) 🟢Python, Pandas, NumPy, SciPy, ClickHouse, PostgreSQL, MySQL, Redash, Superset 🟢Уровень дохода не указан | 3–6 лет

20 024

🚀 Приглашаем на бесплатный вебинар по C++! 🚀 Дата: 19 ноября 2024 года Время: 20:00 Тема: Как протестировать C++ код и оценить степень собственной лени На вебинаре поговорим о том, зачем разработчикам писать юнит-тесты, и какую пользу они несут. Посмотрим популярные фреймворки тестирования, такие как GTest и Boost, разберем несколько практических примеров. Затем попробуем оценить, достаточно ли тестов мы написали для своего кода. На занятии: 1. Научимся подключать фреймворки тестирования к своему проекту при помощи CMake. 2. Напишем готовые к запуску тесты. 3. Поговорим о том, как измерить покрытие тестами кода, какие инструменты для этого существуют. В результате: 1. Придем к тому, что вместе с кодом стоит сразу писать и юнит-тесты к нему. 2. В будущем с легкостью интегрируем любой фреймворк тестирования в свой проект. 3. Научимся не только писать тесты, но и мерить их покрытие. 👉🏻О курсе "Специализация C++ Developer" на Otus: Длительность курса: 10 месяцев. Формат: Онлайн. Программа курса: · Введение в язык C++: основы синтаксиса, структура программ, базовые конструкции. · Классы и структуры: ООП, наследование, полиморфизм, шаблоны. · Основы unit-тестирования: подключение фреймворков, написание тестов, измерение покрытия. · Стандартная библиотека и полезные алгоритмы: контейнеры, ввод-вывод, алгоритмы. 📌Скидка 15%: действует до 17 ноября! Не упустите шанс стать профессионалом в C++! Присоединяйтесь к вебинару и узнайте больше о курсе. 🔗 Регистрация на вебинар Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

🤖 Data Scientist / ML-специалист в Х5 Tech В команде Х5 вас ждет: — конкурентная зарплата, удаленка или гибридный формат; — амбициозные проекты вроде собственной платформы по работе с нейросетями и автоматического ценообразования; — прокачка навыков в корпоративном университете, митапы, конференции и общение с топами. В зависимости от выбранной команды вы будете: — генерировать тексты, настраивать чат-боты и работать с RAG-системами; — заниматься классификацией и детекцией деталей на фото; — разрабатывать рекомендательные системы. Ожидаем, что вы: — работаете в сфере Data Science или Machine Learning от трех лет; — знаете Python; — умеете работать с LLM, NLP, CV или RecSys (на выбор). ➡ Откликнуться: @oooozhegovaaaa

20 024

✔️ Как нейросети меняют работу дизайнеров Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • Не бойтесь потоков в Python, они не кусаются • Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM • Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? • Семантический веб: краткий обзор технологий и инструментов • Инструмент обеспечения качества данных: от теории к практике

20 024

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 024

🤖 Как развернуть LLM с помощью vLLM и TorchServe Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования. Читать...

20 024

🔎 Подборка вакансий для мидлов ML-инженер в IT-Хаб 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года ML-инженер/engineer в финтех гигант 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года Python-разработчик 🟢Python, REST API, gRPC, GraphQL, PostgreSQL, MongoDB, Linux, Docker, CI/CD 🟢Уровень дохода не указан | 3–6 лет Middle Data Scientist MLE 🟢Python (numpy, scipy, pandas, sklearn, catboost, pytorch), SQL (Clickhouse, PostgreSQL) 🟢от 200 000 до 350 000 ₽ | 1–3 года Middle Data инженер 🟢Python, SQL, PostgreSQL, ClickHouse, Apache Airflow, dbt, Docker, Git 🟢Уровень дохода не указан | от 1 года

20 024

❓ Что такое Overfitting и как его избежать в моделях машинного обучения? Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных. ➡️ Основные способы предотвращения Overfitting:

1. Регуляризация: • L1 и L2-регуляризация добавляют штраф к сложным моделям. • Уменьшают коэффициенты модели, предотвращая избыточное подстраивание. 2. Dropout (для нейронных сетей): • Исключение случайных нейронов на этапе обучения. 3. Снижение сложности модели: • Использование меньшего числа признаков или более простых алгоритмов. 4. Увеличение данных: • Генерация новых данных или увеличение объёма обучающей выборки.

➡️ Пример:

from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes # Загружаем данные data = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # Создаём модель с регуляризацией (Ridge) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # Оцениваем качество train_score = ridge.score(X_train, y_train) test_score = ridge.score(X_test, y_test) print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели. 🖥 Подробнее тут

20 024

⚙️ Умножение троичных матриц для нейросетей Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти. Читать...

20 024

🔎 Подборка вакансий для джунов Backend-тестировщик-программист (Python) 🟢Python, Swagger, REST API, JMeter, Postman, TMS, Git, Linux, Docker, CI/CD 🟢Уровень дохода не указан | Опыт 1–3 года Аналитик данных / Data analyst (junior) 🟢SQL, Python, DataLens, Tableau, Power BI, Jupyter Notebook 🟢до 120 000 ₽ | Опыт 1–3 года Junior Data Engineer 🟢SQL, Python, PySpark, Airflow, PostgreSQL, Git, Yandex Cloud 🟢до 120 000 ₽ | Опыт 1–3 года AI-разработчик junior 🟢Python, Keras, TensorFlow, PyTorch, Git, Linux 🟢от 30 000 до 40 000 ₽ | Без опыта Junior Python Backend Developer 🟢Python, ROS, Docker, GitLab, Jira, Confluence, Ubuntu 🟢Уровень дохода не указан | Опыт 1–3 года

20 024

⁉️ Столкнулись с тормозящим кодом? Асинхронность и потоки в Python — это два инструмента, которые могут сделать ваши программы быстрее, но где же разница? Если вам важно оптимизировать выполнение запросов и IO-операций, не пропустите бесплатный открытый урок 12 ноября в 20:00 мск! Мы рассмотрим вытесняющую и кооперативную многозадачность, обсудим процессы и потоки на уровне ОС. Вы узнаете, что такое race conditions и как их избежать, а также получите практическое понимание, как работает asyncio в Python. 👨‍💻🛠👨🏻‍💻 Урок для Python-разработчиков, Data Scientists и ML-инженеров, которые работают с базами данных, API и многозадачностью. 🔴 Запишитесь на урок и получите скидку на курс «Python для аналитики»: https://vk.cc/cEwxZ1 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 024

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)

20 024

🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • KAN: Kolmogorov–Arnold Networks • Стандартное отклонение для полных чайников • Почему галлюцинируют нейросети [и что с этим делают] • Понимает ли Vision Llama импрессионистов? • Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL

20 024

Открытый урок для разработчиков баз данных, системных администраторов и аналитиков 📒Тема: Сложности при работе с данными 📕Рассмотрим: - Какие бывают проблемы, возникающие при работе с некорректными данными. - Как эффективно обрабатывать данные с ошибками ввода. - Практические примеры очистки данных в SQL. 📗Результат: - Научитесь использовать алгоритмы для поиска и исправления ошибок в записях. - Сможете эффективно устранять дублирующие записи и стандартизировать данные в базе. - Усвоите основные подходы к автоматизации очистки данных и повышению их точности. 📘Спикер: Анастасия Чекушина — опытный разработчик и преподаватель, .net developer + lead. Встречаемся 11 ноября в 20:00 мск. Всем участникам дадим скидку на основной курс. 👉 Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://clck.ru/3EUsb8 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")