Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

Сеть:Frontender's notes [ru]Россия33 725 Технологии и приложения6 726...

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 028 подписчиков, занимая 6 726 место в категории Технологии и приложения и 33 725 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 028 подписчиков.

Согласно последним данным от 18 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -63, а за последние 24 часа — -3, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.21%. В первые 24 часа после публикации контент обычно набирает 4.21% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 1 645 просмотров. В течение первых суток публикация набирает 843 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Благодаря высокой частоте обновлений (последние данные получены 19 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 028

Подписчики

-324 часа

-507 дней

-6330 день

1 645

Просмотры поста

~ 84324 часа

~ 1 00948 часов

8.21%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

20 024

🕵️‍♂️ Когда твоя работа зависит от Василия Задача вроде простая, но всё стопорится, потому что «это знает только Василий, он тут со времён динозавров». Никакой документации, только магия в его голове. В итоге — пока он не ответит, ты зависаешь, а проект буксует. Звучит знакомо? ⚙️ Если так, пора разорвать этот порочный круг. Вместо бесконечных вопросов начни собирать всё в одну базу знаний — хоть в Notion, хоть на салфетках. Предложи команде попробовать парное программирование: пока Василий творит чудеса, ты уже разбираешься, как эти фокусы повторить.

20 024

✔️ 30k аудиозаписей: наводим порядок Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных. Читать...

20 024

Как расти в Data Science: опыт Авито. В новой статье команды data science-инженеров Авито собраны практические советы для тех, кто хочет вырасти от джуна до лида в Data Science. Ревью, знания и инициативность — что еще важно для карьерного успеха? Читайте подробности по ссылке. Реклама. ООО «Авито Тех».

20 024

🔎 Подборка вакансий для сеньоров Data Scientist / Дата сайентист 🟢Python, SQL, Git, Docker, Airflow 🟢от 250 000 до 300 000 ₽ на руки | 3–6 лет Middle/Senior Python Developer 🟢Python, Django, FastAPI, Flask, PostgreSQL, MongoDB, Redis, AWS, Google Cloud, Microsoft Azure, Kafka, RabbitMQ 🟢Уровень дохода не указан | 1–3 года Senior ML Engineer (NLP, TTS) 🟢Deep Learning, NLP, TTS, CV, Python 🟢до 15 000 $ на руки | более 6 лет ML Engineer / Senior Data Scientist 🟢Python, PyTorch, TensorFlow, Airflow, PySpark, ONNX, NumPy, SQL, Docker 🟢Уровень дохода не указан | 3–6 лет Data Analyst (Antifraud) 🟢Python, Pandas, NumPy, SciPy, ClickHouse, PostgreSQL, MySQL, Redash, Superset 🟢Уровень дохода не указан | 3–6 лет

20 024

🚀 Приглашаем на бесплатный вебинар по C++! 🚀 Дата: 19 ноября 2024 года Время: 20:00 Тема: Как протестировать C++ код и оценить степень собственной лени На вебинаре поговорим о том, зачем разработчикам писать юнит-тесты, и какую пользу они несут. Посмотрим популярные фреймворки тестирования, такие как GTest и Boost, разберем несколько практических примеров. Затем попробуем оценить, достаточно ли тестов мы написали для своего кода. На занятии: 1. Научимся подключать фреймворки тестирования к своему проекту при помощи CMake. 2. Напишем готовые к запуску тесты. 3. Поговорим о том, как измерить покрытие тестами кода, какие инструменты для этого существуют. В результате: 1. Придем к тому, что вместе с кодом стоит сразу писать и юнит-тесты к нему. 2. В будущем с легкостью интегрируем любой фреймворк тестирования в свой проект. 3. Научимся не только писать тесты, но и мерить их покрытие. 👉🏻О курсе "Специализация C++ Developer" на Otus: Длительность курса: 10 месяцев. Формат: Онлайн. Программа курса: · Введение в язык C++: основы синтаксиса, структура программ, базовые конструкции. · Классы и структуры: ООП, наследование, полиморфизм, шаблоны. · Основы unit-тестирования: подключение фреймворков, написание тестов, измерение покрытия. · Стандартная библиотека и полезные алгоритмы: контейнеры, ввод-вывод, алгоритмы. 📌Скидка 15%: действует до 17 ноября! Не упустите шанс стать профессионалом в C++! Присоединяйтесь к вебинару и узнайте больше о курсе. 🔗 Регистрация на вебинар Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

🤖 Data Scientist / ML-специалист в Х5 Tech В команде Х5 вас ждет: — конкурентная зарплата, удаленка или гибридный формат; — амбициозные проекты вроде собственной платформы по работе с нейросетями и автоматического ценообразования; — прокачка навыков в корпоративном университете, митапы, конференции и общение с топами. В зависимости от выбранной команды вы будете: — генерировать тексты, настраивать чат-боты и работать с RAG-системами; — заниматься классификацией и детекцией деталей на фото; — разрабатывать рекомендательные системы. Ожидаем, что вы: — работаете в сфере Data Science или Machine Learning от трех лет; — знаете Python; — умеете работать с LLM, NLP, CV или RecSys (на выбор). ➡ Откликнуться: @oooozhegovaaaa

20 024

✔️ Как нейросети меняют работу дизайнеров Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • Не бойтесь потоков в Python, они не кусаются • Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM • Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? • Семантический веб: краткий обзор технологий и инструментов • Инструмент обеспечения качества данных: от теории к практике

20 024

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 024

🤖 Как развернуть LLM с помощью vLLM и TorchServe Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования. Читать...

20 024

🔎 Подборка вакансий для мидлов ML-инженер в IT-Хаб 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года ML-инженер/engineer в финтех гигант 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года Python-разработчик 🟢Python, REST API, gRPC, GraphQL, PostgreSQL, MongoDB, Linux, Docker, CI/CD 🟢Уровень дохода не указан | 3–6 лет Middle Data Scientist MLE 🟢Python (numpy, scipy, pandas, sklearn, catboost, pytorch), SQL (Clickhouse, PostgreSQL) 🟢от 200 000 до 350 000 ₽ | 1–3 года Middle Data инженер 🟢Python, SQL, PostgreSQL, ClickHouse, Apache Airflow, dbt, Docker, Git 🟢Уровень дохода не указан | от 1 года

20 024

❓ Что такое Overfitting и как его избежать в моделях машинного обучения? Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных. ➡️ Основные способы предотвращения Overfitting:

1. Регуляризация: • L1 и L2-регуляризация добавляют штраф к сложным моделям. • Уменьшают коэффициенты модели, предотвращая избыточное подстраивание. 2. Dropout (для нейронных сетей): • Исключение случайных нейронов на этапе обучения. 3. Снижение сложности модели: • Использование меньшего числа признаков или более простых алгоритмов. 4. Увеличение данных: • Генерация новых данных или увеличение объёма обучающей выборки.

➡️ Пример:

from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes # Загружаем данные data = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # Создаём модель с регуляризацией (Ridge) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # Оцениваем качество train_score = ridge.score(X_train, y_train) test_score = ridge.score(X_test, y_test) print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели. 🖥 Подробнее тут

20 024

⚙️ Умножение троичных матриц для нейросетей Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти. Читать...

20 024

🔎 Подборка вакансий для джунов Backend-тестировщик-программист (Python) 🟢Python, Swagger, REST API, JMeter, Postman, TMS, Git, Linux, Docker, CI/CD 🟢Уровень дохода не указан | Опыт 1–3 года Аналитик данных / Data analyst (junior) 🟢SQL, Python, DataLens, Tableau, Power BI, Jupyter Notebook 🟢до 120 000 ₽ | Опыт 1–3 года Junior Data Engineer 🟢SQL, Python, PySpark, Airflow, PostgreSQL, Git, Yandex Cloud 🟢до 120 000 ₽ | Опыт 1–3 года AI-разработчик junior 🟢Python, Keras, TensorFlow, PyTorch, Git, Linux 🟢от 30 000 до 40 000 ₽ | Без опыта Junior Python Backend Developer 🟢Python, ROS, Docker, GitLab, Jira, Confluence, Ubuntu 🟢Уровень дохода не указан | Опыт 1–3 года

20 024

⁉️ Столкнулись с тормозящим кодом? Асинхронность и потоки в Python — это два инструмента, которые могут сделать ваши программы быстрее, но где же разница? Если вам важно оптимизировать выполнение запросов и IO-операций, не пропустите бесплатный открытый урок 12 ноября в 20:00 мск! Мы рассмотрим вытесняющую и кооперативную многозадачность, обсудим процессы и потоки на уровне ОС. Вы узнаете, что такое race conditions и как их избежать, а также получите практическое понимание, как работает asyncio в Python. 👨‍💻🛠👨🏻‍💻 Урок для Python-разработчиков, Data Scientists и ML-инженеров, которые работают с базами данных, API и многозадачностью. 🔴 Запишитесь на урок и получите скидку на курс «Python для аналитики»: https://vk.cc/cEwxZ1 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 024

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)

20 024

🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • KAN: Kolmogorov–Arnold Networks • Стандартное отклонение для полных чайников • Почему галлюцинируют нейросети [и что с этим делают] • Понимает ли Vision Llama импрессионистов? • Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL

20 024

Открытый урок для разработчиков баз данных, системных администраторов и аналитиков 📒Тема: Сложности при работе с данными 📕Рассмотрим: - Какие бывают проблемы, возникающие при работе с некорректными данными. - Как эффективно обрабатывать данные с ошибками ввода. - Практические примеры очистки данных в SQL. 📗Результат: - Научитесь использовать алгоритмы для поиска и исправления ошибок в записях. - Сможете эффективно устранять дублирующие записи и стандартизировать данные в базе. - Усвоите основные подходы к автоматизации очистки данных и повышению их точности. 📘Спикер: Анастасия Чекушина — опытный разработчик и преподаватель, .net developer + lead. Встречаемся 11 ноября в 20:00 мск. Всем участникам дадим скидку на основной курс. 👉 Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://clck.ru/3EUsb8 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")