Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 725 Technologies & Applications6 726...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 028 subscribers, ranking 6 726 in the Technologies & Applications category and 33 725 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 028 subscribers.

According to the latest data from 18 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -63 over the last 30 days and by -3 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.21%. Within the first 24 hours after publication, content typically collects 4.21% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 645 views. Within the first day, a publication typically gains 843 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 19 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 028

Subscribers

-324 hours

-507 days

-6330 days

1 645

Post views

~ 84324 hours

~ 1 00948 hours

8.21%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 024

🕵️‍♂️ Когда твоя работа зависит от Василия Задача вроде простая, но всё стопорится, потому что «это знает только Василий, он тут со времён динозавров». Никакой документации, только магия в его голове. В итоге — пока он не ответит, ты зависаешь, а проект буксует. Звучит знакомо? ⚙️ Если так, пора разорвать этот порочный круг. Вместо бесконечных вопросов начни собирать всё в одну базу знаний — хоть в Notion, хоть на салфетках. Предложи команде попробовать парное программирование: пока Василий творит чудеса, ты уже разбираешься, как эти фокусы повторить.

20 024

✔️ 30k аудиозаписей: наводим порядок Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных. Читать...

20 024

Как расти в Data Science: опыт Авито. В новой статье команды data science-инженеров Авито собраны практические советы для тех, кто хочет вырасти от джуна до лида в Data Science. Ревью, знания и инициативность — что еще важно для карьерного успеха? Читайте подробности по ссылке. Реклама. ООО «Авито Тех».

20 024

🔎 Подборка вакансий для сеньоров Data Scientist / Дата сайентист 🟢Python, SQL, Git, Docker, Airflow 🟢от 250 000 до 300 000 ₽ на руки | 3–6 лет Middle/Senior Python Developer 🟢Python, Django, FastAPI, Flask, PostgreSQL, MongoDB, Redis, AWS, Google Cloud, Microsoft Azure, Kafka, RabbitMQ 🟢Уровень дохода не указан | 1–3 года Senior ML Engineer (NLP, TTS) 🟢Deep Learning, NLP, TTS, CV, Python 🟢до 15 000 $ на руки | более 6 лет ML Engineer / Senior Data Scientist 🟢Python, PyTorch, TensorFlow, Airflow, PySpark, ONNX, NumPy, SQL, Docker 🟢Уровень дохода не указан | 3–6 лет Data Analyst (Antifraud) 🟢Python, Pandas, NumPy, SciPy, ClickHouse, PostgreSQL, MySQL, Redash, Superset 🟢Уровень дохода не указан | 3–6 лет

20 024

🚀 Приглашаем на бесплатный вебинар по C++! 🚀 Дата: 19 ноября 2024 года Время: 20:00 Тема: Как протестировать C++ код и оценить степень собственной лени На вебинаре поговорим о том, зачем разработчикам писать юнит-тесты, и какую пользу они несут. Посмотрим популярные фреймворки тестирования, такие как GTest и Boost, разберем несколько практических примеров. Затем попробуем оценить, достаточно ли тестов мы написали для своего кода. На занятии: 1. Научимся подключать фреймворки тестирования к своему проекту при помощи CMake. 2. Напишем готовые к запуску тесты. 3. Поговорим о том, как измерить покрытие тестами кода, какие инструменты для этого существуют. В результате: 1. Придем к тому, что вместе с кодом стоит сразу писать и юнит-тесты к нему. 2. В будущем с легкостью интегрируем любой фреймворк тестирования в свой проект. 3. Научимся не только писать тесты, но и мерить их покрытие. 👉🏻О курсе "Специализация C++ Developer" на Otus: Длительность курса: 10 месяцев. Формат: Онлайн. Программа курса: · Введение в язык C++: основы синтаксиса, структура программ, базовые конструкции. · Классы и структуры: ООП, наследование, полиморфизм, шаблоны. · Основы unit-тестирования: подключение фреймворков, написание тестов, измерение покрытия. · Стандартная библиотека и полезные алгоритмы: контейнеры, ввод-вывод, алгоритмы. 📌Скидка 15%: действует до 17 ноября! Не упустите шанс стать профессионалом в C++! Присоединяйтесь к вебинару и узнайте больше о курсе. 🔗 Регистрация на вебинар Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

🤖 Data Scientist / ML-специалист в Х5 Tech В команде Х5 вас ждет: — конкурентная зарплата, удаленка или гибридный формат; — амбициозные проекты вроде собственной платформы по работе с нейросетями и автоматического ценообразования; — прокачка навыков в корпоративном университете, митапы, конференции и общение с топами. В зависимости от выбранной команды вы будете: — генерировать тексты, настраивать чат-боты и работать с RAG-системами; — заниматься классификацией и детекцией деталей на фото; — разрабатывать рекомендательные системы. Ожидаем, что вы: — работаете в сфере Data Science или Machine Learning от трех лет; — знаете Python; — умеете работать с LLM, NLP, CV или RecSys (на выбор). ➡ Откликнуться: @oooozhegovaaaa

20 024

✔️ Как нейросети меняют работу дизайнеров Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • Не бойтесь потоков в Python, они не кусаются • Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM • Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? • Семантический веб: краткий обзор технологий и инструментов • Инструмент обеспечения качества данных: от теории к практике

20 024

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 024

🤖 Как развернуть LLM с помощью vLLM и TorchServe Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования. Читать...

20 024

🔎 Подборка вакансий для мидлов ML-инженер в IT-Хаб 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года ML-инженер/engineer в финтех гигант 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года Python-разработчик 🟢Python, REST API, gRPC, GraphQL, PostgreSQL, MongoDB, Linux, Docker, CI/CD 🟢Уровень дохода не указан | 3–6 лет Middle Data Scientist MLE 🟢Python (numpy, scipy, pandas, sklearn, catboost, pytorch), SQL (Clickhouse, PostgreSQL) 🟢от 200 000 до 350 000 ₽ | 1–3 года Middle Data инженер 🟢Python, SQL, PostgreSQL, ClickHouse, Apache Airflow, dbt, Docker, Git 🟢Уровень дохода не указан | от 1 года

20 024

❓ Что такое Overfitting и как его избежать в моделях машинного обучения? Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных. ➡️ Основные способы предотвращения Overfitting:

1. Регуляризация: • L1 и L2-регуляризация добавляют штраф к сложным моделям. • Уменьшают коэффициенты модели, предотвращая избыточное подстраивание. 2. Dropout (для нейронных сетей): • Исключение случайных нейронов на этапе обучения. 3. Снижение сложности модели: • Использование меньшего числа признаков или более простых алгоритмов. 4. Увеличение данных: • Генерация новых данных или увеличение объёма обучающей выборки.

➡️ Пример:

from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes # Загружаем данные data = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # Создаём модель с регуляризацией (Ridge) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # Оцениваем качество train_score = ridge.score(X_train, y_train) test_score = ridge.score(X_test, y_test) print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели. 🖥 Подробнее тут

20 024

⚙️ Умножение троичных матриц для нейросетей Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти. Читать...

20 024

🔎 Подборка вакансий для джунов Backend-тестировщик-программист (Python) 🟢Python, Swagger, REST API, JMeter, Postman, TMS, Git, Linux, Docker, CI/CD 🟢Уровень дохода не указан | Опыт 1–3 года Аналитик данных / Data analyst (junior) 🟢SQL, Python, DataLens, Tableau, Power BI, Jupyter Notebook 🟢до 120 000 ₽ | Опыт 1–3 года Junior Data Engineer 🟢SQL, Python, PySpark, Airflow, PostgreSQL, Git, Yandex Cloud 🟢до 120 000 ₽ | Опыт 1–3 года AI-разработчик junior 🟢Python, Keras, TensorFlow, PyTorch, Git, Linux 🟢от 30 000 до 40 000 ₽ | Без опыта Junior Python Backend Developer 🟢Python, ROS, Docker, GitLab, Jira, Confluence, Ubuntu 🟢Уровень дохода не указан | Опыт 1–3 года

20 024

⁉️ Столкнулись с тормозящим кодом? Асинхронность и потоки в Python — это два инструмента, которые могут сделать ваши программы быстрее, но где же разница? Если вам важно оптимизировать выполнение запросов и IO-операций, не пропустите бесплатный открытый урок 12 ноября в 20:00 мск! Мы рассмотрим вытесняющую и кооперативную многозадачность, обсудим процессы и потоки на уровне ОС. Вы узнаете, что такое race conditions и как их избежать, а также получите практическое понимание, как работает asyncio в Python. 👨‍💻🛠👨🏻‍💻 Урок для Python-разработчиков, Data Scientists и ML-инженеров, которые работают с базами данных, API и многозадачностью. 🔴 Запишитесь на урок и получите скидку на курс «Python для аналитики»: https://vk.cc/cEwxZ1 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 024

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)

20 024

🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • KAN: Kolmogorov–Arnold Networks • Стандартное отклонение для полных чайников • Почему галлюцинируют нейросети [и что с этим делают] • Понимает ли Vision Llama импрессионистов? • Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL

20 024

Открытый урок для разработчиков баз данных, системных администраторов и аналитиков 📒Тема: Сложности при работе с данными 📕Рассмотрим: - Какие бывают проблемы, возникающие при работе с некорректными данными. - Как эффективно обрабатывать данные с ошибками ввода. - Практические примеры очистки данных в SQL. 📗Результат: - Научитесь использовать алгоритмы для поиска и исправления ошибок в записях. - Сможете эффективно устранять дублирующие записи и стандартизировать данные в базе. - Усвоите основные подходы к автоматизации очистки данных и повышению их точности. 📘Спикер: Анастасия Чекушина — опытный разработчик и преподаватель, .net developer + lead. Встречаемся 11 ноября в 20:00 мск. Всем участникам дадим скидку на основной курс. 👉 Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://clck.ru/3EUsb8 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")