Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 725 Texnologiyalar & Aralashmalar6 726...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 028 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 726-o'rinni va Rossiya mintaqasida 33 725-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 028 obunachiga ega bo‘ldi.

18 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -63 ga, so‘nggi 24 soatda esa -3 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.21% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.21% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 645 marta ko‘riladi; birinchi sutkada odatda 843 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 19 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 028

Obunachilar

-324 soatlar

-507 kunlar

-6330 kunlar

1 645

Post ko'rishlar

~ 84324 soatlar

~ 1 00948 soatlar

8.21%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 024

🕵️‍♂️ Когда твоя работа зависит от Василия Задача вроде простая, но всё стопорится, потому что «это знает только Василий, он тут со времён динозавров». Никакой документации, только магия в его голове. В итоге — пока он не ответит, ты зависаешь, а проект буксует. Звучит знакомо? ⚙️ Если так, пора разорвать этот порочный круг. Вместо бесконечных вопросов начни собирать всё в одну базу знаний — хоть в Notion, хоть на салфетках. Предложи команде попробовать парное программирование: пока Василий творит чудеса, ты уже разбираешься, как эти фокусы повторить.

20 024

✔️ 30k аудиозаписей: наводим порядок Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных. Читать...

20 024

Как расти в Data Science: опыт Авито. В новой статье команды data science-инженеров Авито собраны практические советы для тех, кто хочет вырасти от джуна до лида в Data Science. Ревью, знания и инициативность — что еще важно для карьерного успеха? Читайте подробности по ссылке. Реклама. ООО «Авито Тех».

20 024

🔎 Подборка вакансий для сеньоров Data Scientist / Дата сайентист 🟢Python, SQL, Git, Docker, Airflow 🟢от 250 000 до 300 000 ₽ на руки | 3–6 лет Middle/Senior Python Developer 🟢Python, Django, FastAPI, Flask, PostgreSQL, MongoDB, Redis, AWS, Google Cloud, Microsoft Azure, Kafka, RabbitMQ 🟢Уровень дохода не указан | 1–3 года Senior ML Engineer (NLP, TTS) 🟢Deep Learning, NLP, TTS, CV, Python 🟢до 15 000 $ на руки | более 6 лет ML Engineer / Senior Data Scientist 🟢Python, PyTorch, TensorFlow, Airflow, PySpark, ONNX, NumPy, SQL, Docker 🟢Уровень дохода не указан | 3–6 лет Data Analyst (Antifraud) 🟢Python, Pandas, NumPy, SciPy, ClickHouse, PostgreSQL, MySQL, Redash, Superset 🟢Уровень дохода не указан | 3–6 лет

20 024

🚀 Приглашаем на бесплатный вебинар по C++! 🚀 Дата: 19 ноября 2024 года Время: 20:00 Тема: Как протестировать C++ код и оценить степень собственной лени На вебинаре поговорим о том, зачем разработчикам писать юнит-тесты, и какую пользу они несут. Посмотрим популярные фреймворки тестирования, такие как GTest и Boost, разберем несколько практических примеров. Затем попробуем оценить, достаточно ли тестов мы написали для своего кода. На занятии: 1. Научимся подключать фреймворки тестирования к своему проекту при помощи CMake. 2. Напишем готовые к запуску тесты. 3. Поговорим о том, как измерить покрытие тестами кода, какие инструменты для этого существуют. В результате: 1. Придем к тому, что вместе с кодом стоит сразу писать и юнит-тесты к нему. 2. В будущем с легкостью интегрируем любой фреймворк тестирования в свой проект. 3. Научимся не только писать тесты, но и мерить их покрытие. 👉🏻О курсе "Специализация C++ Developer" на Otus: Длительность курса: 10 месяцев. Формат: Онлайн. Программа курса: · Введение в язык C++: основы синтаксиса, структура программ, базовые конструкции. · Классы и структуры: ООП, наследование, полиморфизм, шаблоны. · Основы unit-тестирования: подключение фреймворков, написание тестов, измерение покрытия. · Стандартная библиотека и полезные алгоритмы: контейнеры, ввод-вывод, алгоритмы. 📌Скидка 15%: действует до 17 ноября! Не упустите шанс стать профессионалом в C++! Присоединяйтесь к вебинару и узнайте больше о курсе. 🔗 Регистрация на вебинар Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

🤖 Data Scientist / ML-специалист в Х5 Tech В команде Х5 вас ждет: — конкурентная зарплата, удаленка или гибридный формат; — амбициозные проекты вроде собственной платформы по работе с нейросетями и автоматического ценообразования; — прокачка навыков в корпоративном университете, митапы, конференции и общение с топами. В зависимости от выбранной команды вы будете: — генерировать тексты, настраивать чат-боты и работать с RAG-системами; — заниматься классификацией и детекцией деталей на фото; — разрабатывать рекомендательные системы. Ожидаем, что вы: — работаете в сфере Data Science или Machine Learning от трех лет; — знаете Python; — умеете работать с LLM, NLP, CV или RecSys (на выбор). ➡ Откликнуться: @oooozhegovaaaa

20 024

✔️ Как нейросети меняют работу дизайнеров Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • Не бойтесь потоков в Python, они не кусаются • Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM • Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? • Семантический веб: краткий обзор технологий и инструментов • Инструмент обеспечения качества данных: от теории к практике

20 024

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 024

🤖 Как развернуть LLM с помощью vLLM и TorchServe Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования. Читать...

20 024

🔎 Подборка вакансий для мидлов ML-инженер в IT-Хаб 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года ML-инженер/engineer в финтех гигант 🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker 🟢Уровень дохода не указан | 1–3 года Python-разработчик 🟢Python, REST API, gRPC, GraphQL, PostgreSQL, MongoDB, Linux, Docker, CI/CD 🟢Уровень дохода не указан | 3–6 лет Middle Data Scientist MLE 🟢Python (numpy, scipy, pandas, sklearn, catboost, pytorch), SQL (Clickhouse, PostgreSQL) 🟢от 200 000 до 350 000 ₽ | 1–3 года Middle Data инженер 🟢Python, SQL, PostgreSQL, ClickHouse, Apache Airflow, dbt, Docker, Git 🟢Уровень дохода не указан | от 1 года

20 024

❓ Что такое Overfitting и как его избежать в моделях машинного обучения? Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных. ➡️ Основные способы предотвращения Overfitting:

1. Регуляризация: • L1 и L2-регуляризация добавляют штраф к сложным моделям. • Уменьшают коэффициенты модели, предотвращая избыточное подстраивание. 2. Dropout (для нейронных сетей): • Исключение случайных нейронов на этапе обучения. 3. Снижение сложности модели: • Использование меньшего числа признаков или более простых алгоритмов. 4. Увеличение данных: • Генерация новых данных или увеличение объёма обучающей выборки.

➡️ Пример:

from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes # Загружаем данные data = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # Создаём модель с регуляризацией (Ridge) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # Оцениваем качество train_score = ridge.score(X_train, y_train) test_score = ridge.score(X_test, y_test) print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели. 🖥 Подробнее тут

20 024

⚙️ Умножение троичных матриц для нейросетей Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти. Читать...

20 024

🔎 Подборка вакансий для джунов Backend-тестировщик-программист (Python) 🟢Python, Swagger, REST API, JMeter, Postman, TMS, Git, Linux, Docker, CI/CD 🟢Уровень дохода не указан | Опыт 1–3 года Аналитик данных / Data analyst (junior) 🟢SQL, Python, DataLens, Tableau, Power BI, Jupyter Notebook 🟢до 120 000 ₽ | Опыт 1–3 года Junior Data Engineer 🟢SQL, Python, PySpark, Airflow, PostgreSQL, Git, Yandex Cloud 🟢до 120 000 ₽ | Опыт 1–3 года AI-разработчик junior 🟢Python, Keras, TensorFlow, PyTorch, Git, Linux 🟢от 30 000 до 40 000 ₽ | Без опыта Junior Python Backend Developer 🟢Python, ROS, Docker, GitLab, Jira, Confluence, Ubuntu 🟢Уровень дохода не указан | Опыт 1–3 года

20 024

⁉️ Столкнулись с тормозящим кодом? Асинхронность и потоки в Python — это два инструмента, которые могут сделать ваши программы быстрее, но где же разница? Если вам важно оптимизировать выполнение запросов и IO-операций, не пропустите бесплатный открытый урок 12 ноября в 20:00 мск! Мы рассмотрим вытесняющую и кооперативную многозадачность, обсудим процессы и потоки на уровне ОС. Вы узнаете, что такое race conditions и как их избежать, а также получите практическое понимание, как работает asyncio в Python. 👨‍💻🛠👨🏻‍💻 Урок для Python-разработчиков, Data Scientists и ML-инженеров, которые работают с базами данных, API и многозадачностью. 🔴 Запишитесь на урок и получите скидку на курс «Python для аналитики»: https://vk.cc/cEwxZ1 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 024

👩‍💻 Задачка по Python Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений. ➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd def fill_missing_with_mean(df): numeric_columns = df.select_dtypes(include=['float', 'int']) for column in numeric_columns: if df[column].notna().any(): # Проверяем, есть ли значения не NaN df[column] = df[column].fillna(df[column].mean()) return df # Пример использования: data = pd.DataFrame({ 'feature1': [1.0, 2.0, None, 4.0], 'feature2': [10.0, None, 30.0, 40.0], 'feature3': [None, None, None, None] }) result = fill_missing_with_mean(data) print(result)

20 024

🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс. Читать...

20 024

🔥 Самые интересные статьи за последние дни: • KAN: Kolmogorov–Arnold Networks • Стандартное отклонение для полных чайников • Почему галлюцинируют нейросети [и что с этим делают] • Понимает ли Vision Llama импрессионистов? • Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL

20 024

Открытый урок для разработчиков баз данных, системных администраторов и аналитиков 📒Тема: Сложности при работе с данными 📕Рассмотрим: - Какие бывают проблемы, возникающие при работе с некорректными данными. - Как эффективно обрабатывать данные с ошибками ввода. - Практические примеры очистки данных в SQL. 📗Результат: - Научитесь использовать алгоритмы для поиска и исправления ошибок в записях. - Сможете эффективно устранять дублирующие записи и стандартизировать данные в базе. - Усвоите основные подходы к автоматизации очистки данных и повышению их точности. 📘Спикер: Анастасия Чекушина — опытный разработчик и преподаватель, .net developer + lead. Встречаемся 11 ноября в 20:00 мск. Всем участникам дадим скидку на основной курс. 👉 Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://clck.ru/3EUsb8 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 024

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")