Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 730 Texnologiyalar & Aralashmalar6 734...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 036 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 734-o'rinni va Rossiya mintaqasida 33 730-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 036 obunachiga ega bo‘ldi.

15 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -82 ga, so‘nggi 24 soatda esa -1 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.88% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.47% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 580 marta ko‘riladi; birinchi sutkada odatda 896 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 16 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 036

Obunachilar

-124 soatlar

+307 kunlar

-8230 kunlar

1 580

Post ko'rishlar

~ 89624 soatlar

~ 1 08548 soatlar

7.88%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 035

📝 Подборка вакансий для сеньоров Database Administrator • ClickHouse, PostgreSQL, Debian/Ubuntu, Systemd, TCP/IP, iptables, SSH, x509-сертификаты, Bash, LVM • до 5 000 $ | от 3 лет опыта Data engineer • SQL, Hive-SQL, Spark, AirFlow, Git, DWH, реляционные и NoSQL базы данных • Уровень дохода не указан | от 2 лет опыта Data-аналитик (Senior) • SQL, PostgreSQL, Greenplum, ETL, DWH, оконные функции, оптимизация запросов • Уровень дохода не указан | от 2 лет опыта

20 035

🤔 Реальная эффективность Qwen 2.5 Coder против ChatGPT (или можно ли сэкономить 20$?) В статье будет рассмотрена практическая проверка возможностей модели Qwen 2.5 Coder на основе задачи перевода кода из VB в C#. Узнаем, сможет ли она справиться с нюансами цикла и корректно адаптировать формулу. Читать...

20 035

Станьте инженером данных с нуля за 5 месяцев, обучаясь на реальных задачах бизнеса. Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учился складывать 2+2, а на работе – сразу отправляют считать интегралы. Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: например, вы будете формировать продуктовые рекомендации для клиентов крупного телекома с помощью Clickhouse. Обучение охватывает весь стек, который нужен специалисту: SQL, Python, Metabse, Linux, Docker, Airflow, Clickhouse, Hadoop и Spark. А также готовит к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое. С трудоустройством поможем, а на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу. Еще успеваете записаться в текущий поток . По промокоду DEV дарим скидку 12%

20 035

👩‍💻 FlexiPrompt: Удобное создание динамических промптов в Python Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM. Читать...

20 035

👩‍💻 Задачка по Python Напишите функцию, которая принимает список чисел и возвращает все значения, которые являются выбросами. Выбросы определяются как значения, которые находятся ниже первого квартиля (Q1) минус 1.5 * IQR или выше третьего квартиля (Q3) плюс 1.5 * IQR, где IQR — межквартильный размах. ➡️ Пример:

Входной список:
[10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100]

Ожидаемый вывод:
[100]

Решение задачи ⬇️

import numpy as np def find_outliers(data): q1 = np.percentile(data, 25) q3 = np.percentile(data, 75) iqr = q3 - q1 lower_bound = q1 - 1.5 * iqr upper_bound = q3 + 1.5 * iqr return [x for x in data if x < lower_bound or x > upper_bound] # Пример использования: input_data = [10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100] result = find_outliers(input_data) print(result) # Ожидаемый результат: [100]

20 035

🤔 3750 дней разработки AI или почему боты всё ещё не захватили покер Статья рассматривает создание AI для покера (Техасского безлимитного холдема) и анализирует его сложность как модели бизнес-отношений. Обсуждаются метрики и стратегии, которые игроки используют в изменяющемся контексте для принятия решений. Читать...

20 035

📝 Подборка вакансий для мидлов Data-аналитик • Python, SQL, Apache Hadoop, Kubernetes, Docker • Уровень дохода не указан | от 2 лет опыта Data-инженер • Python, Greenplum, Apache Airflow, Apache Spark, ETL, Apache Hadoop, Linux, PostgreSQL, Kubernetes, SQL • Уровень дохода не указан | от 2 лет опыта Data Analyst • Python, Apache Spark, SQL, Apache Hadoop • Уровень дохода не указан | от 2 лет опыта

20 035

👩‍💻 Как работает модуль os в Python для работы с файловой системой? Модуль os в Python предоставляет инструменты для взаимодействия с операционной системой. С его помощью можно управлять файлами и директориями, получать информацию о системе и переменных окружения, а также выполнять системные команды. Этот модуль особенно полезен для кроссплатформенных сценариев. ➡️ Пример:

import os

# Получение текущей директории
current_dir = os.getcwd()
print('Текущая директория:', current_dir)

# Создание новой директории
os.mkdir('new_folder')
print('Создана директория new_folder')

🗣 os позволяет удобно и кроссплатформенно работать с файловой системой, выполнять команды и настраивать окружение.

20 035

🤔 Prompt Me One More Time. Учим LLM строить графы знаний из текстов Статья описывает метод, разработанный для автоматического наполнения графов знаний с помощью LLM, что снижает вероятность «галлюцинаций» и повышает точность ответов. Решение Prompt Me One More Time подробно представлено на TextGraphs-17 конференции ACL-2024. Читать...

20 035

🔎 Подборка вакансий для джунов Data-аналитик в области временных рядов (Junior) 🟢Python, pandas, numpy, scipy, matplotlib, seaborn, SQL 🟢от 40 000 ₽ до вычета налогов | 1–3 года опыта Продуктовый аналитик/junior product менеджер 🟢SQL, Google Analytics, Tableau, Power BI, BigQuery, Looker, UML, Use Case Analysis 🟢от 100 000 ₽ на руки | 1–3 года опыта Data-инженер 🟢SQL, C#, MS Visual Studio, Big Data 🟢от 140 000 ₽ на руки | 1–3 года опыта

20 035

👩‍💻 Задачка по Python Напишите функцию, которая принимает список email-адресов и возвращает уникальные домены из этого списка. Домен — это часть адреса после символа @. ➡️ Пример:

["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]

#{"example.com", "test.com", "sample.com"}

Решение задачи ⬇️

def get_unique_domains(emails): domains = {email.split('@')[1] for email in emails} return domains # Пример использования: emails = ["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"] result = get_unique_domains(emails) print(result) # Ожидаемый результат: {'example.com', 'test.com', 'sample.com'}

20 035

Ваши задачи требуют мощных вычислительных ресурсов? Локальные мощности не справляются с обучением нейросетей? immers.cloud предлагает решение: 💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования ⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут. 📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование 🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку Платформа также предлагает образ Ubuntu 22.04 с предустановленными драйверами, библиотеками CUDA 12.3 и CudNN: с ним можно развернуть поверх него необходимые инструменты для обучения, разработки или работы с нейросетями. 🎁 Для наших подписчиков действует бонус: +20% бонус к пополнению баланса

20 035

⚙️ Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных. Читать...

20 035

Приглашаем вас на открытый вебинар: «Similarity Text Search (STS) - оценка текстовой схожести и семантический анализ» ⏰Дата: 14 января в 20:00 мск Спикер: Андрей Коняев 🧩На вебинаре вы узнаете: - Что такое Similarity Text Search - Зачем это нужно и где применяется. - Подходы и реальные кейсы, а так же метрики для оценки качества STS - На практике посмотрим кейсы для русского и английского языков. 🔥В результате вебинара вы узнаете про задачу STS и её применение в современном NLP. 📚Вебинар будет полезен: - Практикующим Data Scientist и ИТ-специалистам, которые хотят глубже погрузиться в область NLP - Тем, кто хочет узнать, как реализовать смысловой поиск вместо поиска по полному соответствию - Людям, освоившими основы машинного обучения, но желающими развиваться в области Data-Science. Участники всех открытых уроков получат скидку🎁 на большое обучение 👉Регистрируйтесь на открытый вебинар по ссылке: https://vk.cc/cHeLms Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 035

🔥 Самые интересные статьи за последние дни: • Не бойтесь потоков в Python, они не кусаются • Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM • Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? • Семантический веб: краткий обзор технологий и инструментов • Инструмент обеспечения качества данных: от теории к практике

20 035

👩‍💻 Задачка по Python Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл. ➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd import sys if len(sys.argv) < 4: print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>") sys.exit(1) input_file = sys.argv[1] output_file = sys.argv[2] column_name = sys.argv[3] try: df = pd.read_csv(input_file) df = df.drop_duplicates(subset=[column_name]) df.to_csv(output_file, index=False) print(f"Дубликаты удалены. Результат сохранён в {output_file}") except Exception as e: print(f"Ошибка: {e}")

20 035

✔️ 30k аудиозаписей: наводим порядок Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных. Читать...

20 035

🔎 Подборка зарубежных вакансий Senior Data Scientist (ML / NLP / RAG) 🟢Python, SQL, Hugging Face transformers, FastAPI, TensorFlow, NumPy, PostgreSQL, pgVector, AWS ML infrastructure 🟢Уровень дохода не указан | 1–3 года опыта AI R&D Engineer (Intern) 🟢Python, PyTorch, TensorFlow, Machine Learning, Deep Learning, Английский язык, R&D, Multi-agent systems, MLflow 🟢Уровень дохода не указан | 1–3 года опыта Data Engineer 🟢DBT, Amazon Redshift, Fivetran, Python, ETL, Amazon Web Services, SQL, Английский язык (Intermediate) 🟢Уровень дохода не указан | 5+ лет опыта

20 035

🔄 Улучши понимание «потока данных» Порой сложно разобраться, как данные путешествуют через сервисы, API и базу. Это может превращать даже простые задачи в ад. 👉 Совет: нарисуй схему потока данных для ключевых процессов своего проекта. Это может быть даже грубый эскиз в блокноте. Понимание архитектуры даст тебе преимущество: ты будешь видеть узкие места и быстрее разбираться с проблемами.

20 035

Приглашаем вас на открытый вебинар: «Технологии NLP сегодня: основные тренды в области и перспективы развития» ⏰Дата: 25 декабря в 18:00 мск Спикер: Мария Тихонова 📚На занятии мы обсудим: - Из чего складывается область NLP - Поговорим про последние тренды в этой сфере, возникшие с появлением современных LLM. 🔥Результаты урока: - Вы поймете, где применяются методы NLP - Узнаете основные тренды и перспективы развития методов NLP - Узнаете современное состояние области в связи с быстрым развитием LLM 🧩Кому подходит этот урок: - IT-специалистам, которые хотят расширить свои знания в Data Science - Дата-сайентистам, желающим углубить свои знания по автоматической обработке текстов - Тем кто самостоятельно изучает Data Science Участники всех открытых уроков получат скидку🎁 на большое обучение 👉Регистрируйтесь на открытый вебинар по ссылке: https://vk.cc/cHaXS9 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576