Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 727 Texnologiyalar & Aralashmalar6 729...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 047 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 729-o'rinni va Rossiya mintaqasida 33 727-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 047 obunachiga ega bo‘ldi.

13 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -68 ga, so‘nggi 24 soatda esa -19 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.54% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.58% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 513 marta ko‘riladi; birinchi sutkada odatda 919 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 14 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 047

Obunachilar

-1924 soatlar

+337 kunlar

-6830 kunlar

1 513

Post ko'rishlar

~ 91924 soatlar

~ 1 10748 soatlar

7.54%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 044

⚙️ Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее RDS — это про то, как машинке выбрать лучший вариант уведомления или карточки, чтобы ты вернулся. Объясняем, как он усиливает ML-модели и растит вовлечённость пользователей. Читать...

20 044

Есть два типа обучения Data Science. 1️⃣ Смотреть лекции и повторять за ментором. 2️⃣ Сразу брать реальные задачи и учиться на практике. Если вам ближе второй тип, симулятор Data Science от karpovꓸcourses — для вас. Этот курс для тех, кто не ищет легких путей, и знает: на одной теории мидлом не стать. Вас ждет интенсивное погружение в аналитику с первых дней. 🔹 Решите 80+ бизнес-задач — от простых и быстрых до заданий со звездочкой. 🔹 Поработаете над кейсами из разных сфер: Retail, E-commerce, FinTech, FoodTech, EdTech. 🔹 Создадите проект для портфолио под руководством опытным аналитиков. 🔹 Прокачаете самые нужные навыки и работу с инструментами: Python, SQL, ClickHouse, FastAPI, MLFlow, DVC, Spark, LLM, рекомендательные системы, прогнозирование, метрики, A/B-тесты. С 12 по 31 мая записываться на обучение еще выгоднее. Если купите доступ на 6 месяцев, получите 7-ой — в подарок. А если на 9 месяцев — два в подарок. Пора решать задачи, а не смотреть, как это делают другие. Записаться на курс Реклама. ООО «Карпов Курсы», ИНН: 7811764627, erid: 2VtzqufjPUg

20 044

👩‍💻 Разделите данные на группы с помощью алгоритма K-Means Создайте модель, которая группирует точки по признакам без использования меток. Это задача кластеризации, где мы не обучаемся на готовых ответах, а ищем структуру в данных.

Алгоритм K-Means автоматически делит данные на 3 группы на основе близости точек. Это полезно в задачах сегментации клиентов, поиска паттернов в данных, рекомендаций и др.

Решение задачи🔽

import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import make_blobs # Генерация данных: 300 точек, 3 центра X, _ = make_blobs(n_samples=300, centers=3, random_state=42) # Модель кластеризации kmeans = KMeans(n_clusters=3, random_state=42) kmeans.fit(X) # Визуализация plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis') plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X', label='Центры кластеров') plt.legend() plt.show()

20 044

⚙️ Как обойти детекторы текста, сгенерированного ИИ Автор исследует, почему нейросети пока плохо отличают ИИ-тексты от человеческих, и делится, что реально работает (или не очень), если вы вдруг решите их «перехитрить». Читать...

20 044

Яндекс поднял максимальное вознаграждение в bug bounty до 3 млн рублей. За что? За критические уязвимости типа RCE и VM escape в Почте, Яндекс ID и Yandex Cloud. Плюс выросли выплаты за SQL-инъекции. Это хорошая возможность для этичных хакеров проверить себя, ведь речь идет о сервисах Яндекса, которым доверяют чувствительную информацию миллионы пользователей. Так компания хочет обеспечить всестороннюю оценку безопасности своих систем. Ну а для тех, кому этого недостаточно, в программе багбаунти Яндекса недавно появилось отдельное направление по нейросетям — там можно получить за уязвимость до 1 миллиона рублей.

20 044

🔥 Самые интересные статьи за последние дни: • Построение базы знаний компании и поиска документов на LLM и RAG • Что побуждает LLM врать и как этого избежать в своих продуктах • Ломаем капчу 4Chan • На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика • Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

20 044

👩‍💻 Обучите модель для классификации текста с помощью Naive Bayes Создайте простую модель машинного обучения, которая определяет, является ли текст позитивным или негативным. Используем sklearn и алгоритм Naive Bayes Решение задачи🔽

from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.pipeline import make_pipeline # Обучающие данные texts = ["Это отличный фильм", "Ужасный опыт", "Мне понравилось", "Очень скучно", "Прекрасная история"] labels = ['positive', 'negative', 'positive', 'negative', 'positive'] # Модель model = make_pipeline(CountVectorizer(), MultinomialNB()) model.fit(texts, labels) # Прогноз print(model.predict(["Фильм был ужасен"])) # ['negative'] print(model.predict(["Обожаю это кино"])) # ['positive']

20 044

⚙️ Код, железо, стратегия: в чем секрет победителей ML-соревнований? Разбор отчёта о соревнованиях по ML за 2024 год: кто победил, как и почему. Без мотивационных цитат — только конкретные приёмы, модели и стратегии, которые реально приносят $22 млн. Читать...

20 044

🔥 Самые нужные каналы для Data Scientist, чтобы расти в доходе 💸 • Data Science | Вопросы собесов • Data Science | Вакансии с удаленкой • Data Science | Тесты Подпишись, чтобы не потерять ☝️

20 044

👩‍💻 Задачка по Python Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль. ➡️ Пример: • python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary. Решение задачи ⬇️

import csv import sys def process_large_csv(file_path, filter_column, threshold, aggregate_column): count = 0 total_sum = 0.0 with open(file_path, 'r', encoding='utf-8') as file: reader = csv.DictReader(file) for row in reader: # Преобразование значений для фильтрации и агрегации try: filter_value = float(row[filter_column]) aggregate_value = float(row[aggregate_column]) except ValueError: continue # Пропускаем строки с некорректными данными # Фильтрация строк по заданному условию if filter_value > threshold: count += 1 total_sum += aggregate_value # Вывод итоговой статистики if count > 0: average = total_sum / count print(f"Обработано записей: {count}") print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}") else: print("Записи, соответствующие условиям фильтрации, не найдены.") if __name__ == "__main__": if len(sys.argv) < 5: print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>") sys.exit(1) file_path = sys.argv[1] filter_column = sys.argv[2] threshold = float(sys.argv[3]) aggregate_column = sys.argv[4] process_large_csv(file_path, filter_column, threshold, aggregate_column)

20 044

⚡️ Делай «кодовые разминки» перед тяжёлыми задачами Сложная задача сразу после кофе? Мозг ещё не включился — и ты уже залип. 👉 Совет: начни день с 15 минут лёгкой задачи: мелкий фикс, улучшение логов, небольшой рефакторинг. Это разгоняет мысль, помогает включиться в поток и потом перейти к тяжёлому коду с полной скоростью.

20 044

👀 Stack Overflow умирает? Как ИИ вытесняет живые сообщества разработчиков Разбираемся, почему Stack Overflow теряет аудиторию: виноваты ли ИИ, UX или жадность? Плюс — что делает администрация и что ждёт разработчиков в пост-SO эпоху. Читать...

20 044

⚙️ Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025 В этом выпуске: Codex от OpenAI, GPT‑4.1, токсичный Grok, генератор от Tencent и агент DeepMind, который сам изобретает алгоритмы. ИИ неделя на максималках. Читать...

20 044

⚙️ Что такое токенизация в машинном обучении? Токенизация — это процесс разбиения текста на отдельные части: слова, подслова или символы. Часто используется на этапе предобработки текста для NLP-моделей. Каждый токен — это минимальная смысловая единица, которую модель будет анализировать. ➡️ Пример:

from sklearn.feature_extraction.text import CountVectorizer

texts = ["Я люблю машинное обучение", "Обучение — это интересно"]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

# Вывод:
['интересно' 'люблю' 'машинное' 'обучение' 'это' 'я']
[[0 1 1 1 0 1]
 [1 0 0 1 1 0]]

🗣️ Токенизация превращает текст в числовую матрицу, понятную модели. Это первый шаг в обработке текста перед обучением моделей на естественном языке.

🖥 Подробнее тут

20 044

⚙️ Что у меня за распределение Василий из Т-Банка объясняет, почему классические критерии согласия не всегда подходят для симуляции колл-центра. Покажет подводные камни и как не влететь в ловушку распределений. Читать...

20 044

Не имей 100 ₽, а имей 150 000 ₽ за рекомендацию друга, который прошел испыталку в Ozon Tech Знаете senior+ DS/ML-инженера? Ozon Tech готов щедро отблагодарить, если по вашей рекомендации его возьмут на работу. Чтобы получить вознаграждение, нужно пройти всего три простых шага: 1. Вы рекомендуете знакомого (если сами в Ozon не работаете). 2. Его берут на работу, и он успешно проходит испытательный срок. 3. Вы получаете бонус — 150 тысяч рублей. Можно рекомендовать сколько угодно друзей — главное, чтобы они подходили под требования. Даже если вы рекрутер — тоже можете участвовать. Только нельзя рекомендовать самого себя (но можно попросить друга вас порекомендовать 😏). Подробнее о вакансиях и условиях: https://s.ozon.ru/rjFCjAP

20 044

📈 Подборка статей для вашей карьеры • Мои Red-Flags при устройстве в IT-компании: Как не стать гребцом. Часть 2 • Как строить карьеру в корпорации • История: работа в чешском Red Hat • Циничные заметки о карьере в IT от «гейткипера» • Моя петиция EB-1A на грин-карту талантов, одобренная с первой попытки

20 044

🔎 Подборка вакансий для сеньоров Data Engineer (Middle+/Senior) 🟢 AWS (S3, Glue, Athena, Redshift), Python, SQL, Data Lake, ETL, ClickHouse, Apache Spark, Kafka, Airflow 🟢 От 250 000 ₽ | 3–6 лет | Удалёнка / Гибрид Senior Data Scientist LLM 🟢 Python, LLM, Transformers, RAG, NLP, SQL, MLOps, Vector DBs (pgvector, Milvus, Qdrant) 🟢 $3 500–4 000 | 6+ лет | Удалёнка Senior Data Engineer 🟢 Python (OOP), SQL (оптимизация), FastAPI, DBT, GCP (BigQuery), Microservices, CI/CD 🟢 $4 000–6 000 | 6+ лет | Удалёнка

20 044

⚙️ Машинное обучение в Apache Spark с помощью MLlib Показываем, как применить MLlib из Apache Spark в своих проектах, и делимся советами, чтобы не сжечь кластеры раньше времени. Всё просто, даже если вы не Data Jedi. Читать...

20 044

⚙️ Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB. Читать...