Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 739 Texnologiyalar & Aralashmalar6 738...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 041 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 738-o'rinni va Rossiya mintaqasida 33 739-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 041 obunachiga ega bo‘ldi.

14 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -87 ga, so‘nggi 24 soatda esa -13 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.71% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.62% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 546 marta ko‘riladi; birinchi sutkada odatda 926 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 15 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 041

Obunachilar

-1324 soatlar

+257 kunlar

-8730 kunlar

1 546

Post ko'rishlar

~ 92624 soatlar

~ 1 11548 soatlar

7.71%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 043

Снова радуем вас подборкой самых популярных каналов на тему IT и технологий🤖 В современном мире технологии становятся неотъемлемой частью нашей жизни. В этом посте мы расскажем о ключевых моментах, на которые стоит обратить внимание и представим коллекцию каналов, которые помогут вам оставаться в курсе последних тенденций. - Технологические достижения Технологический прогресс стремительно движется вперед. Каждый день мы становимся свидетелями новых прорывов в области IT. Следите за последними новостями и анализами, чтобы понимать, как они могут повлиять на ваш бизнес или личную жизнь. - Влияние на повседневность IT делают нашу жизнь проще и удобнее. Персонализированные приложения помогают нам управлять временем, финансами и даже здоровьем. Узнайте, как эти технологии могут улучшить качество вашей жизни и повысить вашу продуктивность. - Оптимизация бизнеса Компании по всему миру активно внедряют современные технологии для оптимизации своих процессов. Исследуйте успешные кейсы их использования в различных отраслях и узнайте, как вы можете применить эти решения в своем бизнесе. - Образование IT также меняет подход к обучению. Узнайте, как новые технологии помогают студентам и преподавателям достигать лучших результатов и как вы можете использовать их в своем обучении. - Этические вопросы С развитием технологий возникают и новые этические вопросы. Как обеспечить безопасность данных пользователей? Как избежать предвзятости алгоритмов? Обсуждение этих тем становится все более актуальным. - Будущее IT Технологии продолжают развиваться, и важно следить за новыми трендами. Ознакомьтесь с новыми возможностями и подумайте о том, как они могут изменить ваш бизнес или повседневную жизнь. Чтобы быть в курсе всех этих изменений подписывайтесь на наши каналы. Мы собрали лучшие ресурсы, которые помогут вам оставаться на передовой технологических новшеств! 👉 Подписаться на каналы Следите за новыми трендами в IT! 🌐

20 043

🔥 Самые интересные статьи за последние дни: • о3 теснит программистов? Как OpenAI снова всех удивила • AI, который всё за нас решит • Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе • Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

20 043

MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри? В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине. Почему: Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT 15 конфигураций: A100, A40, V100, T4 и др. CPU Intel Xeon Gold (6248R, 6154, 5318Y) Надёжность: Tier III ЦОДы, DRaaS, балансировка Гибкость: Fix, flexible, выделенные сегменты Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.

20 043

👩‍💻 Обучение модели классификации цветов по RGB Напишите код на Python, который: • Генерирует случайные RGB-цвета • Классифицирует цвета как "Светлый" или "Тёмный" • Обучает простую модель машинного обучения для этой задачи Условие классификации: Если сумма R + G + B > 382, считаем цвет светлым, иначе — тёмным. Решение задачи🔽

import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # Генерация данных np.random.seed(42) X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный # Разделение на обучение и тест X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Обучение модели model = LogisticRegression() model.fit(X_train, y_train) # Проверка качества y_pred = model.predict(X_test) print("Точность модели:", accuracy_score(y_test, y_pred))

20 043

🧠 Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном. Читать...

20 043

🔎 Подборка вакансий для мидлов Data Scientist в области языковых моделей (Middle) 🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM 🟢от 351 000 ₽ | 3–6 лет Middle Data Engineer 🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka 🟢от 4 000 € | 3–6 лет Data Scientist 🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow 🟢Уровень дохода не указан | 3–6 лет

20 043

В Yandex Cloud AI Studio стали доступны VLM-модели, которые умеют автоматически генерировать описания товаров по фотографиям и находить нужные фрагменты в большом объёме документов. Также был расширен парк больших языковых моделей — их число приблизилось к двадцати. Они доступны только в пакетном режиме: можно отправлять сразу множество запросов в модель, что особенно выручает при массовом анализе пользовательских комментариев или подготовке сводок по научным статьям. Для разработчиков это открывает свободу экспериментов и позволяет выбирать оптимальную модель под конкретные задачи. Наличие большого разнообразия нейросетей может помочь оценить производительность и точность разных архитектур, при этом вы не ограничены только YandexGPT — при необходимости легко комбинировать его с любыми другими моделями. Дополнение функционала VLM-моделями расширяет спектр применений, например, от семантического поиска по документам до генерации визуального контента. Из личного опыта могу сказать, что подключение VLM сразу дало ощутимый эффект.

20 043

⚙️ Что такое Feature Scaling в ML и зачем он нужен? Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно. Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут

20 043

⚙️ Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари. Читать...

20 043

🔎 Подборка вакансий для джунов Junior Data Engineer 🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes 🟢до 200 000 ₽ | 1–3 года Data Analyst (Junior) | Аналитик Данных (Младший) 🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker 🟢Уровень дохода не указан | 1–3 года Data инженер DWH Junior (Hadoop) 🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence 🟢Уровень дохода не указан | 1–3 года

20 043

❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций. На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить. После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений. ⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/MZfV/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwZWhgF

20 043

👩‍💻 Поиск самого часто встречающегося элемента в списке Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них. Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)  
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)

Решение задачи🔽

from collections import Counter def most_frequent(lst): count = Counter(lst) return max(count, key=count.get) # Пример использования: numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1] result = most_frequent(numbers) print(result) # Ожидаемый результат: 3

20 043

⚙️ Пишем свою Diffusion модель с нуля Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели. Читать...

20 043

🔥 Самые интересные статьи за последние дни: • Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT • Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей • Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели • Возможности LLM и RAG на примере реализации бота для поддержки клиентов • Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

20 043

👩‍💻 Проверка, являются ли две строки анаграммами Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы. Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2): # Удаляем пробелы и приводим к одному регистру str1 = ''.join(str1.lower().split()) str2 = ''.join(str2.lower().split()) # Проверяем, равны ли отсортированные символы return sorted(str1) == sorted(str2) # Пример использования: result1 = are_anagrams("listen", "silent") print(result1) # Ожидаемый результат: True result2 = are_anagrams("hello", "world") print(result2) # Ожидаемый результат: False

20 043

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности. Читать...

20 043

🧹 Заводи «технический долг» как отдельную задачу Фраза «потом починим» без тикета = «никогда не починим». 👉 Совет: всё, что требует доработки, выноси в явные задачи или хотя бы в отдельный трекер. Технический долг нужно видеть, чтобы его гасить. Складывать его «в голове» — значит накапливать долги втайне до катастрофы.

20 043

🔎 Подборка зарубежных вакансий Data Scientist рекомендательные системы (full time office) 🟢Python, pandas, sklearn, scipy, matplotlib, catboost, SQL, Git, Docker 🟢Уровень дохода не указан | 3–6 лет Senior Data Scientist (Recommender Systems) 🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX 🟢от 5 000 до 6 500 € | 3–6 лет Data Scientist (Кипр) 🟢Python, SQL, pandas, numpy, seaborn, ML, Big Data, Deep Learning 🟢от 4 000 € | 1–3 года

20 043

🤡 Endless Fun Machine: бесконечный генератор смешных картинок Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных Читать...

20 043

📝 Подборка вакансий для лидов Data Architect • Apache Hadoop, Apache Airflow, Greenplum, Apache NiFi, DWH, Apache Spark • Уровень дохода не указан | Без опыта Team Lead Data Platform • Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka • Уровень дохода не указан | Без опыта Data Science Tech Lead/Product owner • Python, SQL, Hadoop, Spark, Airflow • Уровень дохода не указан | Без опыта