Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

Сеть:Frontender's notes [ru]Россия33 739 Технологии и приложения6 738...

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 045 подписчиков, занимая 6 738 место в категории Технологии и приложения и 33 739 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 045 подписчиков.

Согласно последним данным от 14 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -87, а за последние 24 часа — -13, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.71%. В первые 24 часа после публикации контент обычно набирает 4.62% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 1 546 просмотров. В течение первых суток публикация набирает 926 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Благодаря высокой частоте обновлений (последние данные получены 15 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 045

Подписчики

-1324 часа

+257 дней

-8730 день

1 546

Просмотры поста

~ 92624 часа

~ 1 11548 часов

7.71%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

20 043

Снова радуем вас подборкой самых популярных каналов на тему IT и технологий🤖 В современном мире технологии становятся неотъемлемой частью нашей жизни. В этом посте мы расскажем о ключевых моментах, на которые стоит обратить внимание и представим коллекцию каналов, которые помогут вам оставаться в курсе последних тенденций. - Технологические достижения Технологический прогресс стремительно движется вперед. Каждый день мы становимся свидетелями новых прорывов в области IT. Следите за последними новостями и анализами, чтобы понимать, как они могут повлиять на ваш бизнес или личную жизнь. - Влияние на повседневность IT делают нашу жизнь проще и удобнее. Персонализированные приложения помогают нам управлять временем, финансами и даже здоровьем. Узнайте, как эти технологии могут улучшить качество вашей жизни и повысить вашу продуктивность. - Оптимизация бизнеса Компании по всему миру активно внедряют современные технологии для оптимизации своих процессов. Исследуйте успешные кейсы их использования в различных отраслях и узнайте, как вы можете применить эти решения в своем бизнесе. - Образование IT также меняет подход к обучению. Узнайте, как новые технологии помогают студентам и преподавателям достигать лучших результатов и как вы можете использовать их в своем обучении. - Этические вопросы С развитием технологий возникают и новые этические вопросы. Как обеспечить безопасность данных пользователей? Как избежать предвзятости алгоритмов? Обсуждение этих тем становится все более актуальным. - Будущее IT Технологии продолжают развиваться, и важно следить за новыми трендами. Ознакомьтесь с новыми возможностями и подумайте о том, как они могут изменить ваш бизнес или повседневную жизнь. Чтобы быть в курсе всех этих изменений подписывайтесь на наши каналы. Мы собрали лучшие ресурсы, которые помогут вам оставаться на передовой технологических новшеств! 👉 Подписаться на каналы Следите за новыми трендами в IT! 🌐

20 043

🔥 Самые интересные статьи за последние дни: • о3 теснит программистов? Как OpenAI снова всех удивила • AI, который всё за нас решит • Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе • Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

20 043

MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри? В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине. Почему: Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT 15 конфигураций: A100, A40, V100, T4 и др. CPU Intel Xeon Gold (6248R, 6154, 5318Y) Надёжность: Tier III ЦОДы, DRaaS, балансировка Гибкость: Fix, flexible, выделенные сегменты Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.

20 043

👩‍💻 Обучение модели классификации цветов по RGB Напишите код на Python, который: • Генерирует случайные RGB-цвета • Классифицирует цвета как "Светлый" или "Тёмный" • Обучает простую модель машинного обучения для этой задачи Условие классификации: Если сумма R + G + B > 382, считаем цвет светлым, иначе — тёмным. Решение задачи🔽

import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # Генерация данных np.random.seed(42) X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный # Разделение на обучение и тест X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Обучение модели model = LogisticRegression() model.fit(X_train, y_train) # Проверка качества y_pred = model.predict(X_test) print("Точность модели:", accuracy_score(y_test, y_pred))

20 043

🧠 Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном. Читать...

20 043

🔎 Подборка вакансий для мидлов Data Scientist в области языковых моделей (Middle) 🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM 🟢от 351 000 ₽ | 3–6 лет Middle Data Engineer 🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka 🟢от 4 000 € | 3–6 лет Data Scientist 🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow 🟢Уровень дохода не указан | 3–6 лет

20 043

В Yandex Cloud AI Studio стали доступны VLM-модели, которые умеют автоматически генерировать описания товаров по фотографиям и находить нужные фрагменты в большом объёме документов. Также был расширен парк больших языковых моделей — их число приблизилось к двадцати. Они доступны только в пакетном режиме: можно отправлять сразу множество запросов в модель, что особенно выручает при массовом анализе пользовательских комментариев или подготовке сводок по научным статьям. Для разработчиков это открывает свободу экспериментов и позволяет выбирать оптимальную модель под конкретные задачи. Наличие большого разнообразия нейросетей может помочь оценить производительность и точность разных архитектур, при этом вы не ограничены только YandexGPT — при необходимости легко комбинировать его с любыми другими моделями. Дополнение функционала VLM-моделями расширяет спектр применений, например, от семантического поиска по документам до генерации визуального контента. Из личного опыта могу сказать, что подключение VLM сразу дало ощутимый эффект.

20 043

⚙️ Что такое Feature Scaling в ML и зачем он нужен? Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно. Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут

20 043

⚙️ Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари. Читать...

20 043

🔎 Подборка вакансий для джунов Junior Data Engineer 🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes 🟢до 200 000 ₽ | 1–3 года Data Analyst (Junior) | Аналитик Данных (Младший) 🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker 🟢Уровень дохода не указан | 1–3 года Data инженер DWH Junior (Hadoop) 🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence 🟢Уровень дохода не указан | 1–3 года

20 043

❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций. На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить. После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений. ⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/MZfV/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwZWhgF

20 043

👩‍💻 Поиск самого часто встречающегося элемента в списке Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них. Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)  
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)

Решение задачи🔽

from collections import Counter def most_frequent(lst): count = Counter(lst) return max(count, key=count.get) # Пример использования: numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1] result = most_frequent(numbers) print(result) # Ожидаемый результат: 3

20 043

⚙️ Пишем свою Diffusion модель с нуля Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели. Читать...

20 043

🔥 Самые интересные статьи за последние дни: • Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT • Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей • Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели • Возможности LLM и RAG на примере реализации бота для поддержки клиентов • Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

20 043

👩‍💻 Проверка, являются ли две строки анаграммами Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы. Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2): # Удаляем пробелы и приводим к одному регистру str1 = ''.join(str1.lower().split()) str2 = ''.join(str2.lower().split()) # Проверяем, равны ли отсортированные символы return sorted(str1) == sorted(str2) # Пример использования: result1 = are_anagrams("listen", "silent") print(result1) # Ожидаемый результат: True result2 = are_anagrams("hello", "world") print(result2) # Ожидаемый результат: False

20 043

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности. Читать...

20 043

🧹 Заводи «технический долг» как отдельную задачу Фраза «потом починим» без тикета = «никогда не починим». 👉 Совет: всё, что требует доработки, выноси в явные задачи или хотя бы в отдельный трекер. Технический долг нужно видеть, чтобы его гасить. Складывать его «в голове» — значит накапливать долги втайне до катастрофы.

20 043

🔎 Подборка зарубежных вакансий Data Scientist рекомендательные системы (full time office) 🟢Python, pandas, sklearn, scipy, matplotlib, catboost, SQL, Git, Docker 🟢Уровень дохода не указан | 3–6 лет Senior Data Scientist (Recommender Systems) 🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX 🟢от 5 000 до 6 500 € | 3–6 лет Data Scientist (Кипр) 🟢Python, SQL, pandas, numpy, seaborn, ML, Big Data, Deep Learning 🟢от 4 000 € | 1–3 года

20 043

🤡 Endless Fun Machine: бесконечный генератор смешных картинок Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных Читать...

20 043

📝 Подборка вакансий для лидов Data Architect • Apache Hadoop, Apache Airflow, Greenplum, Apache NiFi, DWH, Apache Spark • Уровень дохода не указан | Без опыта Team Lead Data Platform • Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka • Уровень дохода не указан | Без опыта Data Science Tech Lead/Product owner • Python, SQL, Hadoop, Spark, Airflow • Уровень дохода не указан | Без опыта