Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 739 Technologies & Applications6 738...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 045 subscribers, ranking 6 738 in the Technologies & Applications category and 33 739 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 045 subscribers.

According to the latest data from 14 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -87 over the last 30 days and by -13 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.71%. Within the first 24 hours after publication, content typically collects 4.62% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 546 views. Within the first day, a publication typically gains 926 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 15 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 045

Subscribers

-1324 hours

+257 days

-8730 days

1 546

Post views

~ 92624 hours

~ 1 11548 hours

7.71%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 043

Снова радуем вас подборкой самых популярных каналов на тему IT и технологий🤖 В современном мире технологии становятся неотъемлемой частью нашей жизни. В этом посте мы расскажем о ключевых моментах, на которые стоит обратить внимание и представим коллекцию каналов, которые помогут вам оставаться в курсе последних тенденций. - Технологические достижения Технологический прогресс стремительно движется вперед. Каждый день мы становимся свидетелями новых прорывов в области IT. Следите за последними новостями и анализами, чтобы понимать, как они могут повлиять на ваш бизнес или личную жизнь. - Влияние на повседневность IT делают нашу жизнь проще и удобнее. Персонализированные приложения помогают нам управлять временем, финансами и даже здоровьем. Узнайте, как эти технологии могут улучшить качество вашей жизни и повысить вашу продуктивность. - Оптимизация бизнеса Компании по всему миру активно внедряют современные технологии для оптимизации своих процессов. Исследуйте успешные кейсы их использования в различных отраслях и узнайте, как вы можете применить эти решения в своем бизнесе. - Образование IT также меняет подход к обучению. Узнайте, как новые технологии помогают студентам и преподавателям достигать лучших результатов и как вы можете использовать их в своем обучении. - Этические вопросы С развитием технологий возникают и новые этические вопросы. Как обеспечить безопасность данных пользователей? Как избежать предвзятости алгоритмов? Обсуждение этих тем становится все более актуальным. - Будущее IT Технологии продолжают развиваться, и важно следить за новыми трендами. Ознакомьтесь с новыми возможностями и подумайте о том, как они могут изменить ваш бизнес или повседневную жизнь. Чтобы быть в курсе всех этих изменений подписывайтесь на наши каналы. Мы собрали лучшие ресурсы, которые помогут вам оставаться на передовой технологических новшеств! 👉 Подписаться на каналы Следите за новыми трендами в IT! 🌐

20 043

🔥 Самые интересные статьи за последние дни: • о3 теснит программистов? Как OpenAI снова всех удивила • AI, который всё за нас решит • Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе • Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

20 043

MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри? В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине. Почему: Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT 15 конфигураций: A100, A40, V100, T4 и др. CPU Intel Xeon Gold (6248R, 6154, 5318Y) Надёжность: Tier III ЦОДы, DRaaS, балансировка Гибкость: Fix, flexible, выделенные сегменты Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.

20 043

👩‍💻 Обучение модели классификации цветов по RGB Напишите код на Python, который: • Генерирует случайные RGB-цвета • Классифицирует цвета как "Светлый" или "Тёмный" • Обучает простую модель машинного обучения для этой задачи Условие классификации: Если сумма R + G + B > 382, считаем цвет светлым, иначе — тёмным. Решение задачи🔽

import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # Генерация данных np.random.seed(42) X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный # Разделение на обучение и тест X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Обучение модели model = LogisticRegression() model.fit(X_train, y_train) # Проверка качества y_pred = model.predict(X_test) print("Точность модели:", accuracy_score(y_test, y_pred))

20 043

🧠 Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном. Читать...

20 043

🔎 Подборка вакансий для мидлов Data Scientist в области языковых моделей (Middle) 🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM 🟢от 351 000 ₽ | 3–6 лет Middle Data Engineer 🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka 🟢от 4 000 € | 3–6 лет Data Scientist 🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow 🟢Уровень дохода не указан | 3–6 лет

20 043

В Yandex Cloud AI Studio стали доступны VLM-модели, которые умеют автоматически генерировать описания товаров по фотографиям и находить нужные фрагменты в большом объёме документов. Также был расширен парк больших языковых моделей — их число приблизилось к двадцати. Они доступны только в пакетном режиме: можно отправлять сразу множество запросов в модель, что особенно выручает при массовом анализе пользовательских комментариев или подготовке сводок по научным статьям. Для разработчиков это открывает свободу экспериментов и позволяет выбирать оптимальную модель под конкретные задачи. Наличие большого разнообразия нейросетей может помочь оценить производительность и точность разных архитектур, при этом вы не ограничены только YandexGPT — при необходимости легко комбинировать его с любыми другими моделями. Дополнение функционала VLM-моделями расширяет спектр применений, например, от семантического поиска по документам до генерации визуального контента. Из личного опыта могу сказать, что подключение VLM сразу дало ощутимый эффект.

20 043

⚙️ Что такое Feature Scaling в ML и зачем он нужен? Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно. Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут

20 043

⚙️ Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари. Читать...

20 043

🔎 Подборка вакансий для джунов Junior Data Engineer 🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes 🟢до 200 000 ₽ | 1–3 года Data Analyst (Junior) | Аналитик Данных (Младший) 🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker 🟢Уровень дохода не указан | 1–3 года Data инженер DWH Junior (Hadoop) 🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence 🟢Уровень дохода не указан | 1–3 года

20 043

❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций. На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить. После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений. ⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/MZfV/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwZWhgF

20 043

👩‍💻 Поиск самого часто встречающегося элемента в списке Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них. Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)  
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)

Решение задачи🔽

from collections import Counter def most_frequent(lst): count = Counter(lst) return max(count, key=count.get) # Пример использования: numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1] result = most_frequent(numbers) print(result) # Ожидаемый результат: 3

20 043

⚙️ Пишем свою Diffusion модель с нуля Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели. Читать...

20 043

🔥 Самые интересные статьи за последние дни: • Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT • Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей • Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели • Возможности LLM и RAG на примере реализации бота для поддержки клиентов • Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

20 043

👩‍💻 Проверка, являются ли две строки анаграммами Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы. Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2): # Удаляем пробелы и приводим к одному регистру str1 = ''.join(str1.lower().split()) str2 = ''.join(str2.lower().split()) # Проверяем, равны ли отсортированные символы return sorted(str1) == sorted(str2) # Пример использования: result1 = are_anagrams("listen", "silent") print(result1) # Ожидаемый результат: True result2 = are_anagrams("hello", "world") print(result2) # Ожидаемый результат: False

20 043

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности. Читать...

20 043

🧹 Заводи «технический долг» как отдельную задачу Фраза «потом починим» без тикета = «никогда не починим». 👉 Совет: всё, что требует доработки, выноси в явные задачи или хотя бы в отдельный трекер. Технический долг нужно видеть, чтобы его гасить. Складывать его «в голове» — значит накапливать долги втайне до катастрофы.

20 043

🔎 Подборка зарубежных вакансий Data Scientist рекомендательные системы (full time office) 🟢Python, pandas, sklearn, scipy, matplotlib, catboost, SQL, Git, Docker 🟢Уровень дохода не указан | 3–6 лет Senior Data Scientist (Recommender Systems) 🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX 🟢от 5 000 до 6 500 € | 3–6 лет Data Scientist (Кипр) 🟢Python, SQL, pandas, numpy, seaborn, ML, Big Data, Deep Learning 🟢от 4 000 € | 1–3 года

20 043

🤡 Endless Fun Machine: бесконечный генератор смешных картинок Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных Читать...

20 043

📝 Подборка вакансий для лидов Data Architect • Apache Hadoop, Apache Airflow, Greenplum, Apache NiFi, DWH, Apache Spark • Уровень дохода не указан | Без опыта Team Lead Data Platform • Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka • Уровень дохода не указан | Без опыта Data Science Tech Lead/Product owner • Python, SQL, Hadoop, Spark, Airflow • Уровень дохода не указан | Без опыта