Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Сітка:Frontender's notes [ru]Росія33 739 Технології та додатки6 738...

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 045 підписників, посідаючи 6 738 місце в категорії Технології та додатки та 33 739 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 045 підписників.

За останніми даними від 14 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -87, а за останні 24 години на -13, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 7.71%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.62% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 1 546 переглядів. Протягом першої доби публікація в середньому набирає 926 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Завдяки високій частоті оновлень (останні дані отримано 15 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 045

Підписники

-1324 години

+257 днів

-8730 день

1 546

Перегляди допису

~ 92624 години

~ 1 11548 годин

7.71%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

20 043

Снова радуем вас подборкой самых популярных каналов на тему IT и технологий🤖 В современном мире технологии становятся неотъемлемой частью нашей жизни. В этом посте мы расскажем о ключевых моментах, на которые стоит обратить внимание и представим коллекцию каналов, которые помогут вам оставаться в курсе последних тенденций. - Технологические достижения Технологический прогресс стремительно движется вперед. Каждый день мы становимся свидетелями новых прорывов в области IT. Следите за последними новостями и анализами, чтобы понимать, как они могут повлиять на ваш бизнес или личную жизнь. - Влияние на повседневность IT делают нашу жизнь проще и удобнее. Персонализированные приложения помогают нам управлять временем, финансами и даже здоровьем. Узнайте, как эти технологии могут улучшить качество вашей жизни и повысить вашу продуктивность. - Оптимизация бизнеса Компании по всему миру активно внедряют современные технологии для оптимизации своих процессов. Исследуйте успешные кейсы их использования в различных отраслях и узнайте, как вы можете применить эти решения в своем бизнесе. - Образование IT также меняет подход к обучению. Узнайте, как новые технологии помогают студентам и преподавателям достигать лучших результатов и как вы можете использовать их в своем обучении. - Этические вопросы С развитием технологий возникают и новые этические вопросы. Как обеспечить безопасность данных пользователей? Как избежать предвзятости алгоритмов? Обсуждение этих тем становится все более актуальным. - Будущее IT Технологии продолжают развиваться, и важно следить за новыми трендами. Ознакомьтесь с новыми возможностями и подумайте о том, как они могут изменить ваш бизнес или повседневную жизнь. Чтобы быть в курсе всех этих изменений подписывайтесь на наши каналы. Мы собрали лучшие ресурсы, которые помогут вам оставаться на передовой технологических новшеств! 👉 Подписаться на каналы Следите за новыми трендами в IT! 🌐

20 043

🔥 Самые интересные статьи за последние дни: • о3 теснит программистов? Как OpenAI снова всех удивила • AI, который всё за нас решит • Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе • Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

20 043

MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри? В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине. Почему: Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT 15 конфигураций: A100, A40, V100, T4 и др. CPU Intel Xeon Gold (6248R, 6154, 5318Y) Надёжность: Tier III ЦОДы, DRaaS, балансировка Гибкость: Fix, flexible, выделенные сегменты Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.

20 043

👩‍💻 Обучение модели классификации цветов по RGB Напишите код на Python, который: • Генерирует случайные RGB-цвета • Классифицирует цвета как "Светлый" или "Тёмный" • Обучает простую модель машинного обучения для этой задачи Условие классификации: Если сумма R + G + B > 382, считаем цвет светлым, иначе — тёмным. Решение задачи🔽

import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # Генерация данных np.random.seed(42) X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный # Разделение на обучение и тест X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Обучение модели model = LogisticRegression() model.fit(X_train, y_train) # Проверка качества y_pred = model.predict(X_test) print("Точность модели:", accuracy_score(y_test, y_pred))

20 043

🧠 Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном. Читать...

20 043

🔎 Подборка вакансий для мидлов Data Scientist в области языковых моделей (Middle) 🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM 🟢от 351 000 ₽ | 3–6 лет Middle Data Engineer 🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka 🟢от 4 000 € | 3–6 лет Data Scientist 🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow 🟢Уровень дохода не указан | 3–6 лет

20 043

В Yandex Cloud AI Studio стали доступны VLM-модели, которые умеют автоматически генерировать описания товаров по фотографиям и находить нужные фрагменты в большом объёме документов. Также был расширен парк больших языковых моделей — их число приблизилось к двадцати. Они доступны только в пакетном режиме: можно отправлять сразу множество запросов в модель, что особенно выручает при массовом анализе пользовательских комментариев или подготовке сводок по научным статьям. Для разработчиков это открывает свободу экспериментов и позволяет выбирать оптимальную модель под конкретные задачи. Наличие большого разнообразия нейросетей может помочь оценить производительность и точность разных архитектур, при этом вы не ограничены только YandexGPT — при необходимости легко комбинировать его с любыми другими моделями. Дополнение функционала VLM-моделями расширяет спектр применений, например, от семантического поиска по документам до генерации визуального контента. Из личного опыта могу сказать, что подключение VLM сразу дало ощутимый эффект.

20 043

⚙️ Что такое Feature Scaling в ML и зачем он нужен? Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно. Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных ➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими.. 🖥 Подробнее тут

20 043

⚙️ Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари. Читать...

20 043

🔎 Подборка вакансий для джунов Junior Data Engineer 🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes 🟢до 200 000 ₽ | 1–3 года Data Analyst (Junior) | Аналитик Данных (Младший) 🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker 🟢Уровень дохода не указан | 1–3 года Data инженер DWH Junior (Hadoop) 🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence 🟢Уровень дохода не указан | 1–3 года

20 043

❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций. На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить. После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений. ⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/MZfV/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwZWhgF

20 043

👩‍💻 Поиск самого часто встречающегося элемента в списке Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них. Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)  
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)

Решение задачи🔽

from collections import Counter def most_frequent(lst): count = Counter(lst) return max(count, key=count.get) # Пример использования: numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1] result = most_frequent(numbers) print(result) # Ожидаемый результат: 3

20 043

⚙️ Пишем свою Diffusion модель с нуля Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели. Читать...

20 043

🔥 Самые интересные статьи за последние дни: • Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT • Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей • Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели • Возможности LLM и RAG на примере реализации бота для поддержки клиентов • Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

20 043

👩‍💻 Проверка, являются ли две строки анаграммами Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы. Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2): # Удаляем пробелы и приводим к одному регистру str1 = ''.join(str1.lower().split()) str2 = ''.join(str2.lower().split()) # Проверяем, равны ли отсортированные символы return sorted(str1) == sorted(str2) # Пример использования: result1 = are_anagrams("listen", "silent") print(result1) # Ожидаемый результат: True result2 = are_anagrams("hello", "world") print(result2) # Ожидаемый результат: False

20 043

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности. Читать...

20 043

🧹 Заводи «технический долг» как отдельную задачу Фраза «потом починим» без тикета = «никогда не починим». 👉 Совет: всё, что требует доработки, выноси в явные задачи или хотя бы в отдельный трекер. Технический долг нужно видеть, чтобы его гасить. Складывать его «в голове» — значит накапливать долги втайне до катастрофы.

20 043

🔎 Подборка зарубежных вакансий Data Scientist рекомендательные системы (full time office) 🟢Python, pandas, sklearn, scipy, matplotlib, catboost, SQL, Git, Docker 🟢Уровень дохода не указан | 3–6 лет Senior Data Scientist (Recommender Systems) 🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX 🟢от 5 000 до 6 500 € | 3–6 лет Data Scientist (Кипр) 🟢Python, SQL, pandas, numpy, seaborn, ML, Big Data, Deep Learning 🟢от 4 000 € | 1–3 года

20 043

🤡 Endless Fun Machine: бесконечный генератор смешных картинок Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных Читать...

20 043

📝 Подборка вакансий для лидов Data Architect • Apache Hadoop, Apache Airflow, Greenplum, Apache NiFi, DWH, Apache Spark • Уровень дохода не указан | Без опыта Team Lead Data Platform • Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka • Уровень дохода не указан | Без опыта Data Science Tech Lead/Product owner • Python, SQL, Hadoop, Spark, Airflow • Уровень дохода не указан | Без опыта