ru
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 047 подписчиков, занимая 6 729 место в категории Технологии и приложения и 33 727 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 047 подписчиков.

Согласно последним данным от 13 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -68, а за последние 24 часа — -19, при этом общий охват остаётся высоким.

  • Статус верификации: Не верифицирован
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.54%. В первые 24 часа после публикации контент обычно набирает 4.58% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 1 513 просмотров. В течение первых суток публикация набирает 919 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Благодаря высокой частоте обновлений (последние данные получены 14 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 047
Подписчики
-1924 часа
+337 дней
-6830 день
Архив постов
🧠 Создаем свой RAG: введение в LangGraph В статье объясняют, что такое RAG и как использовать LangGraph для генерации с дополненной выборкой: основы, примеры и подготовка к созданию собственных RAG-систем. Читать...

Сменить профессию, переехать в Питер или просто зарабатывать больше в топовой компании… У всех свои причины для роста, но оди
Сменить профессию, переехать в Питер или просто зарабатывать больше в топовой компании… У всех свои причины для роста, но один уверенный старт - это магистратура в Университете ИТМО. В магистратуре ИТМО вы можете обучаться по направлениям: ✔️Программирование ✔️Искусственный интеллект ✔️Биология ✔️Информационная безопасность ✔️Инженерные науки ✔️Гуманитарные исследования ✔️Экология ✔️Биотехнологии ✔️Химия ✔️Робототехника ✔️Энергетика ✔️Физика ✔️Экономика и инновации На каждое из направлений можно поступить на бюджет по конкурсу, не сдавая экзамены📖 КОНКУРС ПОРТФОЛИО - это то, с чем бюджет в магистратуре ИТМО может стать реальностью, а вступительные экзамены пусть достанутся кому-то другому! Подробные условия участия по ссылке📨 А узнать подробнее о самой магистратуре в ИТМО можно узнать по ссылке или в телеграм канале📲 Реклама. Университет ИТМО ИНН:7813045547

👩‍💻 Адаптивный поиск порога "почти одинаковых" векторов У вас есть множество эмбеддингов — векторов признаков объектов (например, предложений, изображений, пользователей). Требуется реализовать функцию find_similar_pairs(vectors, tolerance=0.05), которая возвращает все пары индексов, где косинусная разница между векторами меньше tolerance. Дополнительные условия:
• Векторы могут быть высокой размерности (до 512) • Пара (i, j) считается дубликатом (i < j), если их cosine similarity ~ 1.0 • Не используйте внешние ML-библиотеки: только numpy • Функция должна быть оптимизирована — без грубой проверки каждой пары, если можно
Решение задачи🔽
import numpy as np def cosine_similarity(a, b): a, b = np.array(a), np.array(b) return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) def find_similar_pairs(vectors, tolerance=0.05): result = [] n = len(vectors) for i in range(n): for j in range(i + 1, n): sim = cosine_similarity(vectors[i], vectors[j]) if 1 - sim <= tolerance: result.append((i, j)) return result

➡️ Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу В статье рассказывают, как ИИ сделал Duolingo фабрикой языковых курсов: генерация контента, проверка ответов, адаптация заданий — всё на автомате. Учить стало быстрее. Читать...

🧠 Распознавание орхоно-енисейских рунических надписей методами машинного обучения В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа. Читать...

Код пишет себя сам, тесты проходят без QA, а джуны становятся сеньорами за неделю. Что это, миф или наше будущее? Раньше ИИ был скорее модным словом. А сегодня нейросеть помогает проводить кредитный скоринг банкам, общается с сотрудниками поддержки и ревьюит код инженеров. В новом выпуске подкаста «Техно.Логично» мы обсуждаем новую ИИ-реальность с теми, кто видит картину изнутри: Аделем Валиуллиным (Первый Вице-Президент Газпромбанка, куратор технологий искусственного интеллекта) и Алексеем Долотовым (внедряет ИИ во внутренние процессы Сбера). Ведущий подкаста — Владимир Герциков, хэд профессии DataBase в Рознице Газпромбанка. Главные темы эпизода: ⏺Больше эффективности, меньше рутины — как ИИ трансформирует труд инженеров ⏺Почему джун с нейросетью еще не заменит сеньора (или заменит) ⏺ИИ в банке: кейсы внедрения и бизнес-эффект ⏺Не бояться, но готовиться — к какому будущему нас приведет новая технология Посмотреть: 📺 VK Видео 📺 Rutube Послушать: 🎵 Яндекс Музыка 🎵 Apple Podcasts 💙 VK Музыка Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqvzTrPp

✔️ Рабочий флоу — как велосипед: собирается под себя Можно взять крутой инструмент, подход или методику, но если она не встраивается в твой ритм — ты всё равно будешь буксовать. 👉 Совет: строй свою систему продуктивности так же, как кастомишь код: под себя. Пробуй, адаптируй, выкидывай. Рабочий флоу — это не универсальный шаблон, а твой личный интерфейс с задачами.

🚀 Правда или нет, что Google победил Cursor? В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор? Читать...

⚙️ Как построить хороший пайплайн разработки ML-модели Рассказываю, как построить понятный и гибкий ML-процесс: чтобы данные масштабировались, новички вливались, а модель не вела себя как капризный кот. Читать...

Яндекс разработал и начал внедрять в свои сервисы рекомендательные системы нового поколения на базе генеративных нейросетей. Это не просто подбор похожего — алгоритмы лучше понимают контекст, связывают обезличенные действия пользователя между собой и предлагают неочевидные, но релевантные товары (или контент), которые с высокой вероятностью вызовут интерес. 👉 Модель называется ARGUS (AutoRegressive Generative User Sequential Modeling). Это трансформер, который предсказывает, что ты сделаешь дальше и как тебе это зайдёт. Обучается на длинных последовательностях, работает в рантайме, и построен с учётом высокой нагрузки — как раз для сервисов на миллионы пользователей. 👉 Первой фичу получила Яндекс Музыка. Она начала работать на базе генеративных нейросетей еще в 2023, теперь это первый сервис, который интегрировал трансформерные модели и перевел их в онлайн. Рекомендации обновляются в реальном времени, точнее подстраиваются под вкусы и быстрее подмечают изменения в интересах. Пользователи стали на 20% чаще добавлять треки в коллекции, а разнообразие рекомендаций выросло на 14%. 👉 Затем алгоритмы пришли в Яндекс Маркет — там теперь анализируют эквивалент двух лет активности пользователей. В тестах это дало +3% к добавлению товаров в корзину и +5% покупок в новых категориях. В мире подобных решений единицы — Google, Netflix, LinkedIn.

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:
# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3
🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.
🖥 Подробнее тут

⚙️ Линейная регрессия в ML для самых маленьких Поясняю линейную регрессию так, чтобы стало понятно, зачем вообще эта прямая на графике и как с её помощью предсказывать результат по набору чисел. Без лишней математики. Читать...

🔥 Хочешь быть в авангарде технологий и управлять будущим? Тогда это твой билет в мир ИТ, ИИ и нейросетей! 🤖✨ Представь, что ты всегда на шаг впереди: знаешь о самых свежих трендах, получаешь эксклюзивные знания и открываешь двери к новым карьерным вершинам. Звучит круто? Тогда не упусти шанс! Почему стоит подписаться прямо сейчас? 🚀 Быть на гребне технологической волны и опережать конкурентов 🚀 Получать доступ к уникальным курсам, вебинарам и инсайтам от экспертов 🚀 Прокачивать свои навыки и строить карьеру мечты
🔥 Только для тех, кто хочет больше — присоединяйся к нашей подборке и начни менять своё будущее уже сегодня!
👉 Жми сюда и будь в числе первых: https://t.me/addlist/qmGQb4T5fpZjYWY6 Не упусти свой шанс стать профи, за которым будущее!

⚙️ RAG на практике: чат-бот для корпоративной вики Рассказываю, как делали чат-бота для внутренней документации: где споткнулись, что взлетело, и почему не всё решается embedding'ами. Может, вам сэкономит пару бессонных ночей. Читать...

⚙️ Пишем персонального AI-ассистента на Python Делюсь, как собрать простого голосового ассистента: он сам распознаёт речь, общается с LLM и отвечает голосом. Без GUI, но с кучей потенциала. Всё на Python, всё работает. Читать...

⚙️ 5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 1 В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое. Читать...

🧠 МТС и НИУ ВШЭ открыли набор на второй поток магистратуры по ИИ Программу «Исследования и предпринимательство в искусственном интеллекте» анонсировали на конференции True Tech Day. И вот, прием документов начнется 20 июня. Для 30 человек предусмотрены оплачиваемые места от МТС Web Services. В московском кампусе ВШЭ студентов научат работать с языковыми моделями, генеративными нейросетями, системами компьютерного зрения и распознаванием речи. Лучших студентов пригласят на стажировку и трудоустройство в МТС Web Services.

👩‍💻 Определение "аномального" элемента в сбалансированных данных Вам передаётся сбалансированный набор объектов из 3-х различных классов (например, "cat", "dog", "bird"). Каждый объект представлен вектором признаков (list of floats). Один объект — подброшенный и не принадлежит ни одному из трёх известных классов: он отличается распределением. Ваша задача — реализовать функцию detect_outlier(data: List[List[float]], labels: List[str]) -> int, которая возвращает индекс выброса в списке. Гарантируется, что в labels один лейбл может быть "unknown", а может и вовсе отсутствовать — выброс может быть замаскирован. Метрика — средняя евклидова дистанция до других представителей того же класса должна быть на порядок выше, чем у нормальных объектов. Пример данных:
data = [
  [1.1, 0.9], [1.2, 1.0], [0.9, 1.1],     # cat
  [3.0, 3.1], [2.9, 3.0], [3.1, 2.9],     # dog
  [5.0, 5.1], [5.1, 5.0], [8.0, 8.0],     # last — выброс
]

labels = ["cat", "cat", "cat", "dog", "dog", "dog", "bird", "bird", "bird"]
Решение задачи🔽
import numpy as np from collections import defaultdict def detect_outlier(data, labels): data = np.array(data) grouped = defaultdict(list) for i, label in enumerate(labels): grouped[label].append(i) outlier_idx = -1 max_score = -1 for i, point in enumerate(data): label = labels[i] others = [j for j in grouped[label] if j != i] if not others: continue distances = [np.linalg.norm(point - data[j]) for j in others] avg_dist = np.mean(distances) if avg_dist > max_score: max_score = avg_dist outlier_idx = i return outlier_idx # Тест print(detect_outlier(data, labels)) # ➜ 8