Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 727 Technologies & Applications6 729...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 047 subscribers, ranking 6 729 in the Technologies & Applications category and 33 727 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 047 subscribers.

According to the latest data from 13 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -68 over the last 30 days and by -19 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.54%. Within the first 24 hours after publication, content typically collects 4.58% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 513 views. Within the first day, a publication typically gains 919 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 14 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 047

Subscribers

-1924 hours

+337 days

-6830 days

1 513

Post views

~ 91924 hours

~ 1 10748 hours

7.54%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 044

🧠 Создаем свой RAG: введение в LangGraph В статье объясняют, что такое RAG и как использовать LangGraph для генерации с дополненной выборкой: основы, примеры и подготовка к созданию собственных RAG-систем. Читать...

20 044

Сменить профессию, переехать в Питер или просто зарабатывать больше в топовой компании… У всех свои причины для роста, но один уверенный старт - это магистратура в Университете ИТМО. В магистратуре ИТМО вы можете обучаться по направлениям: ✔️Программирование ✔️Искусственный интеллект ✔️Биология ✔️Информационная безопасность ✔️Инженерные науки ✔️Гуманитарные исследования ✔️Экология ✔️Биотехнологии ✔️Химия ✔️Робототехника ✔️Энергетика ✔️Физика ✔️Экономика и инновации На каждое из направлений можно поступить на бюджет по конкурсу, не сдавая экзамены📖 КОНКУРС ПОРТФОЛИО - это то, с чем бюджет в магистратуре ИТМО может стать реальностью, а вступительные экзамены пусть достанутся кому-то другому! Подробные условия участия по ссылке📨 А узнать подробнее о самой магистратуре в ИТМО можно узнать по ссылке или в телеграм канале📲 Реклама. Университет ИТМО ИНН:7813045547

20 044

🔥 Самые интересные статьи за последние дни: • Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь • Сбер выкладывает GigaChat Lite в открытый доступ • История YOLO – самой известной архитектуры компьютерного зрения • Магия простоты: как мы улучшили отображение общественного транспорта на карте • Обучение и fine-tuning моделей простым языком: зачем, как, где

20 044

👩‍💻 Адаптивный поиск порога "почти одинаковых" векторов У вас есть множество эмбеддингов — векторов признаков объектов (например, предложений, изображений, пользователей). Требуется реализовать функцию find_similar_pairs(vectors, tolerance=0.05), которая возвращает все пары индексов, где косинусная разница между векторами меньше tolerance. Дополнительные условия:

• Векторы могут быть высокой размерности (до 512) • Пара (i, j) считается дубликатом (i < j), если их cosine similarity ~ 1.0 • Не используйте внешние ML-библиотеки: только numpy • Функция должна быть оптимизирована — без грубой проверки каждой пары, если можно

Решение задачи🔽

import numpy as np def cosine_similarity(a, b): a, b = np.array(a), np.array(b) return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) def find_similar_pairs(vectors, tolerance=0.05): result = [] n = len(vectors) for i in range(n): for j in range(i + 1, n): sim = cosine_similarity(vectors[i], vectors[j]) if 1 - sim <= tolerance: result.append((i, j)) return result

20 044

➡️ Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу В статье рассказывают, как ИИ сделал Duolingo фабрикой языковых курсов: генерация контента, проверка ответов, адаптация заданий — всё на автомате. Учить стало быстрее. Читать...

20 044

🧠 Распознавание орхоно-енисейских рунических надписей методами машинного обучения В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа. Читать...

20 044

Код пишет себя сам, тесты проходят без QA, а джуны становятся сеньорами за неделю. Что это, миф или наше будущее? Раньше ИИ был скорее модным словом. А сегодня нейросеть помогает проводить кредитный скоринг банкам, общается с сотрудниками поддержки и ревьюит код инженеров. В новом выпуске подкаста «Техно.Логично» мы обсуждаем новую ИИ-реальность с теми, кто видит картину изнутри: Аделем Валиуллиным (Первый Вице-Президент Газпромбанка, куратор технологий искусственного интеллекта) и Алексеем Долотовым (внедряет ИИ во внутренние процессы Сбера). Ведущий подкаста — Владимир Герциков, хэд профессии DataBase в Рознице Газпромбанка. Главные темы эпизода: ⏺Больше эффективности, меньше рутины — как ИИ трансформирует труд инженеров ⏺Почему джун с нейросетью еще не заменит сеньора (или заменит) ⏺ИИ в банке: кейсы внедрения и бизнес-эффект ⏺Не бояться, но готовиться — к какому будущему нас приведет новая технология Посмотреть: 📺 VK Видео 📺 Rutube Послушать: 🎵 Яндекс Музыка 🎵 Apple Podcasts 💙 VK Музыка Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqvzTrPp

20 044

✔️ Рабочий флоу — как велосипед: собирается под себя Можно взять крутой инструмент, подход или методику, но если она не встраивается в твой ритм — ты всё равно будешь буксовать. 👉 Совет: строй свою систему продуктивности так же, как кастомишь код: под себя. Пробуй, адаптируй, выкидывай. Рабочий флоу — это не универсальный шаблон, а твой личный интерфейс с задачами.

20 044

🚀 Правда или нет, что Google победил Cursor? В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор? Читать...

20 044

⚙️ Как построить хороший пайплайн разработки ML-модели Рассказываю, как построить понятный и гибкий ML-процесс: чтобы данные масштабировались, новички вливались, а модель не вела себя как капризный кот. Читать...

20 044

Яндекс разработал и начал внедрять в свои сервисы рекомендательные системы нового поколения на базе генеративных нейросетей. Это не просто подбор похожего — алгоритмы лучше понимают контекст, связывают обезличенные действия пользователя между собой и предлагают неочевидные, но релевантные товары (или контент), которые с высокой вероятностью вызовут интерес. 👉 Модель называется ARGUS (AutoRegressive Generative User Sequential Modeling). Это трансформер, который предсказывает, что ты сделаешь дальше и как тебе это зайдёт. Обучается на длинных последовательностях, работает в рантайме, и построен с учётом высокой нагрузки — как раз для сервисов на миллионы пользователей. 👉 Первой фичу получила Яндекс Музыка. Она начала работать на базе генеративных нейросетей еще в 2023, теперь это первый сервис, который интегрировал трансформерные модели и перевел их в онлайн. Рекомендации обновляются в реальном времени, точнее подстраиваются под вкусы и быстрее подмечают изменения в интересах. Пользователи стали на 20% чаще добавлять треки в коллекции, а разнообразие рекомендаций выросло на 14%. 👉 Затем алгоритмы пришли в Яндекс Маркет — там теперь анализируют эквивалент двух лет активности пользователей. В тестах это дало +3% к добавлению товаров в корзину и +5% покупок в новых категориях. В мире подобных решений единицы — Google, Netflix, LinkedIn.

20 044

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥 Подробнее тут

20 044

⚙️ Линейная регрессия в ML для самых маленьких Поясняю линейную регрессию так, чтобы стало понятно, зачем вообще эта прямая на графике и как с её помощью предсказывать результат по набору чисел. Без лишней математики. Читать...

20 044

📈 Подборка статей для вашей карьеры • Как продакт-менеджеру учить английский: план, сроки, советы • Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт • Interview copilots: как кандидаты используют ChatGPT на интервью • Моя история входа в IT: как я ломал стены своих ограничений • Как мы разработали систему грейдинга для системных аналитиков

20 044

🔥 Хочешь быть в авангарде технологий и управлять будущим? Тогда это твой билет в мир ИТ, ИИ и нейросетей! 🤖✨ Представь, что ты всегда на шаг впереди: знаешь о самых свежих трендах, получаешь эксклюзивные знания и открываешь двери к новым карьерным вершинам. Звучит круто? Тогда не упусти шанс! Почему стоит подписаться прямо сейчас? 🚀 Быть на гребне технологической волны и опережать конкурентов 🚀 Получать доступ к уникальным курсам, вебинарам и инсайтам от экспертов 🚀 Прокачивать свои навыки и строить карьеру мечты

🔥 Только для тех, кто хочет больше — присоединяйся к нашей подборке и начни менять своё будущее уже сегодня!

👉 Жми сюда и будь в числе первых: https://t.me/addlist/qmGQb4T5fpZjYWY6 Не упусти свой шанс стать профи, за которым будущее!

20 044

⚙️ RAG на практике: чат-бот для корпоративной вики Рассказываю, как делали чат-бота для внутренней документации: где споткнулись, что взлетело, и почему не всё решается embedding'ами. Может, вам сэкономит пару бессонных ночей. Читать...

20 044

⚙️ Пишем персонального AI-ассистента на Python Делюсь, как собрать простого голосового ассистента: он сам распознаёт речь, общается с LLM и отвечает голосом. Без GUI, но с кучей потенциала. Всё на Python, всё работает. Читать...

20 044

⚙️ 5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 1 В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое. Читать...

20 044

🧠 МТС и НИУ ВШЭ открыли набор на второй поток магистратуры по ИИ Программу «Исследования и предпринимательство в искусственном интеллекте» анонсировали на конференции True Tech Day. И вот, прием документов начнется 20 июня. Для 30 человек предусмотрены оплачиваемые места от МТС Web Services. В московском кампусе ВШЭ студентов научат работать с языковыми моделями, генеративными нейросетями, системами компьютерного зрения и распознаванием речи. Лучших студентов пригласят на стажировку и трудоустройство в МТС Web Services.

20 044

👩‍💻 Определение "аномального" элемента в сбалансированных данных Вам передаётся сбалансированный набор объектов из 3-х различных классов (например, "cat", "dog", "bird"). Каждый объект представлен вектором признаков (list of floats). Один объект — подброшенный и не принадлежит ни одному из трёх известных классов: он отличается распределением. Ваша задача — реализовать функцию detect_outlier(data: List[List[float]], labels: List[str]) -> int, которая возвращает индекс выброса в списке. Гарантируется, что в labels один лейбл может быть "unknown", а может и вовсе отсутствовать — выброс может быть замаскирован. Метрика — средняя евклидова дистанция до других представителей того же класса должна быть на порядок выше, чем у нормальных объектов. Пример данных:

data = [
  [1.1, 0.9], [1.2, 1.0], [0.9, 1.1],     # cat
  [3.0, 3.1], [2.9, 3.0], [3.1, 2.9],     # dog
  [5.0, 5.1], [5.1, 5.0], [8.0, 8.0],     # last — выброс
]

labels = ["cat", "cat", "cat", "dog", "dog", "dog", "bird", "bird", "bird"]

Решение задачи🔽

import numpy as np from collections import defaultdict def detect_outlier(data, labels): data = np.array(data) grouped = defaultdict(list) for i, label in enumerate(labels): grouped[label].append(i) outlier_idx = -1 max_score = -1 for i, point in enumerate(data): label = labels[i] others = [j for j in grouped[label] if j != i] if not others: continue distances = [np.linalg.norm(point - data[j]) for j in others] avg_dist = np.mean(distances) if avg_dist > max_score: max_score = avg_dist outlier_idx = i return outlier_idx # Тест print(detect_outlier(data, labels)) # ➜ 8