Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 727 Texnologiyalar & Aralashmalar6 729...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 047 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 729-o'rinni va Rossiya mintaqasida 33 727-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 047 obunachiga ega bo‘ldi.

13 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -68 ga, so‘nggi 24 soatda esa -19 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.54% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.58% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 513 marta ko‘riladi; birinchi sutkada odatda 919 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 14 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 047

Obunachilar

-1924 soatlar

+337 kunlar

-6830 kunlar

1 513

Post ko'rishlar

~ 91924 soatlar

~ 1 10748 soatlar

7.54%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 044

🧠 Создаем свой RAG: введение в LangGraph В статье объясняют, что такое RAG и как использовать LangGraph для генерации с дополненной выборкой: основы, примеры и подготовка к созданию собственных RAG-систем. Читать...

20 044

Сменить профессию, переехать в Питер или просто зарабатывать больше в топовой компании… У всех свои причины для роста, но один уверенный старт - это магистратура в Университете ИТМО. В магистратуре ИТМО вы можете обучаться по направлениям: ✔️Программирование ✔️Искусственный интеллект ✔️Биология ✔️Информационная безопасность ✔️Инженерные науки ✔️Гуманитарные исследования ✔️Экология ✔️Биотехнологии ✔️Химия ✔️Робототехника ✔️Энергетика ✔️Физика ✔️Экономика и инновации На каждое из направлений можно поступить на бюджет по конкурсу, не сдавая экзамены📖 КОНКУРС ПОРТФОЛИО - это то, с чем бюджет в магистратуре ИТМО может стать реальностью, а вступительные экзамены пусть достанутся кому-то другому! Подробные условия участия по ссылке📨 А узнать подробнее о самой магистратуре в ИТМО можно узнать по ссылке или в телеграм канале📲 Реклама. Университет ИТМО ИНН:7813045547

20 044

🔥 Самые интересные статьи за последние дни: • Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь • Сбер выкладывает GigaChat Lite в открытый доступ • История YOLO – самой известной архитектуры компьютерного зрения • Магия простоты: как мы улучшили отображение общественного транспорта на карте • Обучение и fine-tuning моделей простым языком: зачем, как, где

20 044

👩‍💻 Адаптивный поиск порога "почти одинаковых" векторов У вас есть множество эмбеддингов — векторов признаков объектов (например, предложений, изображений, пользователей). Требуется реализовать функцию find_similar_pairs(vectors, tolerance=0.05), которая возвращает все пары индексов, где косинусная разница между векторами меньше tolerance. Дополнительные условия:

• Векторы могут быть высокой размерности (до 512) • Пара (i, j) считается дубликатом (i < j), если их cosine similarity ~ 1.0 • Не используйте внешние ML-библиотеки: только numpy • Функция должна быть оптимизирована — без грубой проверки каждой пары, если можно

Решение задачи🔽

import numpy as np def cosine_similarity(a, b): a, b = np.array(a), np.array(b) return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) def find_similar_pairs(vectors, tolerance=0.05): result = [] n = len(vectors) for i in range(n): for j in range(i + 1, n): sim = cosine_similarity(vectors[i], vectors[j]) if 1 - sim <= tolerance: result.append((i, j)) return result

20 044

➡️ Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу В статье рассказывают, как ИИ сделал Duolingo фабрикой языковых курсов: генерация контента, проверка ответов, адаптация заданий — всё на автомате. Учить стало быстрее. Читать...

20 044

🧠 Распознавание орхоно-енисейских рунических надписей методами машинного обучения В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа. Читать...

20 044

Код пишет себя сам, тесты проходят без QA, а джуны становятся сеньорами за неделю. Что это, миф или наше будущее? Раньше ИИ был скорее модным словом. А сегодня нейросеть помогает проводить кредитный скоринг банкам, общается с сотрудниками поддержки и ревьюит код инженеров. В новом выпуске подкаста «Техно.Логично» мы обсуждаем новую ИИ-реальность с теми, кто видит картину изнутри: Аделем Валиуллиным (Первый Вице-Президент Газпромбанка, куратор технологий искусственного интеллекта) и Алексеем Долотовым (внедряет ИИ во внутренние процессы Сбера). Ведущий подкаста — Владимир Герциков, хэд профессии DataBase в Рознице Газпромбанка. Главные темы эпизода: ⏺Больше эффективности, меньше рутины — как ИИ трансформирует труд инженеров ⏺Почему джун с нейросетью еще не заменит сеньора (или заменит) ⏺ИИ в банке: кейсы внедрения и бизнес-эффект ⏺Не бояться, но готовиться — к какому будущему нас приведет новая технология Посмотреть: 📺 VK Видео 📺 Rutube Послушать: 🎵 Яндекс Музыка 🎵 Apple Podcasts 💙 VK Музыка Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqvzTrPp

20 044

✔️ Рабочий флоу — как велосипед: собирается под себя Можно взять крутой инструмент, подход или методику, но если она не встраивается в твой ритм — ты всё равно будешь буксовать. 👉 Совет: строй свою систему продуктивности так же, как кастомишь код: под себя. Пробуй, адаптируй, выкидывай. Рабочий флоу — это не универсальный шаблон, а твой личный интерфейс с задачами.

20 044

🚀 Правда или нет, что Google победил Cursor? В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор? Читать...

20 044

⚙️ Как построить хороший пайплайн разработки ML-модели Рассказываю, как построить понятный и гибкий ML-процесс: чтобы данные масштабировались, новички вливались, а модель не вела себя как капризный кот. Читать...

20 044

Яндекс разработал и начал внедрять в свои сервисы рекомендательные системы нового поколения на базе генеративных нейросетей. Это не просто подбор похожего — алгоритмы лучше понимают контекст, связывают обезличенные действия пользователя между собой и предлагают неочевидные, но релевантные товары (или контент), которые с высокой вероятностью вызовут интерес. 👉 Модель называется ARGUS (AutoRegressive Generative User Sequential Modeling). Это трансформер, который предсказывает, что ты сделаешь дальше и как тебе это зайдёт. Обучается на длинных последовательностях, работает в рантайме, и построен с учётом высокой нагрузки — как раз для сервисов на миллионы пользователей. 👉 Первой фичу получила Яндекс Музыка. Она начала работать на базе генеративных нейросетей еще в 2023, теперь это первый сервис, который интегрировал трансформерные модели и перевел их в онлайн. Рекомендации обновляются в реальном времени, точнее подстраиваются под вкусы и быстрее подмечают изменения в интересах. Пользователи стали на 20% чаще добавлять треки в коллекции, а разнообразие рекомендаций выросло на 14%. 👉 Затем алгоритмы пришли в Яндекс Маркет — там теперь анализируют эквивалент двух лет активности пользователей. В тестах это дало +3% к добавлению товаров в корзину и +5% покупок в новых категориях. В мире подобных решений единицы — Google, Netflix, LinkedIn.

20 044

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥 Подробнее тут

20 044

⚙️ Линейная регрессия в ML для самых маленьких Поясняю линейную регрессию так, чтобы стало понятно, зачем вообще эта прямая на графике и как с её помощью предсказывать результат по набору чисел. Без лишней математики. Читать...

20 044

📈 Подборка статей для вашей карьеры • Как продакт-менеджеру учить английский: план, сроки, советы • Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт • Interview copilots: как кандидаты используют ChatGPT на интервью • Моя история входа в IT: как я ломал стены своих ограничений • Как мы разработали систему грейдинга для системных аналитиков

20 044

🔥 Хочешь быть в авангарде технологий и управлять будущим? Тогда это твой билет в мир ИТ, ИИ и нейросетей! 🤖✨ Представь, что ты всегда на шаг впереди: знаешь о самых свежих трендах, получаешь эксклюзивные знания и открываешь двери к новым карьерным вершинам. Звучит круто? Тогда не упусти шанс! Почему стоит подписаться прямо сейчас? 🚀 Быть на гребне технологической волны и опережать конкурентов 🚀 Получать доступ к уникальным курсам, вебинарам и инсайтам от экспертов 🚀 Прокачивать свои навыки и строить карьеру мечты

🔥 Только для тех, кто хочет больше — присоединяйся к нашей подборке и начни менять своё будущее уже сегодня!

👉 Жми сюда и будь в числе первых: https://t.me/addlist/qmGQb4T5fpZjYWY6 Не упусти свой шанс стать профи, за которым будущее!

20 044

⚙️ RAG на практике: чат-бот для корпоративной вики Рассказываю, как делали чат-бота для внутренней документации: где споткнулись, что взлетело, и почему не всё решается embedding'ами. Может, вам сэкономит пару бессонных ночей. Читать...

20 044

⚙️ Пишем персонального AI-ассистента на Python Делюсь, как собрать простого голосового ассистента: он сам распознаёт речь, общается с LLM и отвечает голосом. Без GUI, но с кучей потенциала. Всё на Python, всё работает. Читать...

20 044

⚙️ 5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 1 В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое. Читать...

20 044

🧠 МТС и НИУ ВШЭ открыли набор на второй поток магистратуры по ИИ Программу «Исследования и предпринимательство в искусственном интеллекте» анонсировали на конференции True Tech Day. И вот, прием документов начнется 20 июня. Для 30 человек предусмотрены оплачиваемые места от МТС Web Services. В московском кампусе ВШЭ студентов научат работать с языковыми моделями, генеративными нейросетями, системами компьютерного зрения и распознаванием речи. Лучших студентов пригласят на стажировку и трудоустройство в МТС Web Services.

20 044

👩‍💻 Определение "аномального" элемента в сбалансированных данных Вам передаётся сбалансированный набор объектов из 3-х различных классов (например, "cat", "dog", "bird"). Каждый объект представлен вектором признаков (list of floats). Один объект — подброшенный и не принадлежит ни одному из трёх известных классов: он отличается распределением. Ваша задача — реализовать функцию detect_outlier(data: List[List[float]], labels: List[str]) -> int, которая возвращает индекс выброса в списке. Гарантируется, что в labels один лейбл может быть "unknown", а может и вовсе отсутствовать — выброс может быть замаскирован. Метрика — средняя евклидова дистанция до других представителей того же класса должна быть на порядок выше, чем у нормальных объектов. Пример данных:

data = [
  [1.1, 0.9], [1.2, 1.0], [0.9, 1.1],     # cat
  [3.0, 3.1], [2.9, 3.0], [3.1, 2.9],     # dog
  [5.0, 5.1], [5.1, 5.0], [8.0, 8.0],     # last — выброс
]

labels = ["cat", "cat", "cat", "dog", "dog", "dog", "bird", "bird", "bird"]

Решение задачи🔽

import numpy as np from collections import defaultdict def detect_outlier(data, labels): data = np.array(data) grouped = defaultdict(list) for i, label in enumerate(labels): grouped[label].append(i) outlier_idx = -1 max_score = -1 for i, point in enumerate(data): label = labels[i] others = [j for j in grouped[label] if j != i] if not others: continue distances = [np.linalg.norm(point - data[j]) for j in others] avg_dist = np.mean(distances) if avg_dist > max_score: max_score = avg_dist outlier_idx = i return outlier_idx # Тест print(detect_outlier(data, labels)) # ➜ 8