fa
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

رفتن به کانال در Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

نمایش بیشتر

📈 تحلیل کانال تلگرام Data Science | Machinelearning [ru]

کانال Data Science | Machinelearning [ru] (@devsp) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 20 047 مشترک است و جایگاه 6 729 را در دسته فناوری و برنامه‌ها و رتبه 33 727 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 20 047 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 13 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -68 و در ۲۴ ساعت گذشته برابر -19 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

  • وضعیت تأیید: تأیید نشده
  • نرخ تعامل (ER): میانگین تعامل مخاطب 7.54% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.58% واکنش نسبت به کل مشترکان کسب می‌کند.
  • دسترسی پست‌ها: هر پست به طور میانگین 1 513 بازدید دریافت می‌کند. در اولین روز معمولاً 919 بازدید جمع‌آوری می‌شود.
  • واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 7 است.
  • علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, nvidia, контекст, openai, архитектура تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 14 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

20 047
مشترکین
-1924 ساعت
+337 روز
-6830 روز
آرشیو پست ها
🧠 Создаем свой RAG: введение в LangGraph В статье объясняют, что такое RAG и как использовать LangGraph для генерации с дополненной выборкой: основы, примеры и подготовка к созданию собственных RAG-систем. Читать...

Сменить профессию, переехать в Питер или просто зарабатывать больше в топовой компании… У всех свои причины для роста, но оди
Сменить профессию, переехать в Питер или просто зарабатывать больше в топовой компании… У всех свои причины для роста, но один уверенный старт - это магистратура в Университете ИТМО. В магистратуре ИТМО вы можете обучаться по направлениям: ✔️Программирование ✔️Искусственный интеллект ✔️Биология ✔️Информационная безопасность ✔️Инженерные науки ✔️Гуманитарные исследования ✔️Экология ✔️Биотехнологии ✔️Химия ✔️Робототехника ✔️Энергетика ✔️Физика ✔️Экономика и инновации На каждое из направлений можно поступить на бюджет по конкурсу, не сдавая экзамены📖 КОНКУРС ПОРТФОЛИО - это то, с чем бюджет в магистратуре ИТМО может стать реальностью, а вступительные экзамены пусть достанутся кому-то другому! Подробные условия участия по ссылке📨 А узнать подробнее о самой магистратуре в ИТМО можно узнать по ссылке или в телеграм канале📲 Реклама. Университет ИТМО ИНН:7813045547

👩‍💻 Адаптивный поиск порога "почти одинаковых" векторов У вас есть множество эмбеддингов — векторов признаков объектов (например, предложений, изображений, пользователей). Требуется реализовать функцию find_similar_pairs(vectors, tolerance=0.05), которая возвращает все пары индексов, где косинусная разница между векторами меньше tolerance. Дополнительные условия:
• Векторы могут быть высокой размерности (до 512) • Пара (i, j) считается дубликатом (i < j), если их cosine similarity ~ 1.0 • Не используйте внешние ML-библиотеки: только numpy • Функция должна быть оптимизирована — без грубой проверки каждой пары, если можно
Решение задачи🔽
import numpy as np def cosine_similarity(a, b): a, b = np.array(a), np.array(b) return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) def find_similar_pairs(vectors, tolerance=0.05): result = [] n = len(vectors) for i in range(n): for j in range(i + 1, n): sim = cosine_similarity(vectors[i], vectors[j]) if 1 - sim <= tolerance: result.append((i, j)) return result

➡️ Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу В статье рассказывают, как ИИ сделал Duolingo фабрикой языковых курсов: генерация контента, проверка ответов, адаптация заданий — всё на автомате. Учить стало быстрее. Читать...

🧠 Распознавание орхоно-енисейских рунических надписей методами машинного обучения В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа. Читать...

Код пишет себя сам, тесты проходят без QA, а джуны становятся сеньорами за неделю. Что это, миф или наше будущее? Раньше ИИ был скорее модным словом. А сегодня нейросеть помогает проводить кредитный скоринг банкам, общается с сотрудниками поддержки и ревьюит код инженеров. В новом выпуске подкаста «Техно.Логично» мы обсуждаем новую ИИ-реальность с теми, кто видит картину изнутри: Аделем Валиуллиным (Первый Вице-Президент Газпромбанка, куратор технологий искусственного интеллекта) и Алексеем Долотовым (внедряет ИИ во внутренние процессы Сбера). Ведущий подкаста — Владимир Герциков, хэд профессии DataBase в Рознице Газпромбанка. Главные темы эпизода: ⏺Больше эффективности, меньше рутины — как ИИ трансформирует труд инженеров ⏺Почему джун с нейросетью еще не заменит сеньора (или заменит) ⏺ИИ в банке: кейсы внедрения и бизнес-эффект ⏺Не бояться, но готовиться — к какому будущему нас приведет новая технология Посмотреть: 📺 VK Видео 📺 Rutube Послушать: 🎵 Яндекс Музыка 🎵 Apple Podcasts 💙 VK Музыка Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqvzTrPp

✔️ Рабочий флоу — как велосипед: собирается под себя Можно взять крутой инструмент, подход или методику, но если она не встраивается в твой ритм — ты всё равно будешь буксовать. 👉 Совет: строй свою систему продуктивности так же, как кастомишь код: под себя. Пробуй, адаптируй, выкидывай. Рабочий флоу — это не универсальный шаблон, а твой личный интерфейс с задачами.

🚀 Правда или нет, что Google победил Cursor? В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор? Читать...

⚙️ Как построить хороший пайплайн разработки ML-модели Рассказываю, как построить понятный и гибкий ML-процесс: чтобы данные масштабировались, новички вливались, а модель не вела себя как капризный кот. Читать...

Яндекс разработал и начал внедрять в свои сервисы рекомендательные системы нового поколения на базе генеративных нейросетей. Это не просто подбор похожего — алгоритмы лучше понимают контекст, связывают обезличенные действия пользователя между собой и предлагают неочевидные, но релевантные товары (или контент), которые с высокой вероятностью вызовут интерес. 👉 Модель называется ARGUS (AutoRegressive Generative User Sequential Modeling). Это трансформер, который предсказывает, что ты сделаешь дальше и как тебе это зайдёт. Обучается на длинных последовательностях, работает в рантайме, и построен с учётом высокой нагрузки — как раз для сервисов на миллионы пользователей. 👉 Первой фичу получила Яндекс Музыка. Она начала работать на базе генеративных нейросетей еще в 2023, теперь это первый сервис, который интегрировал трансформерные модели и перевел их в онлайн. Рекомендации обновляются в реальном времени, точнее подстраиваются под вкусы и быстрее подмечают изменения в интересах. Пользователи стали на 20% чаще добавлять треки в коллекции, а разнообразие рекомендаций выросло на 14%. 👉 Затем алгоритмы пришли в Яндекс Маркет — там теперь анализируют эквивалент двух лет активности пользователей. В тестах это дало +3% к добавлению товаров в корзину и +5% покупок в новых категориях. В мире подобных решений единицы — Google, Netflix, LinkedIn.

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:
# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3
🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.
🖥 Подробнее тут

⚙️ Линейная регрессия в ML для самых маленьких Поясняю линейную регрессию так, чтобы стало понятно, зачем вообще эта прямая на графике и как с её помощью предсказывать результат по набору чисел. Без лишней математики. Читать...

🔥 Хочешь быть в авангарде технологий и управлять будущим? Тогда это твой билет в мир ИТ, ИИ и нейросетей! 🤖✨ Представь, что ты всегда на шаг впереди: знаешь о самых свежих трендах, получаешь эксклюзивные знания и открываешь двери к новым карьерным вершинам. Звучит круто? Тогда не упусти шанс! Почему стоит подписаться прямо сейчас? 🚀 Быть на гребне технологической волны и опережать конкурентов 🚀 Получать доступ к уникальным курсам, вебинарам и инсайтам от экспертов 🚀 Прокачивать свои навыки и строить карьеру мечты
🔥 Только для тех, кто хочет больше — присоединяйся к нашей подборке и начни менять своё будущее уже сегодня!
👉 Жми сюда и будь в числе первых: https://t.me/addlist/qmGQb4T5fpZjYWY6 Не упусти свой шанс стать профи, за которым будущее!

⚙️ RAG на практике: чат-бот для корпоративной вики Рассказываю, как делали чат-бота для внутренней документации: где споткнулись, что взлетело, и почему не всё решается embedding'ами. Может, вам сэкономит пару бессонных ночей. Читать...

⚙️ Пишем персонального AI-ассистента на Python Делюсь, как собрать простого голосового ассистента: он сам распознаёт речь, общается с LLM и отвечает голосом. Без GUI, но с кучей потенциала. Всё на Python, всё работает. Читать...

⚙️ 5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 1 В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое. Читать...

🧠 МТС и НИУ ВШЭ открыли набор на второй поток магистратуры по ИИ Программу «Исследования и предпринимательство в искусственном интеллекте» анонсировали на конференции True Tech Day. И вот, прием документов начнется 20 июня. Для 30 человек предусмотрены оплачиваемые места от МТС Web Services. В московском кампусе ВШЭ студентов научат работать с языковыми моделями, генеративными нейросетями, системами компьютерного зрения и распознаванием речи. Лучших студентов пригласят на стажировку и трудоустройство в МТС Web Services.

👩‍💻 Определение "аномального" элемента в сбалансированных данных Вам передаётся сбалансированный набор объектов из 3-х различных классов (например, "cat", "dog", "bird"). Каждый объект представлен вектором признаков (list of floats). Один объект — подброшенный и не принадлежит ни одному из трёх известных классов: он отличается распределением. Ваша задача — реализовать функцию detect_outlier(data: List[List[float]], labels: List[str]) -> int, которая возвращает индекс выброса в списке. Гарантируется, что в labels один лейбл может быть "unknown", а может и вовсе отсутствовать — выброс может быть замаскирован. Метрика — средняя евклидова дистанция до других представителей того же класса должна быть на порядок выше, чем у нормальных объектов. Пример данных:
data = [
  [1.1, 0.9], [1.2, 1.0], [0.9, 1.1],     # cat
  [3.0, 3.1], [2.9, 3.0], [3.1, 2.9],     # dog
  [5.0, 5.1], [5.1, 5.0], [8.0, 8.0],     # last — выброс
]

labels = ["cat", "cat", "cat", "dog", "dog", "dog", "bird", "bird", "bird"]
Решение задачи🔽
import numpy as np from collections import defaultdict def detect_outlier(data, labels): data = np.array(data) grouped = defaultdict(list) for i, label in enumerate(labels): grouped[label].append(i) outlier_idx = -1 max_score = -1 for i, point in enumerate(data): label = labels[i] others = [j for j in grouped[label] if j != i] if not others: continue distances = [np.linalg.norm(point - data[j]) for j in others] avg_dist = np.mean(distances) if avg_dist > max_score: max_score = avg_dist outlier_idx = i return outlier_idx # Тест print(detect_outlier(data, labels)) # ➜ 8