Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 728 Texnologiyalar & Aralashmalar6 731...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 031 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 731-o'rinni va Rossiya mintaqasida 33 728-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 031 obunachiga ega bo‘ldi.

17 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -72 ga, so‘nggi 24 soatda esa -3 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.16% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.20% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 634 marta ko‘riladi; birinchi sutkada odatda 842 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 18 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 031

Obunachilar

-324 soatlar

-77 kunlar

-7230 kunlar

1 634

Post ko'rishlar

~ 84224 soatlar

~ 1 02048 soatlar

8.16%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 030

➡️ Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу В статье рассказывают, как ИИ сделал Duolingo фабрикой языковых курсов: генерация контента, проверка ответов, адаптация заданий — всё на автомате. Учить стало быстрее. Читать...

20 030

⁉️Как машинное обучение связано с AI? Машинное обучение — это основа всего современного искусственного интеллекта, и вы можете понять, почему именно сегодня эти технологии актуальны как никогда. Присоединяйтесь к открытому вебинару 26 августа в 18:00 МСК! Мы разберемся, как Machine Learning (ML) стал неотъемлемой частью развития AI и GenAI. Что стоит за этим технологическим бумом и как ML используется в реальных AI-моделях? Мы покажем, как использовать ML для создания мощных AI-моделей и какие знания стоит развивать сегодня. ➡️ Присоединяйтесь и получите скидку на курс «Machine Learning. Basic»: https://vk.cc/cOW5Po Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 030

👩‍💻 Предсказание цены дома по площади Построить сверточную нейронную сеть (CNN) для классификации изображений из набора данных CIFAR-10. Модель должна предсказывать класс объекта на изображении. Датасет CIFAR-10 содержит 60,000 изображений размером 32x32 пикселя, разделенных на 10 классов: — Самолет, Автомобиль, Птица, Кот, Олень, Собака, Лягушка, Лошадь, Корабль, Грузовик. Требования к модели: • Использовать сверточные слои для выделения признаков. • Применить слои подвыборки (пулинг) для уменьшения размеров карты признаков. • Добавить полносвязные слои для классификации на основе выделенных признаков. • Использовать функцию активации ReLU для скрытых слоев и softmax для выходного слоя. • Оценить точность модели на тестовых данных. Входные данные: изображения размера 32x32 с тремя каналами (RGB). Решение задачи🔽

import tensorflow as tf from tensorflow.keras.datasets import cifar10 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense # Загрузка данных (X_train, y_train), (X_test, y_test) = cifar10.load_data() # Нормализация данных X_train, X_test = X_train / 255.0, X_test / 255.0 # Создание модели CNN model = Sequential([ Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)), MaxPooling2D((2, 2)), Conv2D(64, (3, 3), activation='relu'), MaxPooling2D((2, 2)), Flatten(), Dense(128, activation='relu'), Dense(10, activation='softmax') ]) # Компиляция модели model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) # Обучение модели model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test)) # Оценка модели loss, accuracy = model.evaluate(X_test, y_test) print(f"Точность модели: {accuracy:.2f}")

20 030

🧠 Распознавание орхоно-енисейских рунических надписей методами машинного обучения В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа. Читать...

20 030

🚀 Правда или нет, что Google победил Cursor? В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор? Читать...

20 030

👩‍💻 Адаптивный поиск порога "почти одинаковых" векторов У вас есть множество эмбеддингов — векторов признаков объектов (например, предложений, изображений, пользователей). Требуется реализовать функцию find_similar_pairs(vectors, tolerance=0.05), которая возвращает все пары индексов, где косинусная разница между векторами меньше tolerance. Дополнительные условия:

• Векторы могут быть высокой размерности (до 512) • Пара (i, j) считается дубликатом (i < j), если их cosine similarity ~ 1.0 • Не используйте внешние ML-библиотеки: только numpy • Функция должна быть оптимизирована — без грубой проверки каждой пары, если можно

Решение задачи🔽

import numpy as np def cosine_similarity(a, b): a, b = np.array(a), np.array(b) return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) def find_similar_pairs(vectors, tolerance=0.05): result = [] n = len(vectors) for i in range(n): for j in range(i + 1, n): sim = cosine_similarity(vectors[i], vectors[j]) if 1 - sim <= tolerance: result.append((i, j)) return result

20 030

⚙️ Как построить хороший пайплайн разработки ML-модели Рассказываю, как построить понятный и гибкий ML-процесс: чтобы данные масштабировались, новички вливались, а модель не вела себя как капризный кот. Читать...

20 030

⚙️ Линейная регрессия в ML для самых маленьких Поясняю линейную регрессию так, чтобы стало понятно, зачем вообще эта прямая на графике и как с её помощью предсказывать результат по набору чисел. Без лишней математики. Читать...

20 030

🌱 Рост идёт от дискомфорта Если задачи всегда кажутся «понятными», значит, ты топчешься на месте. 👉 Совет: бери задачи, от которых чуть некомфортно. Не настолько, чтобы парализовало, а настолько, чтобы пришлось учиться новому. Этот дискомфорт — главный двигатель развития в IT.

20 030

⚙️ RAG на практике: чат-бот для корпоративной вики Рассказываю, как делали чат-бота для внутренней документации: где споткнулись, что взлетело, и почему не всё решается embedding'ами. Может, вам сэкономит пару бессонных ночей. Читать...

20 030

⚙️ Пишем персонального AI-ассистента на Python Делюсь, как собрать простого голосового ассистента: он сам распознаёт речь, общается с LLM и отвечает голосом. Без GUI, но с кучей потенциала. Всё на Python, всё работает. Читать...

20 030

⚙️ Что такое генераторы в Python и зачем они нужны? Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету. ➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥 Подробнее тут

20 030

Стань AI-инженером мирового уровня и зарабатывай до 1 млн. ₽ Уже сейчас работодатели активно ищут таких специалистов, и спрос на них будет только расти! Магистратура «ИИ и компьютерное зрение» в ИТ-университете НЕЙМАРК — это: 1) онлайн обучение на английском языке 2) 2 диплома: НИУ ВШЭ + НЕЙМАРК 3) реальные задачи от Intel, Huawei, SBERLAB и других 4) возможность запустить стартап при поддержке наставников во время обучения 5) отсрочка от армии Узнай, как поступить и учиться бесплатно — переходи в бот и забирай инструкцию! Реклама. НЕЙМАРК, УНИВЕРСИТЕТ НЕЙМАРК. ИНН 5256209106.

20 030

📈 Подборка статей для вашей карьеры • Как продакт-менеджеру учить английский: план, сроки, советы • Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт • Interview copilots: как кандидаты используют ChatGPT на интервью • Моя история входа в IT: как я ломал стены своих ограничений • Как мы разработали систему грейдинга для системных аналитиков

20 030

👩‍💻 Определение "аномального" элемента в сбалансированных данных Вам передаётся сбалансированный набор объектов из 3-х различных классов (например, "cat", "dog", "bird"). Каждый объект представлен вектором признаков (list of floats). Один объект — подброшенный и не принадлежит ни одному из трёх известных классов: он отличается распределением. Ваша задача — реализовать функцию detect_outlier(data: List[List[float]], labels: List[str]) -> int, которая возвращает индекс выброса в списке. Гарантируется, что в labels один лейбл может быть "unknown", а может и вовсе отсутствовать — выброс может быть замаскирован. Метрика — средняя евклидова дистанция до других представителей того же класса должна быть на порядок выше, чем у нормальных объектов. Пример данных:

data = [
  [1.1, 0.9], [1.2, 1.0], [0.9, 1.1],     # cat
  [3.0, 3.1], [2.9, 3.0], [3.1, 2.9],     # dog
  [5.0, 5.1], [5.1, 5.0], [8.0, 8.0],     # last — выброс
]

labels = ["cat", "cat", "cat", "dog", "dog", "dog", "bird", "bird", "bird"]

Решение задачи🔽

import numpy as np from collections import defaultdict def detect_outlier(data, labels): data = np.array(data) grouped = defaultdict(list) for i, label in enumerate(labels): grouped[label].append(i) outlier_idx = -1 max_score = -1 for i, point in enumerate(data): label = labels[i] others = [j for j in grouped[label] if j != i] if not others: continue distances = [np.linalg.norm(point - data[j]) for j in others] avg_dist = np.mean(distances) if avg_dist > max_score: max_score = avg_dist outlier_idx = i return outlier_idx # Тест print(detect_outlier(data, labels)) # ➜ 8

20 030

⚙️ Обнаружение аномалий в данных временных рядов с помощью статистического анализа Рассказываю, почему статичные пороги — не выход, когда дело доходит до пользовательской активности. Покажу, как в таких случаях спасает обнаружение аномалий. Читать...

20 030

Задача классификации с BERT: научи модель BERT понимать настроение отзывов о ресторанах Представь, что ты — владелец сети кафе. Каждый день приходят десятки отзывов: кто-то хвалит десерты, кто-то жалуется на медленное обслуживание. Нужно быстро понять, какие отзывы положительные, а какие — негативные. 🔵 Что у тебя уже есть: Предобученная модель BERT, которая умеет работать с текстами, но пока не знает ничего про рестораны. Исторические размеченные отзывы: positive и negative. 💬 Примеры отзывов: — «Лучшие пельмени в городе!» — «Ждали заказ 40 минут, больше не придём» 📌 Что нужно сделать: - Загрузить датасет и разделить его на обучение и тест. - Подготовить тексты для BERT: токенизация, паддинг, усечение. - Дообучить модель на этих отзывах. - Проверить, как она справляется на тесте (accuracy, F1). - Протестировать на своих примерах — вбить пару «живых» отзывов и посмотреть предсказание. 🎯 Результат: Модель, которая сама читает отзывы и понимает их настроение. После курса «NLP / Natural Language Processing» от OTUS вы будете делать такие вещи играючи — и не только с ресторанами. Пройдите короткое вступительное тестирование и получите скидку на обучение: https://vk.cc/cOLspv Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 030

⚙️ ChatGPT все еще не догнать: что происходит на ИИ-рынке к середине 2025 года? 2025 год подходит к экватору, поэтому самое время посмотреть, как поменялись позиции крупнейших компаний-разработчиков. Но для начала предлагаю посмотреть на две иллюстрации. Первая — рейтинг ИИ от ресурса LMArena. Читать...

20 030

⚙️ Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото Расскажу, как из одного кадра получить свободную 3D-прогулку: доращиваем панорамы, меняем проекции и крутим ракурсы в VR с помощью кастомного модуля для ComfyUI. Читать...

20 030

⚙️ Что бы я сделал, если бы сегодня начинал учить Data Science / ML? Эта статья — не очередной «гайд по ML для новичков». Это мой личный взгляд на то, как бы я подошёл к обучению, если бы начинал с нуля уже сегодня , учитывая свой опыт работы в крупных компаниях, проваленные проекты, ошибки и победы.. Читать...