Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Сітка:Frontender's notes [ru]Росія33 731 Технології та додатки6 732...

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 058 підписників, посідаючи 6 732 місце в категорії Технології та додатки та 33 731 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 058 підписників.

За останніми даними від 12 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -35, а за останні 24 години на -4, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 7.60%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.48% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 1 526 переглядів. Протягом першої доби публікація в середньому набирає 899 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Завдяки високій частоті оновлень (останні дані отримано 13 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 058

Підписники

-424 години

+497 днів

-3530 день

1 526

Перегляди допису

~ 89924 години

~ 1 04348 годин

7.60%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

20 056

⚙️ Организация ML-проекта с примерами Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами. Читать...

20 056

🔥 Самые интересные статьи за последние дни: • Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT • Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей • Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели • Возможности LLM и RAG на примере реализации бота для поддержки клиентов • Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

20 056

🔥Приглашаем вас на три бесплатных вебинара курса «Data Engineer»🔥 📚Вебинар №1: «Как построить Lakehouse на Iceberg и S3» ⏰27 августа в 20:00 мск ✅На вебинаре: • Data Warehouse, Data Lake, Data Lakehouse: история развития, что и когда использовать? • Обзор Apache Iceberg: архитектура, преимущества и кейсы использования. • Хранение данных в S3: настройка бакетов, управление доступом, cost optimization. • Развертывание Iceberg на S3. • Работа с Iceberg на Spark и Trino. 📚Вебинар №2: «DWH, Data Lake и Data Lakehouse: архитектурные различия и практическое применение» ⏰ 8 сентября в 20:00 мск На вебинаре: • Data Warehouse (DWH): Классическая архитектура и принципы • Data Lake: Хранение "сырых" данных любого формата. Проблемы управления и governance • Data Lakehouse: лучшие практики DWH и Data Lake ACID-транзакции и поддержка BI-аналитики • Сравнительный анализ: Критерии выбора для разных задач Примеры реализаций (Snowflake, Databricks Delta Lake) • Кейсы применения: Когда выбрать DWH, а когда — Lakehouse Миграция между подходами 📚Вебинар №3: «Развертывание Spark кластера с помощью Terraform в облаке» ⏰ 23 сентября в 18:00 мск ✅На вебинаре: • Разберем один из принципов развертывания Spark кластера в облачных провайдерах. • Покажем Terraform конфигурации для автоматизированного развертывания кластера. • Продемонстрируем подключение к кластеру для работы из IDE. 🎁Участники вебинаров получат подарки на почту🎁 Регистрация на вебинары ➡️ https://vk.cc/cOZRfW Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 056

👩‍💻 Напишите функцию для расчёта Accuracy вручную В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно. Решение задачи🔽

def accuracy_score(y_true, y_pred): correct = 0 for true, pred in zip(y_true, y_pred): if true == pred: correct += 1 return correct / len(y_true) # Пример использования: y_true = [1, 0, 1, 1, 0, 1] y_pred = [1, 0, 0, 1, 0, 1] print(accuracy_score(y_true, y_pred)) # 0.833...

20 056

⚙️ Когда обучение не идет. Loss is NaN. Причины и решения В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли. Читать...

20 056

👩‍💻 Чем отличается метод .transform() от .apply() в pandas? В pandas методы .transform() и .apply() часто используются для обработки данных по столбцам и строкам, но они работают по-разному. Метод .apply() применяет функцию к каждому элементу или ряду, и возвращает объект любой формы (например, DataFrame или Series). В отличие от него, .transform() применяет функцию к каждой ячейке или группе и возвращает объект той же формы, что и входной. ➡️ Пример:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

# Используем .apply() для вычисления суммы по столбцам
print(df.apply(sum))  # Вернет Series с суммами столбцов

# Используем .transform() для нормализации каждого значения в столбце
print(df.transform(lambda x: (x - x.mean()) / x.std()))
# Вернет DataFrame с нормализованными значениями

🗣 .apply() подходит для сложных операций и агрегаций, а .transform() удобно использовать для обработки данных с сохранением исходной структуры.

🖥 Подробнее тут

20 056

Data-специалисты — общий сбор 💪 В этом году на IT-конференции GoCloud Tech будет отдельный трек про данные и аналитику:

➡️ Платформа данных в облаке ➡️ Как настраивать потоковое чтение с геораспределенных хранилищ ➡️ Как работают быстрые NVMe-oF RDMA-диски ➡️ Тренды в мире данных: куда стремятся СУБД ➡️ Как работать на автопилоте с Jupyter-ноутбуком

А еще будут отдельные треки про тренды в AI&ML, облачную инфраструктуру и инструменты, ускоряющие разработку. Где и когда ⬇️ 3 сентября, Москва, Гоэлро Лофт Регистрируйтесь🖱

20 056

🤔 Выбираем MLOps инструменты с учётом зрелости команды В статье разбирают, как выбрать MLOps-инструменты под уровень зрелости команды: почему решений много, но не все подходят, и как не утонуть в многообразии вариантов. Читать...

20 056

🧠 Создаем свой RAG: введение в LangGraph В статье объясняют, что такое RAG и как использовать LangGraph для генерации с дополненной выборкой: основы, примеры и подготовка к созданию собственных RAG-систем. Читать...

20 056

🔥 БЕСПЛАТНЫЙ КУРС ПО СОЗДАНИЮ НЕЙРО-СОТРУДНИКОВ НА GPT И ДРУГИХ LLM 🔥 Ищете практический и углубленный курс, чтобы освоить создание нейро-сотрудников? Мы создали курс из 5 объемных занятий. Это именно то, что нужно, чтобы прокачать свои навыки абсолютно бесплатно! 📌 Темы занятий: 1. Введение в мир нейро-сотрудников 2. Как работают LLM и их аналоги 3. Создание базы знаний для нейро-сотрудника (RAG) 4. Тестирование и отладка нейро-сотрудников 5. Интеграция нейро-сотрудников в Production Вот 5 тем курса - он максимально простой и доступный, общеобразовательный, без какого-либо сложного программирования 📚Прохождение этого курса, скорее всего, займет у вас от 1 до 3 часов 🤖 Присоединяйтесь к нашему бесплатному курсу и разберитесь в этой увлекательной теме с нами!

20 056

➡️ Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу В статье рассказывают, как ИИ сделал Duolingo фабрикой языковых курсов: генерация контента, проверка ответов, адаптация заданий — всё на автомате. Учить стало быстрее. Читать...

20 056

⁉️Как машинное обучение связано с AI? Машинное обучение — это основа всего современного искусственного интеллекта, и вы можете понять, почему именно сегодня эти технологии актуальны как никогда. Присоединяйтесь к открытому вебинару 26 августа в 18:00 МСК! Мы разберемся, как Machine Learning (ML) стал неотъемлемой частью развития AI и GenAI. Что стоит за этим технологическим бумом и как ML используется в реальных AI-моделях? Мы покажем, как использовать ML для создания мощных AI-моделей и какие знания стоит развивать сегодня. ➡️ Присоединяйтесь и получите скидку на курс «Machine Learning. Basic»: https://vk.cc/cOW5Po Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

20 056

👩‍💻 Предсказание цены дома по площади Построить сверточную нейронную сеть (CNN) для классификации изображений из набора данных CIFAR-10. Модель должна предсказывать класс объекта на изображении. Датасет CIFAR-10 содержит 60,000 изображений размером 32x32 пикселя, разделенных на 10 классов: — Самолет, Автомобиль, Птица, Кот, Олень, Собака, Лягушка, Лошадь, Корабль, Грузовик. Требования к модели: • Использовать сверточные слои для выделения признаков. • Применить слои подвыборки (пулинг) для уменьшения размеров карты признаков. • Добавить полносвязные слои для классификации на основе выделенных признаков. • Использовать функцию активации ReLU для скрытых слоев и softmax для выходного слоя. • Оценить точность модели на тестовых данных. Входные данные: изображения размера 32x32 с тремя каналами (RGB). Решение задачи🔽

import tensorflow as tf from tensorflow.keras.datasets import cifar10 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense # Загрузка данных (X_train, y_train), (X_test, y_test) = cifar10.load_data() # Нормализация данных X_train, X_test = X_train / 255.0, X_test / 255.0 # Создание модели CNN model = Sequential([ Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)), MaxPooling2D((2, 2)), Conv2D(64, (3, 3), activation='relu'), MaxPooling2D((2, 2)), Flatten(), Dense(128, activation='relu'), Dense(10, activation='softmax') ]) # Компиляция модели model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) # Обучение модели model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test)) # Оценка модели loss, accuracy = model.evaluate(X_test, y_test) print(f"Точность модели: {accuracy:.2f}")

20 056

🧠 Распознавание орхоно-енисейских рунических надписей методами машинного обучения В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа. Читать...

20 056

🚀 Правда или нет, что Google победил Cursor? В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор? Читать...

20 056

👩‍💻 Адаптивный поиск порога "почти одинаковых" векторов У вас есть множество эмбеддингов — векторов признаков объектов (например, предложений, изображений, пользователей). Требуется реализовать функцию find_similar_pairs(vectors, tolerance=0.05), которая возвращает все пары индексов, где косинусная разница между векторами меньше tolerance. Дополнительные условия:

• Векторы могут быть высокой размерности (до 512) • Пара (i, j) считается дубликатом (i < j), если их cosine similarity ~ 1.0 • Не используйте внешние ML-библиотеки: только numpy • Функция должна быть оптимизирована — без грубой проверки каждой пары, если можно

Решение задачи🔽

import numpy as np def cosine_similarity(a, b): a, b = np.array(a), np.array(b) return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) def find_similar_pairs(vectors, tolerance=0.05): result = [] n = len(vectors) for i in range(n): for j in range(i + 1, n): sim = cosine_similarity(vectors[i], vectors[j]) if 1 - sim <= tolerance: result.append((i, j)) return result

20 056

⚙️ Как построить хороший пайплайн разработки ML-модели Рассказываю, как построить понятный и гибкий ML-процесс: чтобы данные масштабировались, новички вливались, а модель не вела себя как капризный кот. Читать...

20 056

⚙️ Линейная регрессия в ML для самых маленьких Поясняю линейную регрессию так, чтобы стало понятно, зачем вообще эта прямая на графике и как с её помощью предсказывать результат по набору чисел. Без лишней математики. Читать...

20 056

🌱 Рост идёт от дискомфорта Если задачи всегда кажутся «понятными», значит, ты топчешься на месте. 👉 Совет: бери задачи, от которых чуть некомфортно. Не настолько, чтобы парализовало, а настолько, чтобы пришлось учиться новому. Этот дискомфорт — главный двигатель развития в IT.

20 056

⚙️ RAG на практике: чат-бот для корпоративной вики Рассказываю, как делали чат-бота для внутренней документации: где споткнулись, что взлетело, и почему не всё решается embedding'ами. Может, вам сэкономит пару бессонных ночей. Читать...