Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Network:Frontender's notes [ru]Russia33 739 Technologies & Applications6 738...

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 041 subscribers, ranking 6 738 in the Technologies & Applications category and 33 739 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 041 subscribers.

According to the latest data from 14 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -87 over the last 30 days and by -13 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.71%. Within the first 24 hours after publication, content typically collects 4.62% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 546 views. Within the first day, a publication typically gains 926 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 7.
Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Thanks to the high frequency of updates (latest data received on 15 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 041

Subscribers

-1324 hours

+257 days

-8730 days

1 546

Post views

~ 92624 hours

~ 1 11548 hours

7.71%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

20 043

🔥 Самые интересные статьи за последние дни: • Пишем Wake-on-LAN сервис на ESP8266 при помощи ChatGPT • Необычные вкусы покупателей: что такое товарные пары и как их исследовать • Сгенерированный ИИ код сделает вас плохим программистом • Словари в Python: обзор и как пользоваться • Поиск жулика: Как понять, что перед вами ChatGPT 4?

20 043

🕳 Не избегай «странных» багов — изучай их до конца Столкнулся с багом, который исчезает после перезапуска? Или ведёт себя непоследовательно? Проще списать на случайность. Но это ловушка. 👉 Совет: такие баги — твои лучшие учителя. Разбери их до основания, даже если потратишь на это день. Ты прокачаешься в логике, научишься работать с пограничными случаями и будешь увереннее в своём коде.

20 043

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу. Читать...

20 043

👀 Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5 Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub. Читать...

20 043

👩‍💻 Как работает __name__ == "__main__" в Python? Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте. ➡️ Пример:

def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую

🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.

🖥 Подробнее тут

20 043

⚙️ Под микроскопом: AI Product Hack Статья анализирует результаты AI Product Hack, рассматривая спорное судейство и кейс компании Raft по мониторингу токсичного контента в AI-продуктах. Исследуются риски и последствия неконтролируемого поведения LLM в реальных проектах. Читать...

20 043

Инженеры, которые участвуют в разработке платформ, — это для вас Есть планы на 23 апреля? Освободите вечер для Platform Engineering Night — встречи с профессионалами, которые создают инженерные платформы. В программе — Productivity & AI: — Кейсы по автоматизации процессов и повышению продуктивности платформенных команд. — Ассистенты для кодинга и Observability. — Решения для безопасности и аналитики. А еще в программе — зона демонстрации AI-решений в платформах и нетворкинг. Встреча пройдет 23 апреля в 19:00 в T-Space по адресу Москва, Грузинский Вал, 7. Трансляция тоже будет. Мероприятие бесплатное, торопитесь занять место

20 043

Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными. Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью. Всё о программе — на дне открытых дверей: — Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer. — Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей. — Поговорим про поступление: сроки, экзамены, документы, оплата.

Спикеры: Станислав Павлов, директор по AI, Positive Technologies. Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ. Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум. Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум.

Ждём вас 9 апреля в 19:00 мск. → Зарегистрироваться на встречу

20 043

🔎 Подборка вакансий для сеньоров Senior Data Engineer 🟢ClickHouse, Aerospike, TiDB, Grafana, Kafka 🟢до 5 000 $ | 3–6 лет Senior Data Engineer / Data Platform Architect 🟢S3, MinIO, Parquet, DeltaLake, PostgreSQL, ClickHouse, Python, Airflow, dbt, Docker, Kubernetes, Kafka, RabbitMQ 🟢до 350 000 ₽ | 3–6 лет Senior Data Scientist (LLM) 🟢Python, глубокое обучение, LLM, чат-боты 🟢от 350 000 до 450 000 ₽ | 3–6 лет

20 043

🤔 Насколько хороши LLM? Статья описывает создание и адаптацию бенчмарка для оценки русскоязычных LLM в российском контексте. Основное внимание уделено подбору вопросов, актуализации содержания и корректировке оценок для соответствия современным общественным реалиям. Читать...

20 043

🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей! Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области! Что тебя ждет: ☑️Денежный призовой фонд ☑️Автоматизированная оценка решений ☑️2 практические задачи: 1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию. 2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию. Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день. Регистрация уже открыта! Подробности и анкета по ссылкам выше.

20 043

⚙️ Как мы создаём Visionatrix: упрощая ComfyUI В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени. Читать...

20 043

👩‍💻 Задачка по Python Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле. Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity. Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту. ➡️ Пример: • python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту. Решение задачи ⬇️

import pandas as pd import sys def clean_and_aggregate(file_path): # Загружаем данные data = pd.read_csv(file_path) # Удаляем строки с пустыми значениями в колонках 'price' и 'quantity' data.dropna(subset=['price', 'quantity'], inplace=True) # Преобразуем колонки в числовой формат, ошибки игнорируем data['price'] = pd.to_numeric(data['price'], errors='coerce') data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce') # Удаляем строки с некорректными значениями data.dropna(subset=['price', 'quantity'], inplace=True) # Агрегируем данные aggregated_data = data.groupby('product_id').agg( total_quantity=('quantity', 'sum'), total_sales=('price', 'sum') ).reset_index() # Сохраняем в новый CSV aggregated_data.to_csv('aggregated_data.csv', index=False) print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.") if __name__ == "__main__": if len(sys.argv) != 2: print("Использование: python app.py <путь к файлу CSV>") sys.exit(1) file_path = sys.argv[1] clean_and_aggregate(file_path)

20 043

⚙️ Оценка LLM: метрики, фреймворки и лучшие практики Статья объясняет, почему оценка LLM важна для бизнеса: модели ИИ не всегда достигают цели и нуждаются в доработке. Разбираются ключевые метрики, инструменты и лучшие практики для повышения надежности и точности. Читать...

20 043

🤖 Используем BERT для решения NLP задач 🗓 07 апреля в 18:00 МСК 🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing». Вебинар посвящен такой классической трансформерной модели BERT, которая в свое время совершила революцию в мире Natural Language Processing. На вебинаре вы узнаете, что представлет из себя модель BERT. И как с ее помощью можно легко и эффективно решать разнообразные NLP задачи. Данный вебинар будет особенно интересен: - Практикующим Data Scientist и ИТ-специалистам, которые хотят глубже погрузиться в область NLP - Тем, кто хочет узнать, что делает ChatGPT такой умной - Людям, освоившими основы машинного обучения, но желающими развиваться в области DS В результате урока вы: - Узнаете, устройство модели BERT - Научитесь дообучать предобученные трансформерные модели - Научитесь дообучать BERT и работать с ним на практике. 🔗 Ссылка на регистрацию: https://vk.cc/cKqpRa Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxKZoHs

20 043

📝 Подборка вакансий для мидлов Бизнес-аналитик / Системный аналитик • BPMN, Анализ данных, UML, Анализ требований, Проектирование, Разработка ТЗ, BI • до 150 000 ₽ | от 3 лет Data Analyst • Python, Apache Spark, SQL, Apache Hadoop • Уровень дохода не указан | от 2 лет Data Scientist (риски) • Машинное обучение, SQL, Python • Уровень дохода не указан | от 3 лет

20 043

❓ Как работает метод feature_importances_ в Python и зачем он нужен в Machine Learning? Метод feature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели. Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting. ➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)

# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')

🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.

🖥 Подробнее тут

20 043

🤔 Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов? В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать. Читать...

20 043

Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса. Наша цель — создать пространство для инженеров и продактов, которые хотят запускать эксперименты и видеть быстрые бизнес-результаты. Откликайтесь, если вы хотите реализовать свои идеи в крупном бизнесе, и у вас есть успешный опыт в запуске проектов с искусственным интеллектом! Рассмотрим ваши идеи и найдем им лучшее применение в проектах. Присоединяйтесь к нам, чтобы вместе создавать будущее! 💡✨ Заполнить форму для отклика

20 043

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")