Data Science | Machinelearning [ru]

الذهاب إلى القناة على Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

إظهار المزيد

الشبكة:Frontender's notes [ru]روسيا33 730 التكنولوجيات والتطبيقات6 734...

📈 نظرة تحليلية على قناة تيليجرام Data Science | Machinelearning [ru]

تُعد قناة Data Science | Machinelearning [ru] (@devsp) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 20 042 مشتركاً، محتلاً المرتبة 6 734 في فئة التكنولوجيات والتطبيقات والمرتبة 33 730 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 20 042 مشتركاً.

بحسب آخر البيانات بتاريخ 15 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -82، وفي آخر 24 ساعة بمقدار -1، مع بقاء الوصول العام مرتفعاً.

حالة التحقق: غير موثّقة
معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.88‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.47‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
وصول المنشورات: يحصل كل منشور على متوسط 1 580 مشاهدة. وخلال اليوم الأول يجمع عادةً 896 مشاهدة.
التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 7.
الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل llm, nvidia, контекст, openai, архитектура.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 16 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

20 042

المشتركون

-124 ساعات

+307 أيام

-8230 أيام

1 580

عرض المشاهدات

~ 89624 ساعات

~ 1 08548 ساعات

7.88%

معدل المشاركة

~ 1

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

20 037

⚡Внимание, ученые и исследователи в области ИИ! До 31 января 2025 года вы можете подать заявку на участие в премии Data Fusion Awards. Номинация «Научный прорыв года в ИИ» создана специально для авторов научных статей по искусственному интеллекту, опубликованных в 2024 году. 🔥Призовой фонд — 3 000 000 рублей, три победителя получат по 1 000 000 рублей каждый. Награждение пройдет 16-17 апреля в рамках конференции Data Fusion в Москве. Подробности — по ссылке.

20 037

🔎 Подборка вакансий для джунов Junior ML Engineer 🟢Python, SQL, Pandas, Django, Sklearn, PyTorch, Docker, OpenAI API 🟢от 1 500 $ | 1–3 года Аналитик ML/AI/DS 🟢Python, C/C++, R, Java, Go, JS, Kotlin, Swift, PHP, Jira, Confluence, ClearML 🟢от 150 000 ₽ | 1–3 года Data Scientist 🟢Python, SQL, pandas, Matplotlib, Numpy, CatBoost, XGBoost, LightGBM, Git 🟢от 120 000 до 200 000 ₽ | 1–3 года

20 037

👩‍💻 Предобработка текстовых данных и создание мешка слов (Bag of Words) Напишите функцию, которая принимает список текстовых строк и возвращает мешок слов (Bag of Words) в виде словаря, где ключи — это уникальные слова, а значения — их частота встречаемости в текстах. Функция должна выполнять базовую предобработку текста: приведение к нижнему регистру, удаление знаков препинания и стоп-слов. Пример использования:

texts = [
    "I love data science!",
    "Data science is amazing.",
    "Machine learning is a part of data science."
]

bag_of_words = create_bag_of_words(texts)
print(bag_of_words)
# Ожидаемый результат (пример):
# {'love': 1, 'data': 3, 'science': 3, 'amazing': 1, 'machine': 1, 'learning': 1, 'part': 1}

Решение задачи🔽

from collections import defaultdict import string from nltk.corpus import stopwords import nltk # Загружаем стоп-слова (если не загружены, выполнить: nltk.download('stopwords')) nltk.download('stopwords') stop_words = set(stopwords.words('english')) def preprocess_text(text): # Приведение к нижнему регистру и удаление знаков препинания text = text.lower() text = text.translate(str.maketrans('', '', string.punctuation)) return text def create_bag_of_words(texts): bag = defaultdict(int) for text in texts: # Предобработка текста processed_text = preprocess_text(text) # Разделение текста на слова и подсчет частот for word in processed_text.split(): if word not in stop_words: # Игнорируем стоп-слова bag[word] += 1 return dict(bag)

20 037

⚙️ Оптимизация Trellis: запускаем генерацию 3D моделей на GPU с 8ГБ памяти В статье рассказано, как с помощью оптимизации Trellis удалось снизить требования к видеопамяти с 16GB до 8GB, сохранив качество. Рассмотрены подходы к сжатию данных, переработке структур и повышению доступности инструмента. Читать...

20 037

🔥 Самые интересные статьи за последние дни: • Реализация подобия Apple Vision Pro • Почему LLM так плохо играют в шахматы (и что с этим делать) • LLM будут врать вечно • Как мы создали LLM-модель Cotype Nano • Человек и LLM: как построить метрики для оценки моделей

20 037

👩‍💻 Нормализация набора данных Напишите функцию, которая принимает pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1. Пример:

import pandas as pd

data = pd.DataFrame({
    'feature1': [10, 20, 30, 40],
    'feature2': [1, 2, 3, 4],
    'feature3': ['A', 'B', 'C', 'D']  # Не числовой столбец
})

result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
#    feature1  feature2 feature3
# 0       0.0      0.0       A
# 1       0.333    0.333     B
# 2       0.667    0.667     C
# 3       1.0      1.0       D

Решение задачи🔽

import pandas as pd def normalize_dataframe(df): df_normalized = df.copy() for col in df.select_dtypes(include='number').columns: min_val = df[col].min() max_val = df[col].max() df_normalized[col] = (df[col] - min_val) / (max_val - min_val) return df_normalized # Пример использования: data = pd.DataFrame({ 'feature1': [10, 20, 30, 40], 'feature2': [1, 2, 3, 4], 'feature3': ['A', 'B', 'C', 'D'] }) result = normalize_dataframe(data) print(result)

20 037

🤖 Псст, ИИ нужен? 5 полезных инструментов для разработчика Статья предлагает подборку инструментов, платформ и шаблонов для работы с языковыми моделями и создания ИИ-ассистентов. Рассматриваются протестированные в МТС решения, упрощающие разработку и интеграцию. Читать...

20 037

Курс: NLP / Natural Language Processing https://otus.pw/XGJt/ Стань востребованным специалистом в области NLP и получи конкурентную профессию в IT. Скидка 5% по промокоду: NLPJN Старт занятий 29 января. Успей попасть в группу! https://otus.pw/XGJt/

20 037

📖 «Охота на электроовец: большая книга искусственного интеллекта» или как написать книгу про ИИ без регистрации и SMS История о том, как за 6 лет я написал двухтомник, посвящённый искусственному интеллекту и машинному обучению. Читать...

20 037

🌱 Никогда не прекращай быть «джуниором» Считаешь, что знаешь всё о своём языке или технологии? Это первый шаг к застою. 👉 Совет: хотя бы раз в месяц изучай что-то новое — экспериментируй с языком, погружайся в новый инструмент или пробуй другой подход. В IT важно не только знать, но и уметь учиться. Это ключ к тому, чтобы оставаться востребованным.

20 037

💳 Как мы провели ИИ-трансформацию стратегических процессов Сбера Статья рассказывает об ИИ-трансформации Сбера, включая ключевые задачи, такие как стресс-тестирование, анализ рынков и прогнозирование эффективности сотрудников. Рассматривается использование ИИ до и после трансформации. Читать...

20 037

Как построить витрину данных, как в крупной IT-компании? Объединение данных из разных источников — то, с чем в какой-то момент сталкиватся каждый аналитик или дата-инженер. Представьте, что вы тренер футбольной команды. И у вас есть витрина данных, которая собирает информацию о каждом игроке, включая количество забитых голов, ассистов, время на поле и количество проведенных матчей. Такая витрина помогает выявить слабые места в команде и сфокусироваться на их улучшении. Как строить витрину данных разберём в прямом эфире нашего бесплатного вебинара в режиме решения реальной рабочей задачи📊. Спикер вебинара — Айгуль Сибгатуллина, Data Engineer в Сбер. Что будет на вебинаре: • Построим воркфлоу от этапа получения ТЗ до создания полноценной витрины; • Разберемся с методологией на разных диалектах; • Узучим Spark в работе дата-инженера: преобразования, оптимизации, планы запросов; • Используем AI для ускорения процессов. 🕗Встречаемся 28 января 19:00 по мск Зарегистрироваться на бесплатный вебинар

20 037

📝 Подборка вакансий для сеньоров Data engineer • SQL, Python, Apache Hadoop • Уровень дохода не указан | от 3 лет Data Engineer • SQL, Python, Apache Airflow, Greenplum, Apache Spark • от 250 000 ₽ | от 2 лет Senior Data Scientist • Python • Уровень дохода не указан | опыт не указан ML-инженер • Машинное обучение, Deep Learning, Нейронные сети, Python, TensorFlow, PyTorch, Keras, Linux, Git, Docker • Уровень дохода не указан | опыт не указан Разработчик БД (PostgreSQL, прикладные витрины) • SQL, PostgreSQL, ETL, Apache Airflow, Greenplum • Уровень дохода не указан | от 3 лет

20 037

❓ Как работает метод feature_importances_ в Python и зачем он нужен в Machine Learning? Метод feature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели. Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting. ➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)

# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')

🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.

🖥 Подробнее тут

20 037

⚙️ KAN 2.0: Kolmogorov-Arnold Networks Meet Science Статья представляет перевод работы о нейронных сетях на основе алгоритма Колмогорова-Арнольда (KAN). Рассматриваются новые исследования, связь с наукой и использование библиотеки pykan на Python для практических задач. Читать...

20 037

Чем занимаются дата-сайентисты в Авито? Узнайте изнутри! Статья от команды Data Science в Авито рассказывает о реальных кейсы, проектах и командах, которые развивают бизнес и обеспечивают безопасность платформы: ➡️ Как алгоритмы автомодерации проверяют миллионы объявлений. ➡️ Какие подходы используются для борьбы с мошенничеством. ➡️ Как работают персонализированные рекомендации и поиск. ➡️ Какие проекты ведет AI Lab в Авито. Все о мире DS в Авито и многое другое ➡️ по ссылке. Реклама. ООО «Авито Тех».

20 037

📈 Подборка статей для вашей карьеры • Больше чем книга • Как поставить цель на обучение, чтобы дойти до конца • Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров • Найм дизайнеров глазами лида • Software Architect vs Solution Architect

20 037

🎞 Как за 6 промтов к ChatGPT создать Python скрипт, скачивающий видео с YouTube для просмотра на телевизоре через Kodi Статья рассказывает, как с помощью Python и ChatGPT создать скрипт для автоматической загрузки видео с YouTube и генерации метаданных (описаний и обложек) для интеграции с медиацентром Kodi. Читать...

20 037

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности. Читать...

20 037

Где взять ресурсы для обучения ML-моделей, ускорения сложных вычислений и анализа больших данных? Все эти сложные задачи можно решить на серверах с GPU от Selectel. Выбирайте сервер с видеокартой под ваш запрос и запускайте его буквально за пару минут — не нужно тратиться на покупку оборудования, а все ресурсы GPU только ваши. Преимущества аренды сервера с GPU в Selectel: - Оптимальный сервер под ваши задачи. Выбирайте из десятка готовых конфигураций или соберите собственную с нужной видеокартой под ваши запросы и бюджет. - Более 15 моделей видеокарт в наличии: от базовой GTX 1080 до профессиональных H100 и А100 (на 40 или 80 ГБ). Всегда есть ресурсы для масштабирования при росте вашего проекта. - Выгодная аренда: оплата за фактически использованные ресурсы от 29 ₽/час и скидки до 44% на профессиональные видеокарты - Безопасность хранения и обработки данных. Серверы соответствуют 152-ФЗ и «из коробки» имеют бесплатную защиту от DDoS-атак. Арендуйте серверы с GPU: https://slc.tl/erxfo Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2VtzquiMtVH