Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Ko'proq ko'rsatish📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi
Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 031 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 731-o'rinni va Rossiya mintaqasida 33 728-o'rinni egallagan.
📊 Auditoriya ko‘rsatkichlari va dinamika
невідомо sanasidan buyon loyiha tez o‘sib, 20 031 obunachiga ega bo‘ldi.
17 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -72 ga, so‘nggi 24 soatda esa -3 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.
- Tasdiqlash holati: Tasdiqlanmagan
- Jalb etish (ER): Auditoriya o‘rtacha 8.16% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.20% ini tashkil etuvchi reaksiyalarni to‘playdi.
- Post qamrovi: Har bir post o‘rtacha 1 634 marta ko‘riladi; birinchi sutkada odatda 842 ta ko‘rish yig‘iladi.
- Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
- Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.
📝 Tavsif va kontent siyosati
Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Yuqori yangilanish chastotasi (oxirgi ma’lumot 18 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.
1. Регуляризация: • L1 и L2-регуляризация добавляют штраф к сложным моделям. • Уменьшают коэффициенты модели, предотвращая избыточное подстраивание. 2. Dropout (для нейронных сетей): • Исключение случайных нейронов на этапе обучения. 3. Снижение сложности модели: • Использование меньшего числа признаков или более простых алгоритмов. 4. Увеличение данных: • Генерация новых данных или увеличение объёма обучающей выборки.➡️ Пример:
from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes # Загружаем данные data = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42) # Создаём модель с регуляризацией (Ridge) ridge = Ridge(alpha=1.0) ridge.fit(X_train, y_train) # Оцениваем качество train_score = ridge.score(X_train, y_train) test_score = ridge.score(X_test, y_test) print(f"Train Score: {train_score}, Test Score: {test_score}")🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели. 🖥 Подробнее тут
texts = [
"I love data science!",
"Data science is amazing.",
"Machine learning is a part of data science."
]
bag_of_words = create_bag_of_words(texts)
print(bag_of_words)
# Ожидаемый результат (пример):
# {'love': 1, 'data': 3, 'science': 3, 'amazing': 1, 'machine': 1, 'learning': 1, 'part': 1}
Решение задачи🔽
from collections import defaultdict import string from nltk.corpus import stopwords import nltk # Загружаем стоп-слова (если не загружены, выполнить: nltk.download('stopwords')) nltk.download('stopwords') stop_words = set(stopwords.words('english')) def preprocess_text(text): # Приведение к нижнему регистру и удаление знаков препинания text = text.lower() text = text.translate(str.maketrans('', '', string.punctuation)) return text def create_bag_of_words(texts): bag = defaultdict(int) for text in texts: # Предобработка текста processed_text = preprocess_text(text) # Разделение текста на слова и подсчет частот for word in processed_text.split(): if word not in stop_words: # Игнорируем стоп-слова bag[word] += 1 return dict(bag)
pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1.
Пример:
import pandas as pd
data = pd.DataFrame({
'feature1': [10, 20, 30, 40],
'feature2': [1, 2, 3, 4],
'feature3': ['A', 'B', 'C', 'D'] # Не числовой столбец
})
result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
# feature1 feature2 feature3
# 0 0.0 0.0 A
# 1 0.333 0.333 B
# 2 0.667 0.667 C
# 3 1.0 1.0 D
Решение задачи🔽
import pandas as pd def normalize_dataframe(df): df_normalized = df.copy() for col in df.select_dtypes(include='number').columns: min_val = df[col].min() max_val = df[col].max() df_normalized[col] = (df[col] - min_val) / (max_val - min_val) return df_normalized # Пример использования: data = pd.DataFrame({ 'feature1': [10, 20, 30, 40], 'feature2': [1, 2, 3, 4], 'feature3': ['A', 'B', 'C', 'D'] }) result = normalize_dataframe(data) print(result)
• SQL, Python, Apache Hadoop
• Уровень дохода не указан | от 3 лет
Data Engineer
• SQL, Python, Apache Airflow, Greenplum, Apache Spark
• от 250 000 ₽ | от 2 лет
Senior Data Scientist
• Python
• Уровень дохода не указан | опыт не указан
ML-инженер
• Машинное обучение, Deep Learning, Нейронные сети, Python, TensorFlow, PyTorch, Keras, Linux, Git, Docker
• Уровень дохода не указан | опыт не указан
Разработчик БД (PostgreSQL, прикладные витрины)
• SQL, PostgreSQL, ETL, Apache Airflow, Greenplum
• Уровень дохода не указан | от 3 летfeature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели.
Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting.
➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd
# Загрузка данных
data = load_iris()
X, y = data.data, data.target
# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)
# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')
🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.🖥 Подробнее тут
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
