Data Science | Machinelearning [ru]
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD
Показати більше📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]
Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 028 підписників, посідаючи 6 726 місце в категорії Технології та додатки та 33 725 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 028 підписників.
За останніми даними від 18 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -63, а за останні 24 години на -3, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 8.21%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.21% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 1 645 переглядів. Протягом першої доби публікація в середньому набирає 843 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 7.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.
Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin
РКН: https://vk.cc/cJPGXD”
Завдяки високій частоті оновлень (останні дані отримано 19 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1.
Пример:
import pandas as pd
data = pd.DataFrame({
'feature1': [10, 20, 30, 40],
'feature2': [1, 2, 3, 4],
'feature3': ['A', 'B', 'C', 'D'] # Не числовой столбец
})
result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
# feature1 feature2 feature3
# 0 0.0 0.0 A
# 1 0.333 0.333 B
# 2 0.667 0.667 C
# 3 1.0 1.0 D
Решение задачи🔽
import pandas as pd def normalize_dataframe(df): df_normalized = df.copy() for col in df.select_dtypes(include='number').columns: min_val = df[col].min() max_val = df[col].max() df_normalized[col] = (df[col] - min_val) / (max_val - min_val) return df_normalized # Пример использования: data = pd.DataFrame({ 'feature1': [10, 20, 30, 40], 'feature2': [1, 2, 3, 4], 'feature3': ['A', 'B', 'C', 'D'] }) result = normalize_dataframe(data) print(result)
• Python, SQL, Scikit-learn, Pandas, NumPy, XGBoost, LightGBM, Matplotlib, Seaborn, Plotly
• Уровень дохода не указан | от 3 лет
Ведущий аналитик
• Microsoft Excel, Pandas, Tableau, PowerBI, SQL, Python, NumPy, SQLAlchemy
• от 100 000 ₽ | опыт не указан
Team Lead
• Java, Golang, Python, C++, .NET
• Уровень дохода не указан | от 1,5 лет
QAA Lead в Сервис Транспорта
• Python, Linux, Git, Docker
• Уровень дохода не указан | от 5 летyield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.
➡️ Пример:
# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b
# Используем генератор
for num in fibonacci(5):
print(num)
# Вывод: 0, 1, 1, 2, 3
🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.🖥 Подробнее тут
• Python, SQL, pandas, PostgreSQL, Docker, Redis, ClickHouse, Airflow, Spark, Git, Django, Node.js, React, Kubernetes
• Уровень дохода не указан | от 2 лет
Senior Data Scientist (Ценообразование)
• Spark, Hadoop, S3
• до 420 000 ₽ | опыт не указан
Data-аналитик (Senior)
• SQL, DWH, PostgreSQL, ETL, Greenplum
• Уровень дохода не указан | от 2 лет
Senior Data Scientist [NUUM]
• Python, SQL, Машинное обучение
• Уровень дохода не указан | опыт не указанtext = "Hello, world! Hello Python world."
result = count_words(text)
print(result)
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}
Решение задачи🔽
import re from collections import Counter def count_words(text): # Убираем знаки препинания и приводим к нижнему регистру words = re.findall(r'\b\w+\b', text.lower()) # Подсчитываем количество вхождений каждого слова return Counter(words) # Пример использования: text = "Hello, world! Hello Python world." result = count_words(text) print(result) # Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}
• Python 3.8+, Hadoop, Hive, Spark (PySpark), Airflow, PostgreSQL, ClickHouse, Kubernetes
• Уровень дохода не указан | от 2 лет
Data Engineer
• Python или Scala, SQL, Apache Spark, CI/CD, Airflow
• Уровень дохода не указан | от 1-2 лет
Data Analyst
• SQL, PL/SQL, Oracle, Jira, Confluence
• Уровень дохода не указан | от 3 лет
Разработчик AI
• Python, Pandas, NumPy, SQL, LangChain, LlamaIndex, OpenAI API, RAG, Faiss, Qdrant, Chroma, Elasticsearch, Git
• Уровень дохода не указан | от 1 года с LLM, от 3 лет с Python
Python Developer
• Python, Django, Linux, PostgreSQL, Celery, Redis, Pandas, NumPy
• до 250 000 ₽ | от 3 летtrain_test_split в Scikit-learn и зачем он используется?
train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.
➡️ Пример:
from sklearn.model_selection import train_test_split
import numpy as np
# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])
# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)
🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.🖥 Подробнее тут
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
