uz
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 036 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 734-o'rinni va Rossiya mintaqasida 33 730-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 036 obunachiga ega bo‘ldi.

15 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -82 ga, so‘nggi 24 soatda esa -1 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

  • Tasdiqlash holati: Tasdiqlanmagan
  • Jalb etish (ER): Auditoriya o‘rtacha 7.88% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.47% ini tashkil etuvchi reaksiyalarni to‘playdi.
  • Post qamrovi: Har bir post o‘rtacha 1 580 marta ko‘riladi; birinchi sutkada odatda 896 ta ko‘rish yig‘iladi.
  • Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
  • Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Yuqori yangilanish chastotasi (oxirgi ma’lumot 16 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 036
Obunachilar
-124 soatlar
+307 kunlar
-8230 kunlar
Postlar arxiv
🤔 Прогнозирование продаж с использованием библиотеки Prophet Статья посвящена прогнозированию продаж FTTB-FMC для ежедневной отчетности. Рассматриваются подходы к анализу данных, ключевые KPI и методы, используемые для прогнозирования продаж в сегменте ШПД и конвергентных продуктов. Читать...

👩‍💻 Задачка по Python Напишите функцию, которая принимает строку и возвращает новую строку, из которой удалены все гласные буквы (a, e, i, o, u в любом регистре). ➡️ Пример:
print(remove_vowels("Hello World"))  # Ожидаемый результат: "Hll Wrld"
print(remove_vowels("Python is great"))  # Ожидаемый результат: "Pythn s grt"
Решение задачи ⬇️
def remove_vowels(s): vowels = "aeiouAEIOU" return ''.join(char for char in s if char not in vowels) # Пример использования: print(remove_vowels("Hello World")) # Ожидаемый результат: "Hll Wrld" print(remove_vowels("Python is great")) # Ожидаемый результат: "Pythn s grt"

⚙️ Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant Статья описывает опыт создания RAG-пайплайна с использованием Gigachat API для участия в AI Journey. Автор делится инсайтами, полученными в процессе разработки ассистента для рекомендаций товаров, который занял 3-е место. Читать...

📝 Подборка вакансий для мидлов LLM Engineer Проектирование и создание инфраструктуры для запуска ИИ-агентов, включая работу с RAG, tools, механизмами памяти Уровень дохода не указан | Требуемый опыт не указан Tech Lead Data Engineer Oracle, Greenplum, ETL, DWH до 430 000 ₽ | от 2 лет опыта Бизнес-аналитик / Системный аналитик BPMN, UML, Анализ данных, Разработка ТЗ до 150 000 ₽ | Средний (Middle)

Как работает кросс-валидация в ML? Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения. ➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')
Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.
🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.
🖥 Подробнее тут

⚙️ Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях. Читать...

🔎 Подборка вакансий для джунов Junior Data Analyst 🟢Python, SQL, ETL, Airbyte, dbt 🟢Уровень дохода не указан | Без опыта Junior Data Scientist (A/B-testing) 🟢Python, Spark, Airflow, MLFlow, Postgres, Git, DVC, Docker 🟢Уровень дохода не указан | 1–3 года опыта Младший Data engineer 🟢Python, SQL, Debezium, Airflow 🟢Уровень дохода не указан | 1–3 года опыта

👩‍💻 Задачка по Python Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами. ➡️ Пример:
python count_rows.py large_file.csv
Количество строк: 3
Решение задачи ⬇️
import csv import sys def count_rows(file_path): with open(file_path, 'r', encoding='utf-8') as file: reader = csv.reader(file) # Используем enumerate для подсчёта строк, исключая заголовок row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка return row_count if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python count_rows.py <file_path>") sys.exit(1) file_path = sys.argv[1] try: result = count_rows(file_path) print(f"Количество строк: {result}") except Exception as e: print(f"Ошибка: {e}")

➡️ Семантическая сегментация: самый полный гайд Статья раскрывает, как семантическая сегментация помогает машинам «видеть», разбивая изображение на классы объектов. Обсуждаются её применение в автономных авто, медицине и обработке спутниковых снимков для точного распознавания контекста. Читать...

👩‍💻 Задачка по Python Создайте Python-скрипт, который анализирует временной ряд, выявляя тренд и сезонные колебания. Используйте для этого библиотеку statsmodels и визуализируйте результат с помощью matplotlib. Скрипт должен принимать данные в формате CSV и выводить график, на котором будут отображены исходные данные, тренд и сезонные компоненты. ➡️ Пример:python app.py analyze timeseries.csv — анализирует временной ряд из файла timeseries.csv, разлагает его на тренд и сезонные компоненты и строит график с визуализацией. Решение задачи ⬇️
import sys import pandas as pd import matplotlib.pyplot as plt from statsmodels.tsa.seasonal import seasonal_decompose def analyze_timeseries(file_path): # Чтение данных из CSV data = pd.read_csv(file_path, parse_dates=['Date'], index_col='Date') # Проверка, что в данных есть столбец 'Value' для анализа if 'Value' not in data.columns: print("Файл должен содержать столбец 'Value' с числовыми значениями.") sys.exit(1) # Декомпозиция временного ряда decomposition = seasonal_decompose(data['Value'], model='additive', period=12) # Визуализация исходного ряда, тренда, сезонной и остаточной составляющих plt.figure(figsize=(10, 8)) plt.subplot(411) plt.plot(data['Value'], label='Исходные данные') plt.legend(loc='best') plt.subplot(412) plt.plot(decomposition.trend, label='Тренд') plt.legend(loc='best') plt.subplot(413) plt.plot(decomposition.seasonal, label='Сезонность') plt.legend(loc='best') plt.subplot(414) plt.plot(decomposition.resid, label='Остатки') plt.legend(loc='best') plt.tight_layout() plt.show() if __name__ == "__main__": if len(sys.argv) < 2: print("Укажите путь к файлу CSV для анализа.") sys.exit(1) file_path = sys.argv[1] analyze_timeseries(file_path)

📊 ИИ в Крипто-Торговле: Возможен ли Успех? Статья описывает процесс создания успешных ИИ-моделей для автоматизированной крипто-торговли на ByBit. Рассматриваются три стратегии, их разработка, оптимизация и результаты, превысившие убытки. Читать...

🔎 Подборка зарубежных вакансий Senior Data Scientist (Recommender Systems) 🟢Python, PyTorch, PySpark 🟢от 5 000 до 6 500 € до вычета налогов | 3–6 лет опыта Senior Data Engineer в международный проект HealthTech 🟢Python, Apache Spark, AWS, SQL, NoSQL 🟢Уровень дохода не указан | 3–6 лет опыта Data Engineer 🟢DBT, Amazon Redshift, Fivetran, Python, ETL, Amazon Web Services, SQL 🟢Уровень дохода не указан | 3–6 лет опыта

Коллеги, закинули новый таск — заценить зимний раннер от Х5 Tech! «Беги в X5 Tech, беги» — это игра, где вам предстоит достиг
Коллеги, закинули новый таск — заценить зимний раннер от Х5 Tech! «Беги в X5 Tech, беги» — это игра, где вам предстоит достигнуть ускорения X5, познакомиться с технологиями и карьерными возможностями в X5 Tech, а также побороться за призы — Apple AirPods Pro, Apple Watch SE, Яндекс Станцию Миди и сертификаты в «Перекрёсток» и «Пятёрочку»! Кстати, всем пробежавшим хотя бы одну дистанцию подарят полезный промокод — проходите игру, чтобы узнать, как Х5 Tech строит самый эффективный ритейл в мире благодаря IT и инновациям >>

🧠 Эмоциональное принятие решений в LLM: исследование, которое мы показали на NeurIPS 2024 На NeurIPS 2024 группа «ИИ в промышленности» представила исследование по эмоциональным большим языковым моделям (LLM). Рассмотрены два подхода: строгая оптимальность и эмоциональный алайнмент. Как LLM правильно эмулируют эмоции? Узнаем! Читать...

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу. Читать...

👩‍💻 Как работает __name__ == "__main__" в Python? Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте. ➡️ Пример:
def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую
🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.
🖥 Подробнее тут

➡️ ИИ в логистике: отслеживаем транспортные средства на производственной территории с помощью нейросети В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы. Читать...

Приглашаем вас на открытый вебинар: «Технологии за современными LLM» https://otus.pw/nI3x/ ⏰Дата: 20 января в 18:00 мск Спике
Приглашаем вас на открытый вебинар: «Технологии за современными LLM» https://otus.pw/nI3x/ ⏰Дата: 20 января в 18:00 мск Спикер: Мария Тихонова 📚На занятии мы обсудим: + Какие современные LLM сегодня используют на практике. + Основные концепции языкового моделирования и продвинутые языковые модели. + Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв. + Что представляет из себя задача языкового моделирования + Языковые модели, которые сегодня лежат в основе всех NLP методов 🔥Результаты урока: - Вы поймете, где применяются методы NLP - Узнаете основные тренды и перспективы развития методов NLP - Узнаете современное состояние области в связи с быстрым развитием LLM Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing» 👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/nI3x/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxXrK6s