Data Science | Machinelearning [ru]

Kanalga Telegram’da o‘tish

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Ko'proq ko'rsatish

Tarmoq:Frontender's notes [ru]Rossiya33 730 Texnologiyalar & Aralashmalar6 734...

📈 Telegram kanali Data Science | Machinelearning [ru] analitikasi

Data Science | Machinelearning [ru] (@devsp) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 20 036 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 6 734-o'rinni va Rossiya mintaqasida 33 730-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 20 036 obunachiga ega bo‘ldi.

15 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -82 ga, so‘nggi 24 soatda esa -1 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 7.88% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 4.47% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 580 marta ko‘riladi; birinchi sutkada odatda 896 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 7 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, nvidia, контекст, openai, архитектура kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 16 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

20 036

Obunachilar

-124 soatlar

+307 kunlar

-8230 kunlar

1 580

Post ko'rishlar

~ 89624 soatlar

~ 1 08548 soatlar

7.88%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

20 035

Приглашаем вас на открытый вебинар: «Технологии NLP сегодня: основные тренды в области и перспективы развития» ⏰Дата: 25 декабря в 18:00 мск Спикер: Мария Тихонова 📚На занятии мы обсудим: - Из чего складывается область NLP - Поговорим про последние тренды в этой сфере, возникшие с появлением современных LLM. 🔥Результаты урока: - Вы поймете, где применяются методы NLP - Узнаете основные тренды и перспективы развития методов NLP - Узнаете современное состояние области в связи с быстрым развитием LLM 🧩Кому подходит этот урок: - IT-специалистам, которые хотят расширить свои знания в Data Science - Дата-сайентистам, желающим углубить свои знания по автоматической обработке текстов - Тем кто самостоятельно изучает Data Science Участники всех открытых уроков получат скидку🎁 на большое обучение 👉Регистрируйтесь на открытый вебинар по ссылке: https://vk.cc/cGkS1o Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

20 035

🔥 Самые интересные статьи за последние дни: • Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT • Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей • Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели • Возможности LLM и RAG на примере реализации бота для поддержки клиентов • Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

20 035

🤖 Обзор 4 новых инструментов AI для программирования: v0, Bolt.new, Cursor, Windsurf Обзор четырёх инструментов для разработчиков: v0, Bolt.new, Cursor и Windsurf. Сравнение функций, сценариев использования и цен поможет выбрать подходящее решение для повышения продуктивности и оптимизации процессов. Читать...

20 035

Новогодний коллаб Cloud.ru х Самокат Cloud․ru — это провайдер облачных сервисов и AI-технологий, который делает доступ к облакам и искусственному интеллекту простым и удобным. Компания заботится о клиентах во всех аспектах: от сохранности их инфраструктуры в облаке до предоставления простых и удобных сервисов. Cloud․ru вместе с Самокатом позаботились о здоровом перекусе айтишников. Для этого создали специальный снек-бокс, который до 31.12 получат 22 000 счастливчиков в Москве и Питере вместе со своими заказами. А для всех пользователей Самоката заботливо собрали подборку быстрых перекусов. Переходите по ссылке и по промокоду CLOUDRU вы получите скидку 100 рублей при заказе товаров из подборки от 500 рублей. Реклама. ООО "Умный ритейл", ИНН 7811657720. erid: 2VtzqwfLH2r

20 035

🔎 Подборка зарубежных вакансий Data Scientist | Data Analyst 🟢Python, SQL, Power BI, AI (GPT, AutoGPT, Langchain), DWH, BigQuery, Snowflake, Redshift 🟢от 2 000 $ на руки | 1–3 года Marketing Analyst 🟢SQL, Power BI, Marketing Analysis, Google Analytics, Business English, API 🟢от 2 500 до 4 000 $ до вычета налогов | 1–3 года Senior Data Scientist 🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps 🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет

20 035

🧠 Machine Learning — авторский канал, где собрана вся база по ИИ и машинному обучению. Senior разработчик AI-алгоритмов и автономных агентов, разбирает гайды, редкую литературу и код топовых моделей машинного обучения и искусственного интеллекта. В 2025 году ИИ выйдет на совершенно новый уровень тот, кто не успеет за прогрессом - отстанет, а кто разберется - сорвет куш. Стоит подписаться: t.me/ai_machinelearning_big_data

20 035

🤔 Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели В статье предлагается протестировать новую модель o1 в режиме pro, сравнить её с ChatGPT o1 и ChatGPT 4o. Разберёмся, насколько она оправдывает свою стоимость и как показывает себя на практике. Читать...

20 035

Интересуетесь промышленной робототехникой, хотите начать карьеру, улучшить навыки или роботизировать производство? Центр развития промышленной робототехники Университета Иннополис объединяет вузы, центры разработки, малый и крупный бизнес. В ролике руководители и директор Университета Иннополис рассказывают о центре, а новости и тренды отечественной робототехники ищите на канале ЦРР. Здесь вы: 🟡 узнаете, где пройти обучение для карьеры в робототехнике; 🟡 поймёте, почему роботизация предприятий — это уже реальность; 🟡 увидите, как реализуются сложные проекты роботизации; 🟡 примете участие в вебинарах, форумах и лекциях; 🟡 сможете поучаствовать в квизах и играх. Сейчас на канале проходит новогодний розыгрыш подарков от Центра и ведущих робототехнических компаний. ⚡️ Подписывайтесь, чтобы выиграть призы и ничего не пропустить! Реклама. АНО ВО "УНИВЕРСИТЕТ ИННОПОЛИС". ИНН 1655258235.

20 035

🔎 Подборка вакансий для лидов AI Data Group Lead 🟢Python, TensorFlow, PyTorch, Scikit-learn, Oracle DWH, Hadoop, SQL, Jupyter, Pandas, Matplotlib 🟢Уровень дохода не указан | 1–3 года Team Lead Data Scientist 🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps 🟢Уровень дохода не указан | Более 6 лет Team Lead Data Analyst 🟢SQL, Python, ClickHouse, Power BI, Redash, Superset, Metabase, dbt, Airflow 🟢от 300 000 до 450 000 ₽ на руки | 3–6 лет

20 035

Большая языковая модель от MTS AI выйдет уже в первом квартале 2025 года. О завершении бета-теста нейронки упомянул председатель совета директоров МТС Вячеслав Николаев на Дне инвестора. Это будет LLM для корпоративного использования. В лидерборде бенчмарка MERA она заняла второе место, однако по многим параметрам обошла GPT4o и OpenAI. Например, Cotype лучше связывает факты из предоставленного текста и обладает более глубокими знаниями о мире. Также она помогает сократить до четырех часов рабочего времени, избавляя сотрудников от рутинных задач. В открытом доступе модель появится в начале 2025 года.

20 035

⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется? PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение. ➡️ Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5])  # Преобразованные данные

🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.

🖥 Подробнее тут

20 035

🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения. Читать...

20 035

Весь декабрь в Яндекс Образовании посвящают математическим наукам — специально ко дню математика вместе с факультетом компьютерных наук НИУ ВШЭ запустили хендбук. Это бесплатный онлайн-учебник по математике для увлеченных IT — с квизами, самостоятельными заданиями, примерами кода. Пригодится всем, кто хочет к новому году подтянуть знания для аналитики, машинного и глубинного обучения. Первая глава посвящена графам, с помощью которых можно описать все вокруг — от сети друзей ВКонтакте до связи между философскими концепциями. А еще решать реальные задачи бизнеса. Например, строить оптимальные маршруты перевозок. Помните что-то о графах? Тогда вот задачка для разминки.

20 035

📈 Подборка статей для вашей карьеры • Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее? • Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях • Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы • Как гуманитарию подойти к IT: из переводчика в технические писатели • Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ

20 035

🔎 Подборка вакансий для сеньоров Senior Data Engineer (MedTech) 🟢Python, SQL, Java, ETL, Docker, Kubernetes, Redshift, BigQuery 🟢до 350 000 ₽ на руки | 3–6 лет Data Architect (MedTech) 🟢SQL, ETL, PostgreSQL, Docker, Kubernetes, Data Warehousing, BI, Agile 🟢до 450 000 ₽ на руки | Более 6 лет Senior Data Scientist 🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps 🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет Senior Python Dev (AI, Big Data, LLM) 🟢Python, Big Data, ClickHouse, Time Series Analysis, Golang, AI, LLM, WebSocket 🟢от 3 000 $ до вычета налогов | 3–6 лет

20 035

Repost from .ml

Как LLM могут помочь в классическом ML? По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов. Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее: ✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки. ✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются. ✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость. Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

20 035

Как FELIX экономит время на подготовке фич? И при чём здесь LLM? Об этом рассказали ребята из финтеха Точка в своём канале .ml Если вам интересны разборы инструментов, обзоры фреймворков и выжимки из статей — то вот вам ссылка на канал 🙂 Реклама, АО «Точка», ИНН 9705120864, 2Vtzqw3ihJ1, 18 +

20 035

🤖 Возможности LLM и RAG на примере реализации бота для поддержки клиентов Техподдержка — важный контакт с клиентами, но небольшие отделы не всегда справляются с нагрузкой. В статье обсуждаются чат-боты и нейросети (LLM и RAG) для автоматизации процессов и улучшения работы поддержки. Читать...

20 035

Data Science повсюду🙌 Лента рекомендаций в соцсетях, плейлист с треками под ваш вкус в стриминговом сервисе и умные голосовые помощники — всё это результат работы Data Scientist. Специалист решает бизнес-задачи с помощью данных. Освоить востребованную и высокооплачиваемую IT-профессию с нуля можно на курсе «Data Scientist». В программе много практики: бизнес-игры, хакатоны, соревнования Kaggle, прожарки и конкурсы от партнёров. 20+ проектов можно добавить в портфолио и искать работу уже через 5 месяцев занятий. В программе 3 траектории обучения: 1. Базовая — для быстрого старта в профессии. 2. Расширенная — для углублённой работы с нейросетями и big data. 3. Продвинутая — для специализации в медицине или промышленности. Сейчас программу можно освоить выгоднее — повышенная скидка 45% действует по промокоду BIGDATA45. Начинайте обучение и становитесь перспективным IT-специалистом Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5yeddTW

20 035

👩‍💻 Конвертер CSV в JSON Напишите скрипт, который принимает путь к файлу CSV, конвертирует его содержимое в формат JSON и сохраняет результат в новый файл с тем же именем, но с расширением .json. Пример:

id,name,age
1,Alice,30
2,Bob,25
3,Charlie,35

python csv_to_json.py data.csv

[
  {"id": "1", "name": "Alice", "age": "30"},
  {"id": "2", "name": "Bob", "age": "25"},
  {"id": "3", "name": "Charlie", "age": "35"}
]

Решение задачи🔽

import csv import json import sys import os def csv_to_json(csv_file_path): try: json_file_path = os.path.splitext(csv_file_path)[0] + ".json" with open(csv_file_path, 'r', encoding='utf-8') as csv_file: reader = csv.DictReader(csv_file) data = [row for row in reader] with open(json_file_path, 'w', encoding='utf-8') as json_file: json.dump(data, json_file, indent=4, ensure_ascii=False) print(f"Файл успешно конвертирован: {json_file_path}") except FileNotFoundError: print(f"Ошибка: Файл {csv_file_path} не найден.") except Exception as e: print(f"Ошибка: {e}") # Пример использования: if __name__ == "__main__": if len(sys.argv) < 2: print("Использование: python csv_to_json.py <путь_к_csv>") else: csv_to_json(sys.argv[1])