Анализ данных (Data analysis)

Kanalga Telegram’da o‘tish

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya12 514 Texnologiyalar & Aralashmalar2 668...

📈 Telegram kanali Анализ данных (Data analysis) analitikasi

Анализ данных (Data analysis) (@data_analysis_ml) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 50 248 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 2 668-o'rinni va Rossiya mintaqasida 12 514-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 50 248 obunachiga ega bo‘ldi.

21 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 39 ga, so‘nggi 24 soatda esa -7 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.79% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 6.66% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 4 415 marta ko‘riladi; birinchi sutkada odatda 3 346 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 31 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, контекст, openai, архитектура, deepseek kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 22 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

50 248

Obunachilar

-724 soatlar

+977 kunlar

+3930 kunlar

4 415

Post ko'rishlar

~ 3 34624 soatlar

~ 4 33548 soatlar

8.79%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

50 250

🌟 Создание text-to-SQL системы с Mistral AI, Neon, и LangChain Если использовать просто LLM для генерации SQL, то может получиться синтаксически неверный SQL, усугубляет ситуацию и масса диалектов SQL в разных БД. К тому же LLM не имеет доступа к полной схеме базы данных, именам таблиц и столбцов, а также индексам, что ограничивает его возможности по созданию точных/эффективных запросов. А передавать полную схему в промпте каждый раз дорого и неудобно. Ок, но ведь LLM отлично обучаются в контексте, поэтому, передавая релевантную информацию в промпте, можно улучшить их результаты — так мы приходим к RAG. И здесь по ссылке ниже разбирается построение системы RAG с использованием Mistral AI, Neon Postgres как векторной БД, и LangChain, чтобы связать всё это вместе. 🟡 Создание Text-to-SQL системы @data_analysis_ml

50 250

🔥 Последние новости с Chatbot Arena Claude 3.5 Sonnet только что совершила огромный скачок, заняв 1-е место в Coding Arena, Hard Prompts Arena и 2-е место в общей таблице лидеров. Новый Sonnet превзошел Opus с более низкими затратами в 5 раз и не уступает моделям frontier GPT-4o/Gemini 1.5 Pro . с этим знаменательным событием! Не терпится увидеть новый Opus & Haiku. https://chat.lmsys.org/ @data_analysis_ml

50 250

🖥 Mesop — Python фреймворк для быстрого создания UI для LLM-приложений и не только Особенности Mesop: — UI пишется очень идиоматично и лаконично — масса готовых компонентов, просто plug-and-play — поддержка горячей перезагрузки, когда браузер сам обновляет UI по мере написания; при этом сохраняется состояние — можно работать с готовым UI как с простым наборов функций Python 🖥 GitHub @data_analysis_ml

50 250

Live-интенсив: разбираем тестовое задание в OZON на junior-аналитика! 🔥 Мы знаем, что разбор тестовых заданий - ваш любимый формат. Поэтому мы приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание в OZON на аналитика данных! Собираемся в прямом эфире 25 июня (вт) в 19:00 (Мск). Ссылка на трансляцию придет в бота, записывайтесь! 👉🏻 Записаться на live-интенсив 👈🏻 Что будем делать на интенсиве: ◾️ Проанализируем заказы пользователей по retention, времени доставки, сумме заказа т.д. ◾️ Научимся легко генерировать большой DataFrame с синтетическими данными ◾️ Посчитаем описательные статистики ◾️ Изучим полезные фичи Pandas: apply, map, pct_change и др. ◾️ Построим интерактивные графики с помощью plotly ◾️ Научимся строить и читать необычные графики - например, violinplot Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡 Короче, ждем всех – будет мега-круто! 👉🏻 Записаться на live-интенсив 👈🏻 Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8KVug9

50 250

🌟 DataComp-LM — комплексный фреймворк, предназначенный для построения и обучения LLM на различных наборах данных DataComp-LM предлагает стандартизированный набор из более чем 300Т нефильтрованных лексем из CommonCrawl, эффективные рецепты предварительного обучения на основе фреймворка open_lm и большой набор из более чем 50 бенчмарков. DCLM позволяет исследователям экспериментировать с различными стратегиями построения наборов данных в различных вычислительных масштабах, от 411M до 7B моделей с параметрами. 🖥 GitHub 🟡 Arxiv @data_analysis_ml

50 250

🐹 В интернете только и разговоров, что о тапанье хомяка. Превратятся ли игровые монетки в криптоденьги, пока сказать сложно. Но уже понятно, что будущее — за цифровыми валютами. Чтобы развивать новые финансовые технологии, рынку нужны аналитики данных в финтехе. Они наиболее востребованы в сфере блокчейн-разработок, big data и цифровых валют, в госструктурах, банках и инвестиционных компаниях. Как раз таких специалистов готовят в онлайн-магистратуре МФТИ и Нетологии «Финансовые технологии и аналитика». Вы на практике научитесь анализировать и обрабатывать big data, работать с базами данных, строить финансовые модели, применять ИИ и ML-алгоритмы. В качестве дипломной работы сможете выбрать классическую диссертацию или разработать новое финтех-решение — корпоративный проект на основе кейса либо собственный стартап. А если оформить ООО для стартапа, можно получить финансирование от фондов и акселераторов. Узнайте больше о программе и начните строить карьеру в перспективной сфере: https://netolo.gy/dfu6 Реклама. ООО "Нетология". Erid: 2VSb5weeNrU

50 250

🌟 σ-GPT — новый взгляд на авторегрессионные модели GPT генерируют последовательности в порядке слева направо. Возможно ли по-другому? Arnaud Pannatier и его коллеги разработали σ-GPT, способный генерировать последовательности в любом порядке, динамически выбираемом во время вывода. 🟡 Arxiv 🖥 GitHub @data_analysis_ml

50 250

🌟 BM25S — очень быстрая реализация алгоритма BM25 на чистом Python — pip install bm25s[full] Это сверхбыстрая библиотека лексического поиска, реализующая BM25 с помощью Scipy (ускорение до 500 раз). BM25S построена исключительно на Numpy и Scipy, с дополнительными зависимостями для stemming и selection, а также интеграцией с Huggingface Hub, позволяющей вам легко делиться и использовать другие индексы BM25. Благодаря минимальному количеству зависимостей bm25s позволяет сделать все внутри Python всего за несколько строк. BM25S позволяет достичь скорости, сравнимой или превышающей скорость ElasticSearch, при этом отпадает необходимость в настройке веб-серверов, установке и запуске Java и использовании абстрактных API. На графике — относительное ускорение BM25S и Elastic по отношению к rank-bm25, самой популярной реализации BM25 на Python. Скорость рассчитывается как отношение количества запросов в секунду по отношению к rank-bm25. 🖥 GitHub 🤗 Hugging Face @data_analysis_ml

50 250

⚡️Лучший способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь: C#: t.me/csharp_ci Машинное обучение: t.me/ai_machinelearning_big_data АНАЛИЗ Данных: t.me/data_analysis_ml Хакинг: t.me/linuxkalii Linux: t.me/linuxacademiya Базы данных: t.me/sqlhub C++ t.me/cpluspluc Golang: t.me/Golang_google Java: t.me/javatg React: t.me/react_tg Javascript: t.me/javascriptv Мобильная разработка: t.me/mobdevelop Docker: t.me/+0WdB4uvOwCY0Mjdi Python: t.me/pythonl Rust: t.me/rust_code PHP: t.me/phpshka Android: t.me/android_its Big Data: t.me/bigdatai Devops: t.me/devOPSitsec Собеседования МЛ: t.me/machinelearning_interview Python подготовка с собесу: t.me/python_job_interview МАТЕМАТИКА: t.me/data_math 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy C++ папка: https://t.me/addlist/CdBs5DLepLJmZjY6 C# папка: https://t.me/addlist/u15AMycxRMowZmRi Java папка: https://t.me/addlist/ZM3J6oFNAnRlNWU6 FRONTEND папка: https://t.me/addlist/mzMMG3RPZhY2M2Iy Linux папка: https://t.me/addlist/w4Doot-XBG4xNzYy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

50 250

🌟 Hamilton — библиотека Python для создания направленных ациклических графов (DAG), визуализирующих потоки данных — pip install sf-hamilton Чтобы создать граф при помощи Hamilton, ничего особенного не требуется: нужно просто писать обычные функции Python, которые указывают свои зависимости с помощью параметров. Как раз по этим параметрам Hamilton и построит граф, по которому можно легко увидеть, как преобразуются данные и передаются из одной функции в другую Hamilton может быть очень полезным инструментом при работе с большими конвейерами данных и в ML-системах 🖥 GitHub 🟡 Доки 🟡 Затестить Hamilton онлайн @data_analysis_ml

50 250

🌟 Эти 94 строки кода — всё, что нужно для обучения нейросети Всё остальное — просто для повышения эффективности и т.д. Это код engine.py из проекта Micrograd. Micrograd – это небольшая реализация нейронной сети от Карпати, написанная на чистом Python без библиотек, в которой вычислительными единицами выступают не векторы и матрицы, а скалярные величины. Micrograd представляет из себя комбинацию нескольких взаимодополняющих частей: — небольшого построителя и оценивателя выражений на основе графа; — автоматической дифференциации в обратном режиме для того же самого графа вычислений; — строительных блоков нейронной сети для многослойного перцептрона 🖥 Код со скрина из micrograd 🟡 Пошаговое создание micrograd 🟡 Пост Андрея Карпати в X @data_analysis_ml

50 250

🌟 Lux.jl — фреймворк Julia для Deep Learning — import Pkg; Pkg.add("Lux") Lux бесшовно интегрируется с CUDA и AMDGPU, также поддерживается экспериментальная поддержка Metal Hardware. Фреймворк используется по умолчанию во многих пакетов SciML, включая DiffEqFlux.jl, NeuralPDE.jl и другие. Lux изначально поддерживает произвольные типы параметров, что делает его совместимым с другими пакетами Julia (и даже с пакетами, не относящимися к Julia). 🖥 GitHub 🟡 Примеры использования 🟡 Доки @data_analysis_ml

50 250

Цифры без бизнеса — это математика. Бизнес без цифр — это авантюра. Цифры в основе бизнеса — это анализ данных. Аналитик данных собирает, анализирует, структурирует данные — и благодаря этому помогает бизнесу решать проблемы и принимать важные решения. Поэтому профессия входит в топ-5 на рынке. Стать аналитиком данных за 5 месяцев вы можете на курсе от онлайн-школы KARPOV.COURSES. Вас всему научат с нуля. Преподаватели — практикующие спецы, которые знают, какие навыки нужны для успешной карьеры, поэтому обучение включает в себя и теорию, и отработку знаний на практических задачах. На курсе вы: 🔹Освоите Python и SQL; 🔹Научитесь визуализировать данные; 🔹Освоите теорию вероятности, статистику и A/B тесты; 🔹Сформируете продуктовое видение и понимание бизнеса и продукта. Школа поможет вам с трудоустройством: подготовить резюме и получить первый оффер. Как показывает статистика, 89% студентов уже нашли интересную работу. Присоединяйтесь к курсу со скидкой 5% по промокоду DAMML до 30.06.2024: https://clc.to/erid_LjN8JwdhF

50 250

🌟 TabuLa-8B — LLM, созданная на основе Llama 3-8B для генерации табличных данных TabuLa-8B обучена на корпусе TabLib. Модель подробно описана в статье "Large Scale Transfer Learning for Tabular Data through Language Modeling". 🤗 Hugging Face 🟡 Arxiv @data_analysis_ml

50 250

🌟 PySR — open-source инструмент для высокопроизводительной символьной регрессии на Python и Julia — pip install pysr PySR создан для решения задачи символьной регрессии, т.е. для нахождения интерпретируемого символьного выражения, которое корректно описывает наблюдаемые данные. PySR был разработан с нуля, чтобы быть (1) как можно более высокопроизводительным, (2) как можно более настраиваемым, гибким и (3) простым в использовании. Параллельно с PySR развивается библиотека Julia SymbolicRegression.jl, которая отвечает за нагруженные компоненты PySR, в частности за алгортм поиска. 🖥 GitHub @data_analysis_ml

50 250

🔹 Как осуществлять технический анализ финансовых рынков? Расскажем на открытом уроке от Otus, посвященный курсу «ML для финансового анализа», 24 июня в 20:00. ✅ В течении часа рассмотрим основные инструменты и техники, используемые на финансовых рынках. Рассмотрим основы технического анализа: что такое технический анализ и почему это важный навык для всех, кто работает на рынках. Научитесь читать и интерпретировать различные типы торговых графиков, включая линейные, столбчатые и свечные графики. ✅ Познакомьтесь с основными индикаторами, такими как скользящие средние, RSI и MACD, и узнайте, как они используются для определения тенденций и разворотов. Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска 👉 Регистрация на урок и подробности: https://otus.pw/LbG8/?erid=LjN8KJ52V

50 250

🖥 Daft — фреймворк для ETL, аналитики и ML/AI в нагруженных системах — pip install getdaft Daft — это распределенный движок запросов для обработки больших данных на Python; реализован на Rust. Многие идеи Daft позаимствовал из Apache Arrow In-Memory Особенности Daft — встроенный мощный оптимизатор переписывает запросы, чтобы сделать их максимально эффективными — есть полная интеграция с такими системами как Apache Iceberg — имеется поддержка изображений, URL, тензоров и других самых разных объектов — рекордная производительность ввода-вывода для интеграции с облачным хранилищем S3 🖥 GitHub 🟡 Доки @data_analysis_ml

50 250

Repost from Python/ django

⚡ BM25, библиотеку быстрого лексического поиска! BM25 —семейство функций ранжирования документов, которые оценивают число ключевых запросов в каждом из документов. 🏎️ В 500 раз быстрее, чем самая популярная библиотека Python lib, соответствует. 🤗 Первая библиотека BM25, напрямую интегрированная с huggingface. pip install bm25s ▪ Github @pythonl

50 250

⚡️ HelpSteer2 — открытый датасет от Nvidia На днях Nvidia выкатили HelpSteer2, который позволяет сделать модели фактологически корректными и последовательными, плюс регулирует сложность и многословность их ответов. При обучении базовой Llama 3 70B на HelpSteer2 модель достигает 88.8% в RewardBench, что делает ее 4-й лучшей Reward-моделью на текущий момент 🤗 Hugging Face @data_analysis_ml