Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 532 Технологии и приложения2 673...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 246 подписчиков, занимая 2 673 место в категории Технологии и приложения и 12 532 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 246 подписчиков.

Согласно последним данным от 19 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 12, а за последние 24 часа — 11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.88%. В первые 24 часа после публикации контент обычно набирает 6.13% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 458 просмотров. В течение первых суток публикация набирает 3 081 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 31.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 20 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 246

Подписчики

+1124 часа

+637 дней

+1230 день

4 458

Просмотры поста

~ 3 08124 часа

~ 4 01248 часов

8.88%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 245

🔥 Видео от университета Стэнфорда о создании больших языковых моделей! 💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF). В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели. 🕞 Продолжительность: 1:44:30 🔗 Ссылка: *клик*

50 245

Repost from Machinelearning

⚡️ FatLlama-1.7T Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл? Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет. Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором. И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает... Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной? FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку". И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант. Квантованные версии? Да не вопрос, удачи с запуском, держитесь там. Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T. К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии. Вызов принят? 😁 🟡Модель 🟡Набор GGUF @ai_machinelearning_big_data #AI #ML #LLM

50 245

🤗 Вышла Transformers.js версия 3! ⚡ Поддержка веб-графических процессоров (до 100 раз быстрее, чем WASM) 🔢 Новые форматы квантования (dtypes) Всего поддерживается 120 архитектур 📂 25 новых примеров проектов и шаблонов ✅ Более 1200 предварительно сконвертированных моделей ✅ Node.js Совместимость с ESM + CJS, Deno и Bun Начните работу с npm i @huggingface/transformers https://huggingface.co/blog/transformersjs-v3 @data_analysis_ml

50 245

🔥 В этом гайде показано как использовать Qwen-2.5 в качестве интерпретатора кода. 🌟 Модель способна обрабатывать запросы, генерировать и интерпретировать код для различных вычислительных задач и анализа данных. Этот инструмент особенно полезен для тестирования моделей и работы с данными. 🔗 Ссылка: *клик* @data_analysis_ml

50 245

🔥 arXiver — это огромный датасет на Hugging Face, который содержит 138 тысяч научных статей, загруженных с сайта arXiv.org! 🌟 Этот набор данных предназначен для анализа и обработки научных публикаций с использованием методов машинного обучения. Он охватывает статьи из разных областей, таких как физика, математика, компьютерные науки, и предоставляет возможность для создания NLP моделей на основе научного текста. 🔗 Ссылка: *клик* @data_analysis_ml

50 245

🖥 ChatGPT попросили написать SQL запросы для работы с базой данных магазина.

Ответ убил

🌟 Кажется, ии медленно уничтожает человечество... @data_analysis_ml

50 245

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней. Ближайшее мероприятие: • 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума. Зарегистрироваться

50 245

Repost from Machinelearning

🌟 LayerSkip: метод ускорения инференса в LLM. LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста. Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях. В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе. Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit). Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки. LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности. Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей: 🟢Llama2 - 7B и 13B; 🟢Codellama-7B или 34В; 🟢Llama3-8B: 🟢Llama3.2-1B. ⚠️ Для локального запуска будет нужен Huggingface API KEY. ▶️Локальный запуск:

# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip

# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip

# Install requirements
$ pip install -r requirements.txt

#Inference with self speculative 
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
    --sample True \
    --max_steps 512 \
    --generation_strategy self_speculative \
    --exit_layer 8 \
    --num_speculations 6

▶️Ключи запуска: --model: имя модели на HuggingFace; --sample: включение/выключение семплирования (по умолчанию: True); --max_steps: максимальное количество генерируемых токенов; --generation_strategy: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative'); --exit_layer: номер слоя для раннего выхода; --num_speculations: количество спекулятивных токенов; 🟡Коллекция моделей на HF 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #MetaAI #LayerSkip

50 245

🌟 Интересная статья, которая посвящена методу под названием Self-Taught Reasoner (STaR), который улучшает способность языковых моделей выполнять сложные задачи, требующие пошагового рассуждения 🌟 STaR использует небольшое количество примеров рассуждений и большое количество данных без них для обучения модели. Этот метод включает в себя генерацию обоснований, исправление ошибок и дообучение модели на правильных результатах. STaR показал значительное улучшение по сравнению с обычными моделями в задачах на логику и здравый смысл 🔗 Ссылка: *клик* @data_analysis_ml

50 245

Что такое эксперименты в ML и чем они отличаются от «фичей» в обычной разработке? 🔹Расскажем на открытом уроке «MLFlow и переобучение ML-моделей» почему важно переобучать (retrain) свои модели, чтобы держать их «в тонусе». Разберем какую роль инструменты, такие как MLFlow, играют в процессах регулярного переобучения ✅ Практика: Изучим как выбирать лучшие варианты для отправки в Prod / Staging среду и всегда знать, что у вас «на проде» Урок приурочен курсу «MLOps» от Otus. 👉 Регистрация и подробности: https://otus.pw/EokQ/?erid=LjN8KE8WR #реклама О рекламодателе

50 245

🖥 financial-data-analyst — набор советов и гайдов для быстрого старта работы с Claude AI для анализа финансовых данных. Он показывает, как использовать возможности ИИ для обработки и анализа финансовой информации с помощью Claude, предлагая готовые к работе шаблоны и сценарии для анализа ▪️Github @data_analysis_ml

50 245

Яндекс Игры пришли к нам с запросом:


SELECT * 
FROM subscribers 
WHERE channel_name = 'data_analysis_ml'
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens') 
AND data_driven_approach = true 
AND analytical_mindset = true 
AND years_of_experience >= 2 
AND fit = true;

Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать. ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта. Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах. Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1

50 245

🖥 Новые модификации архитектуры трансформеров от исследователей NVIDIA nGPT: Трансформер на основе гиперсферы, обеспечивающий в 4-20 раз более быстрое обучение и улучшенную стабильность для LLM 🔗 Читать подробнее: *клик* @data_analysis_ml

50 245

Приглашаем погрузиться в аналитику данных вместе с Яндексом! Data Driven — это наша ежегодная конференция для тех, кто анализирует данные, чтобы принимать бизнес-решения. 26 октября приглашаем дата-сайентистов и всех, кто интересуется Big Data, послушать спикеров из Крауда, Рекламы, Алисы и других команд. В программе: доклады о фичах на основе пользовательских отзывов, машинном переводе, обучении YandexGPT, метриках KPI и многом другом. 📍Место: Москва, ст. м. «Парк культуры» 📅 Дата: 26 октября в 12:00 💻 Регистрация Реклама. ООО "Яндекс", ИНН 7736207543.

50 245

🖥 AdalFlow — это библиотека для создания и автоматической оптимизации задач, связанных с большими языковыми моделями (LLM). Легкий, модульный и не зависящий от модели конвейер задач LLM ; AdalFlow помогает разработчикам быстро создавать из них любые приложения, от приложений GenAI, перевод, обобщение, генерация кода, RAG и автономные агенты, до классических задач NLP, таких как классификация текста и распознавание именованных объектов. 🌟Содержит два фундаментальных, но мощных базовых класса: Component для конвейера и Data Class для взаимодействия с LLMS. В результате получилась библиотека с минимумом абстракции, предоставляющая разработчикам максимальную настраиваемость. 🔐 Лицензия: MIT ▪️GitHub @data_analysis_ml

50 245

⚡️ Metalingus - это минимальная и быстрая библиотека для обучения LLM и логических выводов, предназначенная для научных исследований 📊 Ключевые особенности - Мощная и быстрая библиотека для обучения LLM и логических выводов для научных исследований - Использует модифицируемые компоненты PyTorch для экспериментов с архитектурами и моделями - Предоставляет инструменты для понимания скорости и стабильности работы моделей - Структурирован с использованием базовой библиотеки "lingua" и "приложений" 🚀 Сравнение производительности Lingua с другими моделями - Модели 1B, обученные на токенах 60B, соответствуют производительности DCLM (DataComp-LM) по многим задачам - Модели 7B (Mamba, Llama) показывают высокие результаты в таких тестах, как ARC, MMLU, BBH - Модель токенов Llama 7B в квадрате ReLU 1T позволяет получать высокие баллы за выполнение заданий ▪ Github

50 245

🖥 optillm — инструмент для оптимизации процесса вывода языковых моделей (LLM) через прокси-сервер. Он поддерживает различные подходы к оптимизации, такие как цепочки размышлений (CoT), самоотражение, алгоритм R* и другие. Этот инструмент позволяет использовать модели, совместимые с OpenAI API, и позволяет легко интегрировать их с существующими инструментами и фреймворками. 🌟 Основная цель — упростить работу с крупными языковыми моделями, обеспечивая их более эффективное использование, включая поддержку нескольких техник вывода и оптимизации 🔐 Лицензия: Apache-2.0 ▪️Github @data_analysis_ml

50 245

Каждый день мы наблюдаем за ростом возможностей искусственного интеллекта, и новости о его прорывах появляются все чаще. Но что это значит для профессионалов, чья работа, казалось бы, может быть автоматизирована? 🤔 Некоторые специалисты беспокоятся, что AI может вскоре занять их места. Однако нам кажется, что AI — это не замена, а инструмент, который помогает достигать новых высот в аналитике, видеомонтаже, копирайтинге и других сферах. А что думаете вы? Какие инструменты и технологии помогают вам в работе, и как вы их оцениваете? Пройдите опрос, который займет всего 5 минут ⏳ и поможет разработчикам генеративных нейросетей улучшить их инструменты. Как бонус, мы разыгрываем среди участников: 👾 годовой доступ к Telegram Premium 👾месяц премиум-подписки на ChatGPT 👾 подписку на два месяца в Альпина Digital Участвуйте, и давайте вместе строить будущее технологий! Erid: 2VtzqwE1B4P

50 245

🔥 Lightning Thunder — компилятор для PyTorch, который позволяет ускорить выполнение моделей до 40% 🌟 Thunder компилирует код PyTorch, объединяя и оптимизируя операции, что повышает производительность на различных аппаратных платформах, таких как GPU, и поддерживает как одиночные, так и многопроцессорные конфигурации. Он работает с множеством исполнительных механизмов, включая такие технологии, как nvFuser, torch.compile и cuDNN и позволяет распределённые вычисления для больших моделей с использованием стратегий DDP и FSDP 🔐 Лицензия: Apache-2.0 ▪️Github @data_analysis_ml

50 245

🔥 Deep seek только что разместил на хабе Janus, модель "Any-to-Any" (мультимодальный ввод и вывод!) 🚀 Janus: революционная платформу авторегрессии для мультимодального ИИ! Она превосходит предыдущие модели как в понимании, так и в генерации. 🤗 Hf: https://huggingface.co/deepseek-ai/Janus-1.3B 📄 Paper: https://arxiv.org/abs/2410.13848 💻 Project page: https://github.com/deepseek-ai/Janus @data_analysis_ml