Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 165 名订阅者,在 技术与应用 类别中位列第 2 677,并在 俄罗斯 地区排名第 12 565 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 165 名订阅者。
根据 14 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -30,过去 24 小时变化为 4,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.79%。内容发布后 24 小时内通常能获得 6.04% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 408 次浏览,首日通常累积 3 027 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 15 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 165
订阅者
+424 小时
-527 天
-3030 天
帖子存档
+5
🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.
В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.
📊 Что выяснили:
• SFT на математике → ухудшение на нематематических задачах
• RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси
🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
❌ а где — просто бенчмарк‑максинг
📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.
📌 Подробнее
Microsoft уволит 9 000 сотрудников — это примерно 4% от общего числа работников компании.
Очевидно, что ИИ действительно делает людей ненужными. И это уже не просто громкие заявления.
@data_analysis_ml
🧠 II-Medical-8B-1706 — open-source LLM для медицинских задач!
▪️ Превзошла MedGemma 27B от Google при 70% меньшем количестве параметров
▪️ Квантизированные веса GGUF — модель запускается даже на <8 ГБ ОЗУ
Model card: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706
GGUF quantization: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706-GGUF
Интелион Облако запускает розыгрыш 🎉
Главный приз – 3 сервера с А10 или А5000. Также разыгрываются приятные скидки.
Запусти нейросеть, рендер, LLM или сложные вычисления на топовом GPU за 1 рубль!
Как принять участие:
1. Зарегистрироваться на Intelion.cloud
2. Заполнить форму розыгрыша
3. Подписаться на ТГ канал
Итоги подведем 5 июля в прямом эфире в канале Artificial Intelion.
Не забудь поделиться с другом!
🧠 WM-Abench — бенчмарк для оценки памяти у мультимодальных LLM
Новый open-source бенчмарк от Maitrix Research оценивает, как мультимодальные модели (текст + изображение) запоминают и используют визуальную информацию.
📌 Что проверяется:
– Могут ли LLM “удерживать в голове” объекты, числа и расположение
– Насколько глубоко модель понимает визуальный контекст
– Способна ли она логически оперировать на основе того, что “видела”
📈 Поддерживаются: GPT‑4o, Gemini, Claude, LLaVA и другие
🔍 Задания: от простых “где лежит мяч?” до сложных визуальных рассуждений
Исследователи из Maitrix оценили 15 SOTA мультимодальных моделей (включая o3 и Gemini 2.5 Pro) по 23 когнитивным измерениям: от базового восприятия до предсказания будущих состояний.
Ключевые выводы:
🔹 Модели хорошо справляются с распознаванием, но проваливаются в 3D-пространственном мышлении, динамике движения и причинно-следственной симуляции.
🔹 VLM склонны “путать” физику: даже изменение цвета объекта сбивает модель на задачах восприятия.
🔹 В сложных задачах предсказания следующего состояния — даже лучшие модели отстают от человека на 34.3%.
🔹 Точность восприятия ≠ понимание: даже “увидев” всё правильно, модели не умеют достроить последствия и взаимодействия объектов.
Отличный инструмент, чтобы понять на что реально способна ваша мультимодальная модель, а не только на красивые демо.
🔗 https://wm-abench.maitrix.org
#LLM #AI #multimodal #benchmark
🧠 Хочешь понять, на чём основана модель Gemma 3n от Google?
Вот ключевые научные работы, стоящие за её архитектурой и обучением:
🔹 AltUp — улучшение аппроксимации внимания
https://arxiv.org/abs/2301.13310
🔹 LAuReL — расширение языковых моделей за счёт многоязычного претрейнинга
https://arxiv.org/abs/2411.07501
🔹 MatFormer — матричная факторизация для масштабируемых LLM
https://arxiv.org/abs/2310.07707
🔹 Activation Sparsity — обучение моделей с разреженной активацией
https://arxiv.org/abs/2506.06644
🔹 Universal Speech Model — единая модель для понимания и генерации речи
https://arxiv.org/abs/2303.01037
📘 Блог Google с обзором архитектуры и практическим гайдом по Gemma 3n:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
📡 Как студенты российских IT-вузов занимаются разработкой баз данных.
На Хабре вышла статья про YDB — распределённую СУБД с открытым исходным кодом. Она применяется для построения высоконагруженных систем и может исполнять федеративные запросы к внешним источникам данных.
Что внутри:
🧩 как реализовать SQL-запрос к внешней NoSQL-базе
📦 как упаковать Redis и MongoDB в реляционную модель
⚙️ проектируем абстракцию, которая может спрятать *любой* внешний источник данных
Новые функции YDB пилят студенты Яндекс Образования, а ревью прходоят у разработчиков бигтеха. Результат: федеративные запросы в YDB теперь могут быть адресованы к PostgreSQL, ClickHouse, MongoDB, Redis и многим другим источникам – польза для всего open-source сообщества.
📌 Статья полезна для тех, кто интересуется:
— Разработкой СУБД
— Консолидацией гетерогенных данных
miniDiffusion — упрощённая реализация Stable Diffusion 3.5 на PyTorch
🔹 Этот репозиторий — минималистичный, но рабочий аналог Stable Diffusion:
всего ~2800 строк кода, без лишних зависимостей.
📦 Что внутри:
• Архитектура DiT (Diffusion Transformer)
• Кодировщики: T5 (текст) и CLIP
• VAE для генерации изображений
• Attention, Noise Scheduler и FID-оценка качества
🧪 Зачем это нужно:
• Понять, как работает диффузионная генерация
• Экспериментировать с архитектурой
• Обучать и тестировать свои модели
▶️ Быстрый старт:
git clone https://github.com/yousef-rafat/miniDiffusion
pip install -r requirements.txt
python3 encoders/get_checkpoints.py
📌 Github🧠 Как успевать следить за всеми новостями искусственного интеллекта? И чтобы не тратить на это кучу времени?!
Мы нашли ребят, которые делают это за вас.
📌 Рекомендуем подписаться на канал @svodka_ai — Искусственный интеллект.
Каждый день их AI-журналисты мониторят десятки каналов про ИИ, а затем выдают утренний компактный дайджест:
📰 5–8 главных новостей без оффтопа и инфошума
🔗 Линк на источник под каждым пунктом — сразу в закладки или "прочитать позже"
⏱️ Формат "прочёл за три минуты — знаешь всё основное"
🧩 Все релизы, новости ИИ-компаний, секреты о тулах – в одном месте
💡 Экономия: ~90 % времени против ручного серфинга по каналам.
Если ИИ — ваш хлеб (или хотя бы джем к утреннему кофе), подпишитесь на @svodka_ai и начинайте день, уже зная главное.
Профит прост: меньше скролла — больше инсайтов без инфошума.
👉 Подписывайтесь и пусть ИИ готовит для вас сводки самого главного
erid: 2W5zFHoXe24
Apple выложила Sage Mixtral 8x7B fine-tune с лицензией Apache
💡 Это не просто ещё одна доработка LLM — модель использует State-Action Chains (SAC), чтобы встроить в диалоговую генерацию латентные переменные для эмоций и стратегий общения.
Что это даёт:
- SAC vs обычный fine-tune: модель получает грубое управление через state/action токены → диалоги становятся эмоционально насыщеннее, без потери на метриках
- Итеративная доработка: self-play + tree search позволяют оптимизировать диалоги по цепочкам действий, превзойдя базовые модели по оценкам LLM-судей
🔗 https://huggingface.co/apple/sage-ft-mixtral-8x7b
#apple #opensource
🍏 Apple рассматривает замену Siri на Claude или ChatGPT
Apple активно изучает возможность использования моделей Claude 3 Opus от Anthropic и GPT-4 Turbo от OpenAI для новой версии Siri, отказавшись от собственных LLM. Компания провела тестирование обеих моделей на закрытой облачной инфраструктуре, чтобы сравнить качество генерации, безопасность и способность к сложным диалогам.
Причины перехода:
— Собственная разработка LLM для Siri задерживается до 2026 года из-за проблем с качеством
— Необходимость ускорить вывод на рынок более интеллектуального голосового ассистента
— Усиленная конкуренция с Google Assistant и Microsoft Copilot
Что уже сделано:
— Тестирование Claude 3 Opus и GPT-4 Turbo на Private Cloud Compute Apple
— Смена руководства AI-подразделения: Майк Рокуэлл занял место Джона Джаннандреа
— Отмена запуска “LLM Siri” на WWDC 2025 из-за неготовности модели
📌 Подробнее
@data_analysis_ml
Repost from Machinelearning
✔️ Alibaba Group представила обновленный Qwen-TTS для английского и китайского языков.
Qwen обновила свой синтезатор речи Qwen-TTS, его обучали на миллионах часов аудиозаписей. Новая версия адаптирует интонацию, ритм и эмоции под контекст текста и приближает звучание к человеческому. Добавили 3 китайских диалекта и поддержку 7 двуязычных голосов (Cherry, Ethan, Jada и др.).
Тесты в SeedTTS-Eval показали высокую точность (WER 1.209) и естественность (SIM 1.967). Модель доступна только через API. В будущем обещают новые языки и стили речи.
qwenlm.github.io
✔️ Исследование: как ИИ-поисковики меняют правила видимости веб-контента.
Совместное исследование ERGO Innovation Lab и ECODYNAMICS показало, что ИИ-системы не просто выдают популярные ссылки, они анализируют структуру, читаемость и ясность контента. Это ставит под сомнение традиционные методы SEO в для традиционных сайтов.
Аналитики изучили 33 тыс. запросов и 600 сайтов из области услуг страхования. Результат: LLM оценивают не только ключевые слова, но и логичность подачи информации, удобство навигации и глубину раскрытия темы.
Специалисты советуют пересмотреть стратегии: упростить тексты, структурировать данные и адаптировать контент под агентные системы. Чем раньше компании пересмотрят свои SEO-стратегии, тем выше вероятность оставаться на виду, когда алгоритмы станут сложнее. Полную версию отчета можно почитать по ссылке.
ergo.com
✔️ OpenAI и компания Марка Цукерберга борются за кадры.
Конкуренция за лучших специалистов в сфере ИИ достигла критической точки. После того как компания Цукерберга переманила 4 ключевых сотрудников OpenAI для работы над «суперинтеллектом», глава исследований Марк Чэн призвал команду Сэма Альтмана оставаться верной компании, пообещав пересмотреть зарплаты и улучшить условия.
По данным источников, Цукерберг предлагает бонусы до $100 млн и лично контактирует с потенциальными кандидатами. Внутри OpenAI сотрудники жалуются на перегрузки, многие работают по 80 часов в неделю. В ответ на агрессивный хэдхантинг, Open AI объявила о «перезагрузке» на неделю, при этом напомнив, что из главная цель - развитие ИИ, а не соревнование с конкурентами.
wired.com
✔️ Microsoft создала ИИ-систему для диагностики, превосходящую врачей.
Microsoft разработала ИИ-инструмент MAI-DxO, который в 4 раза эффективнее опытных врачей в решении сложных диагностических задач. Система использует «оркестратор», создавая сеть из 5 ИИ-агентов, выполняющих роли от генератора гипотез до выбора тестов, которые взаимодействуют и «спорят» для принятия решений.
Тестирование на 304 сложных клинических случаях из NEJM показало точность 85,5% при использовании OpenAI o3 — против 20% у людей без доступа к справочникам или коллегам. Технология может быть интегрирована в Copilot и Bing, которые суммарно обрабатывают около 50 млн. медицинских запросов ежедневно.
ft.com
✔️ Роботы-гуманоиды впервые сыграли в футбол без участия людей.
В минувшую субботу, в Пекине прошел первый в Китае турнир по футболу полностью автономных роботов-гуманоидов. Команда университета Циньхуа победила в финале, обыграв соперников из сельскохозяйственного университета со счетом 5:3. Обе команды использовали одинаковое оборудование от Booster Robotics, но разрабатывали собственные алгоритмы для управления зрением, балансом и движениями.
Матч стал испытанием для технологий: роботы падали, теряли равновесие, а иногда их приходилось уносить на носилках - все это помогает тестировать системы управления и безопасности перед массовым внедрением. Организаторы назвали матч "трейлером" предстоящих Всемирных игр роботов в августе, где будут представлены 11 видов спорта.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
🧠 Хочешь сделать свой ИИ-стартап? Начни с базы!
Microsoft запустила бесплатный курс по MCP — это про то, как подключать нейросети к реальным приложениям: сайтам, чатам, бэкендам и не только.
📚 Что внутри:
• 11 модулей с теорией и практикой
• Примеры кода на разных языках
• Всё можно пройти на русском
Идеально, если хочешь научиться использовать ИИ не на уровне «поиграться», а реально внедрять.
👉 Курс бесплатный — забираем здесь
📘 Machine Learning Q and AI — новая книга от мастодонта ML Себастьяна Рашки теперь в открытом доступе!
👨🔬 Автор — core‑разработчик Scikit‑learn, преподаватель, автор культовых пособий по машинному обучению.
Что внутри:
• 30 глав по нейросетям, компьютерному зрению, LLM, оценке и деплою моделей
• Чёткая структура: теория → примеры → упражнения
• Много практики, схем, визуализаций и Python‑кода
Это не просто справочник, а полный курс по Deep Learning, от основ до продвинутых тем.
📖 Читать онлайн
@data_analysis_ml
🖥 Когда с первого взгляда ясно — статья огонь.
Иллюстрация различий между: unsupervised learning, supervised fine-tuning и RLHF из тех репорта ERNIE.
@data_analysis_ml
#ERNIE #Baidu
🖥 Когда с первого взгляда ясно — статья огонь.
Иллюстрация различий между: unsupervised learning, supervised fine-tuning и RLHF из тех репорта ERNIE.
@data_analysis_ml
#ERNIE #Baidu
Многие аналитики годами остаются на одном уровне, хотя могли бы расти быстрее.
Проблема часто не в недостатке знаний, а в отсутствии системного понимания профессии. Без четкого представления о том, какие навыки действительно важны и как они сочетаются между собой, развитие становится хаотичным и неэффективным.
3 июля в 19:00 (мск) Анастасия Зеленова, team lead аналитики в Raiffeisen CIB, проведет вебинар, где разберет устройство профессии аналитика данных и расскажет какие инструменты и навыки нужны для работы.
Систематизируйте свои знания на бесплатном онлайн-вебинаре: https://clc.to/erid_2W5zFH7Rc9e
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFH7Rc9e
🔥 Дженсен Хуанг (CEO NVIDIA): «Я желаю вам боли и страданий»
Жёсткое, но честное заявление от главы одной из самых влиятельных технологических компаний мира:
> «Говорят: выбирай карьеру по страсти. И обычно люди связывают страсть с удовольствием. Это не ошибка… но это не всё. Потому что создать что-то великое — непросто. А когда делаешь что-то сложное, тебе не всегда приятно.»
🧠 Хуанг признаётся: он не любит каждый день своей работы и не всегда счастлив,
но *каждую секунду любит свою компанию*.
> «Многие думают, что лучшая работа — та, где ты всегда счастлив. Я так не считаю.
> Нужно страдать. Нужно бороться. Нужно преодолевать.
> Только так можно по-настоящему ценить то, что ты сделал.
> Нет ничего великого в легком.»
🎯 И добавляет:
> «Я желаю вам величия. А значит — желаю вам боли и страданий.»
Это не мотивация в розовых тонах. Это правда тех, кто строит настоящее.
Успех — не про постоянный комфорт, а про постоянное преодоление.
💬 А вы согласны с таким взглядом на дело жизни?
@data_analysis_ml
Самый надёжный способ стать аналитиком, которого берут в Авито, Яндекс и Альфу.
В этом канале мы много рассказываем об обучении аналитике. Хотим рассказать еще про одну хорошую школу.
Как заметили курс: стали часто встречаться ребята из Changellenge >> Education. По хардам ок, презентуют как взрослые. Разобрался, что они выпускаются из годовой программы переподготовки «Аналитик PRO».
Чем они сильнее большинства курсов и симуляторов:
— Школа специализируется только на аналитике, обучает студентов с 2018 года.
— Учитесь на живых бизнес-кейсах от компаний-партнеров: оптимизируете запасы ретейл-сети, считаете юнит-экономику маркетплейса, строите модель оттока банка.
— Софт-скиллы встроены: проекты защищаете в мини-командах, тренируясь говорить с продукт-диром на его языке, а не «RMSE снизил — пора на прод».
— После курса навсегда остаётесь в сообществе 1 000+ аналитиков: обмен джоб-офферами, экспертизой и ревью резюме нон-стоп.
В программе:
— гибкий график обучения на 12 месяцев
— Excel → SQL → Python → BI + финмодели
— 4 законченных кейса (Авито, РЖД, Т-банк, МТС)
— диплом гос.образца о профессиональной переподготовке
Длинный путь? Да. Но именно такие ребята проходят скрининги с первой попытки.
До 30 июня на курс “Аналитик PRO” действует скидка более 70 000 рублей — а по моему промокоду ПРОМОКОД вы получите индивидуальную карьерную консультацию в подарок.
Записывайтесь на курс и не сомневайтесь, станьте востребованным на рынке специалистом!
Реклама. ООО "Высшая школа аналитики и стратегии" ИНН 7716917009
🚨 Цукерберг переманил ещё 4 исследователей из OpenAI
По сообщениям, Meta усилила свою AI-команду, наняв сразу четырёх топовых специалистов из OpenAI:
• Shengjia Zhao
• Jiahui Yu
• Shuchao Bi
• Hongyu Ren
Все четверо работали над ключевыми направлениями reasoning, мультимодальности и архитектурой LLM.
💬 Zuck be like: *“If you can’t beat them — just buy their team.”*
Meta продолжает агрессивную AI-экспансию после неудачного старта Llama 4 и явно собирается реваншироваться.
📌 Подробности
#openai #ai #llm #zuckerberg #research #technews
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
