Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 150 名订阅者,在 技术与应用 类别中位列第 2 679,并在 俄罗斯 地区排名第 12 559 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 150 名订阅者。
根据 13 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -42,过去 24 小时变化为 -11,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.83%。内容发布后 24 小时内通常能获得 5.66% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 426 次浏览,首日通常累积 2 839 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 15 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 150
订阅者
-1124 小时
-597 天
-4230 天
帖子存档
+1
🔥 OpenAI объявила о перестройке команд
➡️ Команда Model Behavior (14 человек), которая занималась настройкой “личности” ChatGPT, снижением угодничества и проработкой политической предвзятости, теперь войдёт в состав более широкой Post-Training org.
👩💻 Её основатель, Джоанн Джанг, запускает новый экспериментальный проект OAI Labs, где будут тестировать свежие форматы взаимодействия человека и ИИ.
⚡ Перемены показывают: управление личностью модели становится ключевым направлением разработки. Это ответ OpenAI на жалобы пользователей на “холодные” ответы GPT-5 и продолжающиеся дискуссии о безопасности чатботов.
📊 Неожиданная статистика по ИИ-ассистентам
Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно.
Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office).
Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе.
⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование.
https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar
#ai #copilot #gemini #claude
📊 Неожиданная статистика по ИИ-ассистентам
Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно.
Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office).
Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе.
⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование.
https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar
#ai #copilot #gemini #claude
Эксперты на South Hub объявили о третьей революции знаний: после письменности и интернета — эра ИИ
Специалисты, включая топ-менеджеров технологической платформы «Авито», убеждены: открытые языковые модели запустили новую «золотую лихорадку». Андрей Рыбинцев, управляющий директор по ИИ компании, отмечает: «Теперь каждый энтузиаст, исследователь в университете, стартап может экспериментировать с большими моделями».
Одно из ключевых изменений — трансформация традиционных интерфейсов. Вместо схемы «запрос → изучение → клик» приходит естественный диалог: описал проблему — получил решение. Один ИИ-агент способен заменить тысячи узкоспециализированных приложений.
“Конечно человек нужен ИИ, но нужен уже немножко в другом качестве – разработчик становится скорее системным архитектором. Больше руководит процессом как дирижер оркестра из многочисленных ИИ-помощников”, — отметил Олег Королев, руководитель разработки AI Lab Авито.
Исчез технологический скептицизм. Даже консервативные эксперты говорят о революции с горящими глазами. Темп изменений таков, что прогнозы на 2-3 года уже кажутся наивными. Единственная уверенность — наши представления о будущем кардинально изменятся.
Смотреть: Youtube | VK-видео | Rutube | Аудиоверсия
Подпишитесь на полезные каналы Авито
+3
🧩 Как GPT модели менялись от GPT-2 до gpt-oss
Себастьян Рашка написал статью о том, какие архитектурные фишки появились в новых open-weight моделях OpenAI — gpt-oss.
📌 Что изменилось:
• Добавили Mixture-of-Experts — модель выбирает только часть экспертов, что даёт больше мощности без взрыва по параметрам.
• Ввели Grouped Query Attention — ускоряет работу с большими контекстами.
• Появились sliding-window слои — можно обрабатывать длинные тексты эффективнее.
• gpt-oss оптимизировали под reasoning, работу с инструментами и агентов.
✏️ Автор сравнивает gpt-oss с Qwen3 и другими моделями, показывая, как эволюция архитектуры влияет на скорость и качество.
👉 Полный разбор тут: https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
+2
📄 FinePDFs — крупнейший публично доступный корпус, собранный только из PDF-документов!
- Объём: около 3 трлн токенов из 475 миллионов документов на 1733 языках
- Данные извлечены из 105 снимков CommonCrawl (с 2013 по 2025 гг.) и дополнительно скачаны из интернета
- Общий размер: ~20 ТБ, проведена дедупликация и фильтрация
- Даже при минимальной фильтрации качество FinePDFs сравнимо с лучшими HTML-корпусами
- При смешивании с веб-данными достигается новое SoTA по ряду бенчмарков
- Полностью воспроизводим, лицензия ODC-By 1.0
- В ближайшее время появится код воспроизведения и эксперименты на GitHub
🔗 HF: https://huggingface.co/datasets/HuggingFaceFW/finepdfs
@data_analysis_ml
🧩 ArcMemo — память для LLM, которая учит модель сохранять и переиспользовать концепты при решении задач.
📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI.
❓ Проблема:
Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны.
💡 Решение — ArcMemo:
- Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций.
- Концепты бывают двух типов:
- Открытые: описание ситуации + подсказка.
- Программные: псевдокод и функции с параметрами.
- После решения задача конспектируется в набор таких концептов.
- При новой задаче модель подбирает релевантные концепты и комбинирует их для решения.
- С обратной связью на тестах память обновляется и расширяется.
📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными.
🔗 Paper: arxiv.org/abs/2509.04439
#AI #LLM #ARCAGI #Reasoning #Memory
+1
⚡️ Важные выводы из судебного дела, где Anthropic согласилась выплатить минимум $1,5 млрд авторам и издателям:
- Не всё обучение на книгах незаконно. Проблема только в использовании пиратских копий из LibGen и PiLiMi.
- Это будет самая крупная компенсация по авторскому праву в истории.
- Авторы получат примерно $3,000 за каждую книгу (около 500,000 произведений).
- Anthropic обязана в течение 30 дней после финального решения суда удалить все файлы LibGen и PiLiMi и их копии.
- Деньги будут делиться между авторами и издателями по заявкам.
- Суд уточнил: обучение на купленных и отсканированных книгах может считаться «fair use», но на пиратских книгах — нет.
⚖️ Решение задаёт новый прецедент для всей индустрии AI.
deadline.com/wp-content/uploads/2025/09/anthropic3_Redacted.pdf
🔥 Успех в IT = скорость + знания + окружение
Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Собеседования DS: t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_1001_notes
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
Знали ли вы, что у SQLite есть векторное расширение? 🧮
SQLite — самая используемая база данных в мире, работает практически на любом устройстве.
Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета.
Ниже — простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript…
🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py
🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/
🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/
@data_analysis_ml
+2
⚠️ У офиса Anthropic проходит необычная акция протеста: ряд активистов объявили голодовку.
Протестующие утверждают, что гонка за всё более мощным искусственным интеллектом уже наносит вред обществу и может привести к катастрофическим последствиям.
По их словам, разработка AGI несёт угрозу не только благополучию людей, но и самому существованию человечества.
Активисты требуют от Anthropic и других компаний:
• остановить «гонку вооружений» в области ИИ,
• признать риски и рассказать обществу о них,
• сосредоточиться на снижении уже нанесённого вреда.
📌 Пост активиста
Kimi K2-0905 получил обновление 🚀
• Прокачанные возможности для кода, особенно фронтенд и tool-calling
• Контекст расширен до 256k токенов
• Улучшена интеграция с разными агентными фреймворками (Claude Code, Roo Code и др.)
🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
💬 Попробовать: https://kimi.com
⚡️ Для 60–100 TPS + 100% точности tool-call пробуйте turbo API: https://platform.moonshot.ai
@data_analysis_ml
🤖 Parlant — простой фреймворк для разработки LLM-агентов
Parlant помогает задавать агенту чёткое поведение: сценарии шагов (Journeys), правила тона и политики, подключение инструментов (API, БД, поиски), готовые ответы и объяснимость действий.
pip install parlant
Github: https://github.com/emcie-co/parlant🛠️ ChatMock: API для OpenAI с использованием вашего ChatGPT аккаунта
ChatMock создает локальный сервер, который позволяет взаимодействовать с моделями OpenAI через ваш аккаунт ChatGPT Plus/Pro. Это решение не требует API ключа и поддерживает работу с GPT-5 и другими моделями, обеспечивая гибкость в использовании.
🚀 Основные моменты:
- Локальный сервер для OpenAI/Ollama API.
- Использует ваш ChatGPT аккаунт для аутентификации.
- Поддержка моделей GPT-5 и Codex.
- Настраиваемые параметры для "умственного усилия" и "резюме мышления".
- Необходима платная подписка на ChatGPT.
📌 GitHub: https://github.com/RayBytes/ChatMock
Что делать с тонной архивов о природе, накопленных за 50+ лет? Довериться ИИ!
Эксперты ВТБ, Высшая школа менеджмента СПбГУ и АНО «Дальневосточные леопарды» создали настоящего ИИ-учёного с функционалом для обработки и систематизации данных.
Новая разработка создана для национального парка «Земля леопарда». Работы много — он автоматически обрабатывает и безопасно хранит для исследователей, рассказала Ольга Дергунова, руководитель «ВТБ Образование» в рамках ВЭФ-2025.
А в будущем планируется пойти ещё дальше — добавить распознавание аудиозаписей, обработку снимков с фотоловушек, возможность для посетителей заповедников загружать свои фото для научных и образовательных целей. ИИ-инструмент может быть масштабирован на другие заповедные территории России.
🧠 Как уменьшить галлюцинации в мультимодальных ИИ без экспертов и с минимальными данными
Новая работа про метод TARS показывает:
всего 4.8k примеров предпочтений (без аннотаторов и экспертов) достаточно, чтобы:
🔻 снизить галлюцинации: с 26.4% до 13.2%
🔻 сократить когнитивную “пустоту” ответа: с 2.5 до 0.4
📊 и даже догнать GPT‑4o по нескольким метрикам
💡 В чём суть:
- Большинство моделей цепляются за “частые фразы” и забывают смотреть на изображение
- TARS превращает обучение в игру в перетягивание каната:
- внутренняя фаза перетасовывает незначимые слова (предлоги, вводные)
- внешняя — учит модель сохранять “человеческий ответ”, несмотря на шум
- Только слова с почти нулевой связью с изображением редактируются — зрительная опора не теряется
- Дополнительно: loss на частотных шаблонах помогает модели не залипать в запомненных фразах
📈 Результат:
- +8 пунктов к охвату объектов на изображениях
- когнитивная согласованность резко растёт
- метод масштабируется от 7B до 13B без доп. данных
🎯 Главный вывод:
Модель учится доверять картинке, а не языковым штампам.
📄 Статья: https://arxiv.org/abs/2507.21584
🤝 OpenAI покупает стартап Statsig за $1.1 млрд
📌 Что делает Statsig:
Инструменты для A/B-тестов и аналитики → можно сравнивать версии продукта, смотреть поведение пользователей и быстро выкатывать/откатывать изменения.
⚡ Зачем OpenAI:
Теперь они смогут тестировать LLM-фичи (промпты, фильтры, задержки, цену) на реальных данных и управлять обновлениями автоматически.
👥 Основатель Виджай Раджи станет CTO приложений в OpenAI.
💰 Контекст:
- Это одна из крупнейших покупок компании
- В 2025 OpenAI уже привлекла $40 млрд и обсуждает новую сделку, которая может поднять оценку до $500 млрд
- Ранее купили AI-стартап Джони Айва ($6.5 млрд), но сделка с Windsurf ($3 млрд) сорвалась
🔗 theverge.com/openai/769325/openai-statsig-acquisition-executive-moves
🧠 Новый шаг к мозгу на чипе
Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга.
⚡ В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это.
💡 Но на дальние расстояния куда эффективнее работает свет.
🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв:
— каждый импульс несёт электрический сигнал для локальной обработки
— и синхронный световой импульс, который может передаваться дальше
Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно.
💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов.
Источник: techxplore.com/news/2025-08-scientists-private-ai.html
#AI #Neuroscience #Innovation #Neuromorphic
Модели с контекстным окном в 1 миллион токенов после 200 тыс. токенов
@data_analysis_ml
🗣 TaDiCodec — новый токенайзер речи, который умеет экстремально сжимать звук без потери качества.
Что в нём особенного:
- ⚙️ Метод Binary Spherical Quantization (BSQ) — никакого «развала» кодбука
- 🎯 Латенты превращаются в дискретные токены через простую бинаризацию
- 📦 Кодбук на 16,384 токена
- 📉 Супернизкий битрейт: 0.0875 kbps при 24 kHz
- 🌀 Архитектура на diffusion autoencoder — без GAN’ов и сложных костылей
👉 TaDiCodec показывает: можно сжимать аудио в десятки тысяч раз и всё равно сохранять качество речи.
🟠HF: https://huggingface.co/amphion/TaDiCodec
🟠Github: https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
