Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 559 技术与应用2 679...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 150 名订阅者，在 技术与应用 类别中位列第 2 679，并在 俄罗斯 地区排名第 12 559 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 150 名订阅者。

根据 13 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -42，过去 24 小时变化为 -11，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.83%。内容发布后 24 小时内通常能获得 5.66% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 426 次浏览，首日通常累积 2 839 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 15 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 150

订阅者

-1124 小时

-597 天

-4230 天

4 426

帖子浏览量

~ 2 83924 小时

~ 3 39048 小时

8.83%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 154

🔥 OpenAI объявила о перестройке команд ➡️ Команда Model Behavior (14 человек), которая занималась настройкой “личности” ChatGPT, снижением угодничества и проработкой политической предвзятости, теперь войдёт в состав более широкой Post-Training org. 👩‍💻 Её основатель, Джоанн Джанг, запускает новый экспериментальный проект OAI Labs, где будут тестировать свежие форматы взаимодействия человека и ИИ. ⚡ Перемены показывают: управление личностью модели становится ключевым направлением разработки. Это ответ OpenAI на жалобы пользователей на “холодные” ответы GPT-5 и продолжающиеся дискуссии о безопасности чатботов.

50 154

📊 Неожиданная статистика по ИИ-ассистентам Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно. Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office). Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе. ⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование. https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar #ai #copilot #gemini #claude

50 154

Эксперты на South Hub объявили о третьей революции знаний: после письменности и интернета — эра ИИ Специалисты, включая топ-менеджеров технологической платформы «Авито», убеждены: открытые языковые модели запустили новую «золотую лихорадку». Андрей Рыбинцев, управляющий директор по ИИ компании, отмечает: «Теперь каждый энтузиаст, исследователь в университете, стартап может экспериментировать с большими моделями». Одно из ключевых изменений — трансформация традиционных интерфейсов. Вместо схемы «запрос → изучение → клик» приходит естественный диалог: описал проблему — получил решение. Один ИИ-агент способен заменить тысячи узкоспециализированных приложений. “Конечно человек нужен ИИ, но нужен уже немножко в другом качестве – разработчик становится скорее системным архитектором. Больше руководит процессом как дирижер оркестра из многочисленных ИИ-помощников”, — отметил Олег Королев, руководитель разработки AI Lab Авито. Исчез технологический скептицизм. Даже консервативные эксперты говорят о революции с горящими глазами. Темп изменений таков, что прогнозы на 2-3 года уже кажутся наивными. Единственная уверенность — наши представления о будущем кардинально изменятся. Смотреть: Youtube | VK-видео | Rutube | Аудиоверсия Подпишитесь на полезные каналы Авито

50 154

🧩 Как GPT модели менялись от GPT-2 до gpt-oss Себастьян Рашка написал статью о том, какие архитектурные фишки появились в новых open-weight моделях OpenAI — gpt-oss. 📌 Что изменилось: • Добавили Mixture-of-Experts — модель выбирает только часть экспертов, что даёт больше мощности без взрыва по параметрам. • Ввели Grouped Query Attention — ускоряет работу с большими контекстами. • Появились sliding-window слои — можно обрабатывать длинные тексты эффективнее. • gpt-oss оптимизировали под reasoning, работу с инструментами и агентов. ✏️ Автор сравнивает gpt-oss с Qwen3 и другими моделями, показывая, как эволюция архитектуры влияет на скорость и качество. 👉 Полный разбор тут: https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the

50 154

📄 FinePDFs — крупнейший публично доступный корпус, собранный только из PDF-документов! - Объём: около 3 трлн токенов из 475 миллионов документов на 1733 языках - Данные извлечены из 105 снимков CommonCrawl (с 2013 по 2025 гг.) и дополнительно скачаны из интернета - Общий размер: ~20 ТБ, проведена дедупликация и фильтрация - Даже при минимальной фильтрации качество FinePDFs сравнимо с лучшими HTML-корпусами - При смешивании с веб-данными достигается новое SoTA по ряду бенчмарков - Полностью воспроизводим, лицензия ODC-By 1.0 - В ближайшее время появится код воспроизведения и эксперименты на GitHub 🔗 HF: https://huggingface.co/datasets/HuggingFaceFW/finepdfs @data_analysis_ml

50 154

🧩 ArcMemo — память для LLM, которая учит модель сохранять и переиспользовать концепты при решении задач. 📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI. ❓ Проблема: Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны. 💡 Решение — ArcMemo: - Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций. - Концепты бывают двух типов: - Открытые: описание ситуации + подсказка. - Программные: псевдокод и функции с параметрами. - После решения задача конспектируется в набор таких концептов. - При новой задаче модель подбирает релевантные концепты и комбинирует их для решения. - С обратной связью на тестах память обновляется и расширяется. 📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными. 🔗 Paper: arxiv.org/abs/2509.04439 #AI #LLM #ARCAGI #Reasoning #Memory

50 154

⚡️ Важные выводы из судебного дела, где Anthropic согласилась выплатить минимум $1,5 млрд авторам и издателям: - Не всё обучение на книгах незаконно. Проблема только в использовании пиратских копий из LibGen и PiLiMi. - Это будет самая крупная компенсация по авторскому праву в истории. - Авторы получат примерно $3,000 за каждую книгу (около 500,000 произведений). - Anthropic обязана в течение 30 дней после финального решения суда удалить все файлы LibGen и PiLiMi и их копии. - Деньги будут делиться между авторами и издателями по заявкам. - Суд уточнил: обучение на купленных и отсканированных книгах может считаться «fair use», но на пиратских книгах — нет. ⚖️ Решение задаёт новый прецедент для всей индустрии AI. deadline.com/wp-content/uploads/2025/09/anthropic3_Redacted.pdf

50 154

🔥 Успех в IT = скорость + знания + окружение Здесь ты найдёшь всё это — коротко, по делу и без воды. Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты! AI: t.me/ai_machinelearning_big_data Python: t.me/pythonl Linux: t.me/linuxacademiya Собеседования DS: t.me/machinelearning_interview C++ t.me/cpluspluc Docker: t.me/DevopsDocker Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec Data Science: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_1001_notes Java: t.me/java_library Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev Haskell: t.me/haskell_tg Физика: t.me/fizmat 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

50 154

Знали ли вы, что у SQLite есть векторное расширение? 🧮 SQLite — самая используемая база данных в мире, работает практически на любом устройстве. Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета. Ниже — простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript… 🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py 🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/ 🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/ @data_analysis_ml

50 154

⚠️ У офиса Anthropic проходит необычная акция протеста: ряд активистов объявили голодовку. Протестующие утверждают, что гонка за всё более мощным искусственным интеллектом уже наносит вред обществу и может привести к катастрофическим последствиям. По их словам, разработка AGI несёт угрозу не только благополучию людей, но и самому существованию человечества. Активисты требуют от Anthropic и других компаний: • остановить «гонку вооружений» в области ИИ, • признать риски и рассказать обществу о них, • сосредоточиться на снижении уже нанесённого вреда. 📌 Пост активиста

50 154

Kimi K2-0905 получил обновление 🚀 • Прокачанные возможности для кода, особенно фронтенд и tool-calling • Контекст расширен до 256k токенов • Улучшена интеграция с разными агентными фреймворками (Claude Code, Roo Code и др.) 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905 💬 Попробовать: https://kimi.com ⚡️ Для 60–100 TPS + 100% точности tool-call пробуйте turbo API: https://platform.moonshot.ai @data_analysis_ml

50 154

🤖 Parlant — простой фреймворк для разработки LLM-агентов Parlant помогает задавать агенту чёткое поведение: сценарии шагов (Journeys), правила тона и политики, подключение инструментов (API, БД, поиски), готовые ответы и объяснимость действий.


pip install parlant

Github: https://github.com/emcie-co/parlant

50 154

🛠️ ChatMock: API для OpenAI с использованием вашего ChatGPT аккаунта ChatMock создает локальный сервер, который позволяет взаимодействовать с моделями OpenAI через ваш аккаунт ChatGPT Plus/Pro. Это решение не требует API ключа и поддерживает работу с GPT-5 и другими моделями, обеспечивая гибкость в использовании. 🚀 Основные моменты: - Локальный сервер для OpenAI/Ollama API. - Использует ваш ChatGPT аккаунт для аутентификации. - Поддержка моделей GPT-5 и Codex. - Настраиваемые параметры для "умственного усилия" и "резюме мышления". - Необходима платная подписка на ChatGPT. 📌 GitHub: https://github.com/RayBytes/ChatMock

50 154

Что делать с тонной архивов о природе, накопленных за 50+ лет? Довериться ИИ! Эксперты ВТБ, Высшая школа менеджмента СПбГУ и АНО «Дальневосточные леопарды» создали настоящего ИИ-учёного с функционалом для обработки и систематизации данных. Новая разработка создана для национального парка «Земля леопарда». Работы много — он автоматически обрабатывает и безопасно хранит для исследователей, рассказала Ольга Дергунова, руководитель «ВТБ Образование» в рамках ВЭФ-2025. А в будущем планируется пойти ещё дальше — добавить распознавание аудиозаписей, обработку снимков с фотоловушек, возможность для посетителей заповедников загружать свои фото для научных и образовательных целей. ИИ-инструмент может быть масштабирован на другие заповедные территории России.

50 154

🧠 Как уменьшить галлюцинации в мультимодальных ИИ без экспертов и с минимальными данными Новая работа про метод TARS показывает: всего 4.8k примеров предпочтений (без аннотаторов и экспертов) достаточно, чтобы: 🔻 снизить галлюцинации: с 26.4% до 13.2% 🔻 сократить когнитивную “пустоту” ответа: с 2.5 до 0.4 📊 и даже догнать GPT‑4o по нескольким метрикам 💡 В чём суть: - Большинство моделей цепляются за “частые фразы” и забывают смотреть на изображение - TARS превращает обучение в игру в перетягивание каната: - внутренняя фаза перетасовывает незначимые слова (предлоги, вводные) - внешняя — учит модель сохранять “человеческий ответ”, несмотря на шум - Только слова с почти нулевой связью с изображением редактируются — зрительная опора не теряется - Дополнительно: loss на частотных шаблонах помогает модели не залипать в запомненных фразах 📈 Результат: - +8 пунктов к охвату объектов на изображениях - когнитивная согласованность резко растёт - метод масштабируется от 7B до 13B без доп. данных 🎯 Главный вывод: Модель учится доверять картинке, а не языковым штампам. 📄 Статья: https://arxiv.org/abs/2507.21584

50 154

🤝 OpenAI покупает стартап Statsig за $1.1 млрд 📌 Что делает Statsig: Инструменты для A/B-тестов и аналитики → можно сравнивать версии продукта, смотреть поведение пользователей и быстро выкатывать/откатывать изменения. ⚡ Зачем OpenAI: Теперь они смогут тестировать LLM-фичи (промпты, фильтры, задержки, цену) на реальных данных и управлять обновлениями автоматически. 👥 Основатель Виджай Раджи станет CTO приложений в OpenAI. 💰 Контекст: - Это одна из крупнейших покупок компании - В 2025 OpenAI уже привлекла $40 млрд и обсуждает новую сделку, которая может поднять оценку до $500 млрд - Ранее купили AI-стартап Джони Айва ($6.5 млрд), но сделка с Windsurf ($3 млрд) сорвалась 🔗 theverge.com/openai/769325/openai-statsig-acquisition-executive-moves

50 154

🧠 Новый шаг к мозгу на чипе Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга. ⚡ В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это. 💡 Но на дальние расстояния куда эффективнее работает свет. 🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв: — каждый импульс несёт электрический сигнал для локальной обработки — и синхронный световой импульс, который может передаваться дальше Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно. 💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов. Источник: techxplore.com/news/2025-08-scientists-private-ai.html #AI #Neuroscience #Innovation #Neuromorphic

50 154

Модели с контекстным окном в 1 миллион токенов после 200 тыс. токенов @data_analysis_ml

50 154

🗣 TaDiCodec — новый токенайзер речи, который умеет экстремально сжимать звук без потери качества. Что в нём особенного: - ⚙️ Метод Binary Spherical Quantization (BSQ) — никакого «развала» кодбука - 🎯 Латенты превращаются в дискретные токены через простую бинаризацию - 📦 Кодбук на 16,384 токена - 📉 Супернизкий битрейт: 0.0875 kbps при 24 kHz - 🌀 Архитектура на diffusion autoencoder — без GAN’ов и сложных костылей 👉 TaDiCodec показывает: можно сжимать аудио в десятки тысяч раз и всё равно сохранять качество речи. 🟠HF: https://huggingface.co/amphion/TaDiCodec 🟠Github: https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer @data_analysis_ml