Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 559 Технологии и приложения2 679...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 150 подписчиков, занимая 2 679 место в категории Технологии и приложения и 12 559 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 150 подписчиков.

Согласно последним данным от 13 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -42, а за последние 24 часа — -11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.83%. В первые 24 часа после публикации контент обычно набирает 5.66% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 426 просмотров. В течение первых суток публикация набирает 2 839 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 15 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 150

Подписчики

-1124 часа

-597 дней

-4230 день

4 426

Просмотры поста

~ 2 83924 часа

~ 3 39048 часов

8.83%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 154

🔥 OpenAI объявила о перестройке команд ➡️ Команда Model Behavior (14 человек), которая занималась настройкой “личности” ChatGPT, снижением угодничества и проработкой политической предвзятости, теперь войдёт в состав более широкой Post-Training org. 👩‍💻 Её основатель, Джоанн Джанг, запускает новый экспериментальный проект OAI Labs, где будут тестировать свежие форматы взаимодействия человека и ИИ. ⚡ Перемены показывают: управление личностью модели становится ключевым направлением разработки. Это ответ OpenAI на жалобы пользователей на “холодные” ответы GPT-5 и продолжающиеся дискуссии о безопасности чатботов.

50 154

📊 Неожиданная статистика по ИИ-ассистентам Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно. Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office). Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе. ⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование. https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar #ai #copilot #gemini #claude

50 154

Эксперты на South Hub объявили о третьей революции знаний: после письменности и интернета — эра ИИ Специалисты, включая топ-менеджеров технологической платформы «Авито», убеждены: открытые языковые модели запустили новую «золотую лихорадку». Андрей Рыбинцев, управляющий директор по ИИ компании, отмечает: «Теперь каждый энтузиаст, исследователь в университете, стартап может экспериментировать с большими моделями». Одно из ключевых изменений — трансформация традиционных интерфейсов. Вместо схемы «запрос → изучение → клик» приходит естественный диалог: описал проблему — получил решение. Один ИИ-агент способен заменить тысячи узкоспециализированных приложений. “Конечно человек нужен ИИ, но нужен уже немножко в другом качестве – разработчик становится скорее системным архитектором. Больше руководит процессом как дирижер оркестра из многочисленных ИИ-помощников”, — отметил Олег Королев, руководитель разработки AI Lab Авито. Исчез технологический скептицизм. Даже консервативные эксперты говорят о революции с горящими глазами. Темп изменений таков, что прогнозы на 2-3 года уже кажутся наивными. Единственная уверенность — наши представления о будущем кардинально изменятся. Смотреть: Youtube | VK-видео | Rutube | Аудиоверсия Подпишитесь на полезные каналы Авито

50 154

🧩 Как GPT модели менялись от GPT-2 до gpt-oss Себастьян Рашка написал статью о том, какие архитектурные фишки появились в новых open-weight моделях OpenAI — gpt-oss. 📌 Что изменилось: • Добавили Mixture-of-Experts — модель выбирает только часть экспертов, что даёт больше мощности без взрыва по параметрам. • Ввели Grouped Query Attention — ускоряет работу с большими контекстами. • Появились sliding-window слои — можно обрабатывать длинные тексты эффективнее. • gpt-oss оптимизировали под reasoning, работу с инструментами и агентов. ✏️ Автор сравнивает gpt-oss с Qwen3 и другими моделями, показывая, как эволюция архитектуры влияет на скорость и качество. 👉 Полный разбор тут: https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the

50 154

📄 FinePDFs — крупнейший публично доступный корпус, собранный только из PDF-документов! - Объём: около 3 трлн токенов из 475 миллионов документов на 1733 языках - Данные извлечены из 105 снимков CommonCrawl (с 2013 по 2025 гг.) и дополнительно скачаны из интернета - Общий размер: ~20 ТБ, проведена дедупликация и фильтрация - Даже при минимальной фильтрации качество FinePDFs сравнимо с лучшими HTML-корпусами - При смешивании с веб-данными достигается новое SoTA по ряду бенчмарков - Полностью воспроизводим, лицензия ODC-By 1.0 - В ближайшее время появится код воспроизведения и эксперименты на GitHub 🔗 HF: https://huggingface.co/datasets/HuggingFaceFW/finepdfs @data_analysis_ml

50 154

🧩 ArcMemo — память для LLM, которая учит модель сохранять и переиспользовать концепты при решении задач. 📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI. ❓ Проблема: Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны. 💡 Решение — ArcMemo: - Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций. - Концепты бывают двух типов: - Открытые: описание ситуации + подсказка. - Программные: псевдокод и функции с параметрами. - После решения задача конспектируется в набор таких концептов. - При новой задаче модель подбирает релевантные концепты и комбинирует их для решения. - С обратной связью на тестах память обновляется и расширяется. 📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными. 🔗 Paper: arxiv.org/abs/2509.04439 #AI #LLM #ARCAGI #Reasoning #Memory

50 154

⚡️ Важные выводы из судебного дела, где Anthropic согласилась выплатить минимум $1,5 млрд авторам и издателям: - Не всё обучение на книгах незаконно. Проблема только в использовании пиратских копий из LibGen и PiLiMi. - Это будет самая крупная компенсация по авторскому праву в истории. - Авторы получат примерно $3,000 за каждую книгу (около 500,000 произведений). - Anthropic обязана в течение 30 дней после финального решения суда удалить все файлы LibGen и PiLiMi и их копии. - Деньги будут делиться между авторами и издателями по заявкам. - Суд уточнил: обучение на купленных и отсканированных книгах может считаться «fair use», но на пиратских книгах — нет. ⚖️ Решение задаёт новый прецедент для всей индустрии AI. deadline.com/wp-content/uploads/2025/09/anthropic3_Redacted.pdf

50 154

🔥 Успех в IT = скорость + знания + окружение Здесь ты найдёшь всё это — коротко, по делу и без воды. Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты! AI: t.me/ai_machinelearning_big_data Python: t.me/pythonl Linux: t.me/linuxacademiya Собеседования DS: t.me/machinelearning_interview C++ t.me/cpluspluc Docker: t.me/DevopsDocker Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec Data Science: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_1001_notes Java: t.me/java_library Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev Haskell: t.me/haskell_tg Физика: t.me/fizmat 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

50 154

Знали ли вы, что у SQLite есть векторное расширение? 🧮 SQLite — самая используемая база данных в мире, работает практически на любом устройстве. Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета. Ниже — простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript… 🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py 🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/ 🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/ @data_analysis_ml

50 154

⚠️ У офиса Anthropic проходит необычная акция протеста: ряд активистов объявили голодовку. Протестующие утверждают, что гонка за всё более мощным искусственным интеллектом уже наносит вред обществу и может привести к катастрофическим последствиям. По их словам, разработка AGI несёт угрозу не только благополучию людей, но и самому существованию человечества. Активисты требуют от Anthropic и других компаний: • остановить «гонку вооружений» в области ИИ, • признать риски и рассказать обществу о них, • сосредоточиться на снижении уже нанесённого вреда. 📌 Пост активиста

50 154

Kimi K2-0905 получил обновление 🚀 • Прокачанные возможности для кода, особенно фронтенд и tool-calling • Контекст расширен до 256k токенов • Улучшена интеграция с разными агентными фреймворками (Claude Code, Roo Code и др.) 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905 💬 Попробовать: https://kimi.com ⚡️ Для 60–100 TPS + 100% точности tool-call пробуйте turbo API: https://platform.moonshot.ai @data_analysis_ml

50 154

🤖 Parlant — простой фреймворк для разработки LLM-агентов Parlant помогает задавать агенту чёткое поведение: сценарии шагов (Journeys), правила тона и политики, подключение инструментов (API, БД, поиски), готовые ответы и объяснимость действий.


pip install parlant

Github: https://github.com/emcie-co/parlant

50 154

🛠️ ChatMock: API для OpenAI с использованием вашего ChatGPT аккаунта ChatMock создает локальный сервер, который позволяет взаимодействовать с моделями OpenAI через ваш аккаунт ChatGPT Plus/Pro. Это решение не требует API ключа и поддерживает работу с GPT-5 и другими моделями, обеспечивая гибкость в использовании. 🚀 Основные моменты: - Локальный сервер для OpenAI/Ollama API. - Использует ваш ChatGPT аккаунт для аутентификации. - Поддержка моделей GPT-5 и Codex. - Настраиваемые параметры для "умственного усилия" и "резюме мышления". - Необходима платная подписка на ChatGPT. 📌 GitHub: https://github.com/RayBytes/ChatMock

50 154

Что делать с тонной архивов о природе, накопленных за 50+ лет? Довериться ИИ! Эксперты ВТБ, Высшая школа менеджмента СПбГУ и АНО «Дальневосточные леопарды» создали настоящего ИИ-учёного с функционалом для обработки и систематизации данных. Новая разработка создана для национального парка «Земля леопарда». Работы много — он автоматически обрабатывает и безопасно хранит для исследователей, рассказала Ольга Дергунова, руководитель «ВТБ Образование» в рамках ВЭФ-2025. А в будущем планируется пойти ещё дальше — добавить распознавание аудиозаписей, обработку снимков с фотоловушек, возможность для посетителей заповедников загружать свои фото для научных и образовательных целей. ИИ-инструмент может быть масштабирован на другие заповедные территории России.

50 154

🧠 Как уменьшить галлюцинации в мультимодальных ИИ без экспертов и с минимальными данными Новая работа про метод TARS показывает: всего 4.8k примеров предпочтений (без аннотаторов и экспертов) достаточно, чтобы: 🔻 снизить галлюцинации: с 26.4% до 13.2% 🔻 сократить когнитивную “пустоту” ответа: с 2.5 до 0.4 📊 и даже догнать GPT‑4o по нескольким метрикам 💡 В чём суть: - Большинство моделей цепляются за “частые фразы” и забывают смотреть на изображение - TARS превращает обучение в игру в перетягивание каната: - внутренняя фаза перетасовывает незначимые слова (предлоги, вводные) - внешняя — учит модель сохранять “человеческий ответ”, несмотря на шум - Только слова с почти нулевой связью с изображением редактируются — зрительная опора не теряется - Дополнительно: loss на частотных шаблонах помогает модели не залипать в запомненных фразах 📈 Результат: - +8 пунктов к охвату объектов на изображениях - когнитивная согласованность резко растёт - метод масштабируется от 7B до 13B без доп. данных 🎯 Главный вывод: Модель учится доверять картинке, а не языковым штампам. 📄 Статья: https://arxiv.org/abs/2507.21584

50 154

🤝 OpenAI покупает стартап Statsig за $1.1 млрд 📌 Что делает Statsig: Инструменты для A/B-тестов и аналитики → можно сравнивать версии продукта, смотреть поведение пользователей и быстро выкатывать/откатывать изменения. ⚡ Зачем OpenAI: Теперь они смогут тестировать LLM-фичи (промпты, фильтры, задержки, цену) на реальных данных и управлять обновлениями автоматически. 👥 Основатель Виджай Раджи станет CTO приложений в OpenAI. 💰 Контекст: - Это одна из крупнейших покупок компании - В 2025 OpenAI уже привлекла $40 млрд и обсуждает новую сделку, которая может поднять оценку до $500 млрд - Ранее купили AI-стартап Джони Айва ($6.5 млрд), но сделка с Windsurf ($3 млрд) сорвалась 🔗 theverge.com/openai/769325/openai-statsig-acquisition-executive-moves

50 154

🧠 Новый шаг к мозгу на чипе Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга. ⚡ В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это. 💡 Но на дальние расстояния куда эффективнее работает свет. 🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв: — каждый импульс несёт электрический сигнал для локальной обработки — и синхронный световой импульс, который может передаваться дальше Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно. 💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов. Источник: techxplore.com/news/2025-08-scientists-private-ai.html #AI #Neuroscience #Innovation #Neuromorphic

50 154

Модели с контекстным окном в 1 миллион токенов после 200 тыс. токенов @data_analysis_ml

50 154

🗣 TaDiCodec — новый токенайзер речи, который умеет экстремально сжимать звук без потери качества. Что в нём особенного: - ⚙️ Метод Binary Spherical Quantization (BSQ) — никакого «развала» кодбука - 🎯 Латенты превращаются в дискретные токены через простую бинаризацию - 📦 Кодбук на 16,384 токена - 📉 Супернизкий битрейт: 0.0875 kbps при 24 kHz - 🌀 Архитектура на diffusion autoencoder — без GAN’ов и сложных костылей 👉 TaDiCodec показывает: можно сжимать аудио в десятки тысяч раз и всё равно сохранять качество речи. 🟠HF: https://huggingface.co/amphion/TaDiCodec 🟠Github: https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer @data_analysis_ml