Анализ данных (Data analysis)

Ir al canal en Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Red:Machinelearning Rusia12 559 Tecnologías y Aplicaciones2 679...

📈 Análisis del canal de Telegram Анализ данных (Data analysis)

El canal Анализ данных (Data analysis) (@data_analysis_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 50 152 suscriptores, ocupando la posición 2 679 en la categoría Tecnologías y Aplicaciones y el puesto 12 559 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 50 152 suscriptores.

Según los últimos datos del 13 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -42, y en las últimas 24 horas de -11, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.83%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.66% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 4 426 visualizaciones. En el primer día suele acumular 2 839 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 30.
Intereses temáticos: El contenido se centra en temas clave como llm, контекст, openai, архитектура, deepseek.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 14 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

50 152

Suscriptores

-1124 horas

-597 días

-4230 días

4 426

Visitas de la publicación

~ 2 83924 horas

~ 3 39048 horas

8.83%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

50 154

🔥 OpenAI объявила о перестройке команд ➡️ Команда Model Behavior (14 человек), которая занималась настройкой “личности” ChatGPT, снижением угодничества и проработкой политической предвзятости, теперь войдёт в состав более широкой Post-Training org. 👩‍💻 Её основатель, Джоанн Джанг, запускает новый экспериментальный проект OAI Labs, где будут тестировать свежие форматы взаимодействия человека и ИИ. ⚡ Перемены показывают: управление личностью модели становится ключевым направлением разработки. Это ответ OpenAI на жалобы пользователей на “холодные” ответы GPT-5 и продолжающиеся дискуссии о безопасности чатботов.

50 154

📊 Неожиданная статистика по ИИ-ассистентам Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно. Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office). Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе. ⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование. https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar #ai #copilot #gemini #claude

50 154

Эксперты на South Hub объявили о третьей революции знаний: после письменности и интернета — эра ИИ Специалисты, включая топ-менеджеров технологической платформы «Авито», убеждены: открытые языковые модели запустили новую «золотую лихорадку». Андрей Рыбинцев, управляющий директор по ИИ компании, отмечает: «Теперь каждый энтузиаст, исследователь в университете, стартап может экспериментировать с большими моделями». Одно из ключевых изменений — трансформация традиционных интерфейсов. Вместо схемы «запрос → изучение → клик» приходит естественный диалог: описал проблему — получил решение. Один ИИ-агент способен заменить тысячи узкоспециализированных приложений. “Конечно человек нужен ИИ, но нужен уже немножко в другом качестве – разработчик становится скорее системным архитектором. Больше руководит процессом как дирижер оркестра из многочисленных ИИ-помощников”, — отметил Олег Королев, руководитель разработки AI Lab Авито. Исчез технологический скептицизм. Даже консервативные эксперты говорят о революции с горящими глазами. Темп изменений таков, что прогнозы на 2-3 года уже кажутся наивными. Единственная уверенность — наши представления о будущем кардинально изменятся. Смотреть: Youtube | VK-видео | Rutube | Аудиоверсия Подпишитесь на полезные каналы Авито

50 154

🧩 Как GPT модели менялись от GPT-2 до gpt-oss Себастьян Рашка написал статью о том, какие архитектурные фишки появились в новых open-weight моделях OpenAI — gpt-oss. 📌 Что изменилось: • Добавили Mixture-of-Experts — модель выбирает только часть экспертов, что даёт больше мощности без взрыва по параметрам. • Ввели Grouped Query Attention — ускоряет работу с большими контекстами. • Появились sliding-window слои — можно обрабатывать длинные тексты эффективнее. • gpt-oss оптимизировали под reasoning, работу с инструментами и агентов. ✏️ Автор сравнивает gpt-oss с Qwen3 и другими моделями, показывая, как эволюция архитектуры влияет на скорость и качество. 👉 Полный разбор тут: https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the

50 154

📄 FinePDFs — крупнейший публично доступный корпус, собранный только из PDF-документов! - Объём: около 3 трлн токенов из 475 миллионов документов на 1733 языках - Данные извлечены из 105 снимков CommonCrawl (с 2013 по 2025 гг.) и дополнительно скачаны из интернета - Общий размер: ~20 ТБ, проведена дедупликация и фильтрация - Даже при минимальной фильтрации качество FinePDFs сравнимо с лучшими HTML-корпусами - При смешивании с веб-данными достигается новое SoTA по ряду бенчмарков - Полностью воспроизводим, лицензия ODC-By 1.0 - В ближайшее время появится код воспроизведения и эксперименты на GitHub 🔗 HF: https://huggingface.co/datasets/HuggingFaceFW/finepdfs @data_analysis_ml

50 154

🧩 ArcMemo — память для LLM, которая учит модель сохранять и переиспользовать концепты при решении задач. 📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI. ❓ Проблема: Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны. 💡 Решение — ArcMemo: - Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций. - Концепты бывают двух типов: - Открытые: описание ситуации + подсказка. - Программные: псевдокод и функции с параметрами. - После решения задача конспектируется в набор таких концептов. - При новой задаче модель подбирает релевантные концепты и комбинирует их для решения. - С обратной связью на тестах память обновляется и расширяется. 📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными. 🔗 Paper: arxiv.org/abs/2509.04439 #AI #LLM #ARCAGI #Reasoning #Memory

50 154

⚡️ Важные выводы из судебного дела, где Anthropic согласилась выплатить минимум $1,5 млрд авторам и издателям: - Не всё обучение на книгах незаконно. Проблема только в использовании пиратских копий из LibGen и PiLiMi. - Это будет самая крупная компенсация по авторскому праву в истории. - Авторы получат примерно $3,000 за каждую книгу (около 500,000 произведений). - Anthropic обязана в течение 30 дней после финального решения суда удалить все файлы LibGen и PiLiMi и их копии. - Деньги будут делиться между авторами и издателями по заявкам. - Суд уточнил: обучение на купленных и отсканированных книгах может считаться «fair use», но на пиратских книгах — нет. ⚖️ Решение задаёт новый прецедент для всей индустрии AI. deadline.com/wp-content/uploads/2025/09/anthropic3_Redacted.pdf

50 154

🔥 Успех в IT = скорость + знания + окружение Здесь ты найдёшь всё это — коротко, по делу и без воды. Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты! AI: t.me/ai_machinelearning_big_data Python: t.me/pythonl Linux: t.me/linuxacademiya Собеседования DS: t.me/machinelearning_interview C++ t.me/cpluspluc Docker: t.me/DevopsDocker Хакинг: t.me/linuxkalii Devops: t.me/DevOPSitsec Data Science: t.me/data_analysis_ml Javascript: t.me/javascriptv C#: t.me/csharp_1001_notes Java: t.me/java_library Базы данных: t.me/sqlhub Python собеседования: t.me/python_job_interview Мобильная разработка: t.me/mobdevelop Golang: t.me/Golang_google React: t.me/react_tg Rust: t.me/rust_code ИИ: t.me/vistehno PHP: t.me/phpshka Android: t.me/android_its Frontend: t.me/front Big Data: t.me/bigdatai МАТЕМАТИКА: t.me/data_math Kubernets: t.me/kubernetc Разработка игр: https://t.me/gamedev Haskell: t.me/haskell_tg Физика: t.me/fizmat 💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy 😆ИТ-Мемы: t.me/memes_prog 🇬🇧Английский: t.me/english_forprogrammers 🧠ИИ: t.me/vistehno 🎓954ГБ ОПЕНСОРС КУРСОВ: @courses 📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

50 154

Знали ли вы, что у SQLite есть векторное расширение? 🧮 SQLite — самая используемая база данных в мире, работает практически на любом устройстве. Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета. Ниже — простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript… 🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py 🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/ 🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/ @data_analysis_ml

50 154

⚠️ У офиса Anthropic проходит необычная акция протеста: ряд активистов объявили голодовку. Протестующие утверждают, что гонка за всё более мощным искусственным интеллектом уже наносит вред обществу и может привести к катастрофическим последствиям. По их словам, разработка AGI несёт угрозу не только благополучию людей, но и самому существованию человечества. Активисты требуют от Anthropic и других компаний: • остановить «гонку вооружений» в области ИИ, • признать риски и рассказать обществу о них, • сосредоточиться на снижении уже нанесённого вреда. 📌 Пост активиста

50 154

Kimi K2-0905 получил обновление 🚀 • Прокачанные возможности для кода, особенно фронтенд и tool-calling • Контекст расширен до 256k токенов • Улучшена интеграция с разными агентными фреймворками (Claude Code, Roo Code и др.) 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905 💬 Попробовать: https://kimi.com ⚡️ Для 60–100 TPS + 100% точности tool-call пробуйте turbo API: https://platform.moonshot.ai @data_analysis_ml

50 154

🤖 Parlant — простой фреймворк для разработки LLM-агентов Parlant помогает задавать агенту чёткое поведение: сценарии шагов (Journeys), правила тона и политики, подключение инструментов (API, БД, поиски), готовые ответы и объяснимость действий.


pip install parlant

Github: https://github.com/emcie-co/parlant

50 154

🛠️ ChatMock: API для OpenAI с использованием вашего ChatGPT аккаунта ChatMock создает локальный сервер, который позволяет взаимодействовать с моделями OpenAI через ваш аккаунт ChatGPT Plus/Pro. Это решение не требует API ключа и поддерживает работу с GPT-5 и другими моделями, обеспечивая гибкость в использовании. 🚀 Основные моменты: - Локальный сервер для OpenAI/Ollama API. - Использует ваш ChatGPT аккаунт для аутентификации. - Поддержка моделей GPT-5 и Codex. - Настраиваемые параметры для "умственного усилия" и "резюме мышления". - Необходима платная подписка на ChatGPT. 📌 GitHub: https://github.com/RayBytes/ChatMock

50 154

Что делать с тонной архивов о природе, накопленных за 50+ лет? Довериться ИИ! Эксперты ВТБ, Высшая школа менеджмента СПбГУ и АНО «Дальневосточные леопарды» создали настоящего ИИ-учёного с функционалом для обработки и систематизации данных. Новая разработка создана для национального парка «Земля леопарда». Работы много — он автоматически обрабатывает и безопасно хранит для исследователей, рассказала Ольга Дергунова, руководитель «ВТБ Образование» в рамках ВЭФ-2025. А в будущем планируется пойти ещё дальше — добавить распознавание аудиозаписей, обработку снимков с фотоловушек, возможность для посетителей заповедников загружать свои фото для научных и образовательных целей. ИИ-инструмент может быть масштабирован на другие заповедные территории России.

50 154

🧠 Как уменьшить галлюцинации в мультимодальных ИИ без экспертов и с минимальными данными Новая работа про метод TARS показывает: всего 4.8k примеров предпочтений (без аннотаторов и экспертов) достаточно, чтобы: 🔻 снизить галлюцинации: с 26.4% до 13.2% 🔻 сократить когнитивную “пустоту” ответа: с 2.5 до 0.4 📊 и даже догнать GPT‑4o по нескольким метрикам 💡 В чём суть: - Большинство моделей цепляются за “частые фразы” и забывают смотреть на изображение - TARS превращает обучение в игру в перетягивание каната: - внутренняя фаза перетасовывает незначимые слова (предлоги, вводные) - внешняя — учит модель сохранять “человеческий ответ”, несмотря на шум - Только слова с почти нулевой связью с изображением редактируются — зрительная опора не теряется - Дополнительно: loss на частотных шаблонах помогает модели не залипать в запомненных фразах 📈 Результат: - +8 пунктов к охвату объектов на изображениях - когнитивная согласованность резко растёт - метод масштабируется от 7B до 13B без доп. данных 🎯 Главный вывод: Модель учится доверять картинке, а не языковым штампам. 📄 Статья: https://arxiv.org/abs/2507.21584

50 154

🤝 OpenAI покупает стартап Statsig за $1.1 млрд 📌 Что делает Statsig: Инструменты для A/B-тестов и аналитики → можно сравнивать версии продукта, смотреть поведение пользователей и быстро выкатывать/откатывать изменения. ⚡ Зачем OpenAI: Теперь они смогут тестировать LLM-фичи (промпты, фильтры, задержки, цену) на реальных данных и управлять обновлениями автоматически. 👥 Основатель Виджай Раджи станет CTO приложений в OpenAI. 💰 Контекст: - Это одна из крупнейших покупок компании - В 2025 OpenAI уже привлекла $40 млрд и обсуждает новую сделку, которая может поднять оценку до $500 млрд - Ранее купили AI-стартап Джони Айва ($6.5 млрд), но сделка с Windsurf ($3 млрд) сорвалась 🔗 theverge.com/openai/769325/openai-statsig-acquisition-executive-moves

50 154

🧠 Новый шаг к мозгу на чипе Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга. ⚡ В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это. 💡 Но на дальние расстояния куда эффективнее работает свет. 🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв: — каждый импульс несёт электрический сигнал для локальной обработки — и синхронный световой импульс, который может передаваться дальше Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно. 💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов. Источник: techxplore.com/news/2025-08-scientists-private-ai.html #AI #Neuroscience #Innovation #Neuromorphic

50 154

Модели с контекстным окном в 1 миллион токенов после 200 тыс. токенов @data_analysis_ml

50 154

🗣 TaDiCodec — новый токенайзер речи, который умеет экстремально сжимать звук без потери качества. Что в нём особенного: - ⚙️ Метод Binary Spherical Quantization (BSQ) — никакого «развала» кодбука - 🎯 Латенты превращаются в дискретные токены через простую бинаризацию - 📦 Кодбук на 16,384 токена - 📉 Супернизкий битрейт: 0.0875 kbps при 24 kHz - 🌀 Архитектура на diffusion autoencoder — без GAN’ов и сложных костылей 👉 TaDiCodec показывает: можно сжимать аудио в десятки тысяч раз и всё равно сохранять качество речи. 🟠HF: https://huggingface.co/amphion/TaDiCodec 🟠Github: https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer @data_analysis_ml