Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 543 Technologies & Applications2 664...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 208 subscribers, ranking 2 664 in the Technologies & Applications category and 12 543 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 208 subscribers.

According to the latest data from 16 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 14 over the last 30 days and by 19 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.92%. Within the first 24 hours after publication, content typically collects 6.20% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 479 views. Within the first day, a publication typically gains 3 114 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 32.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 17 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 208

Subscribers

+1924 hours

+37 days

+1430 days

4 479

Post views

~ 3 11424 hours

~ 4 23148 hours

8.92%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 207

Знали ли вы, что у SQLite есть векторное расширение? 🧮 SQLite — самая используемая база данных в мире, работает практически на любом устройстве. Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета. Ниже — простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript… 🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py 🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/ 🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/ @data_analysis_ml

50 207

⚠️ У офиса Anthropic проходит необычная акция протеста: ряд активистов объявили голодовку. Протестующие утверждают, что гонка за всё более мощным искусственным интеллектом уже наносит вред обществу и может привести к катастрофическим последствиям. По их словам, разработка AGI несёт угрозу не только благополучию людей, но и самому существованию человечества. Активисты требуют от Anthropic и других компаний: • остановить «гонку вооружений» в области ИИ, • признать риски и рассказать обществу о них, • сосредоточиться на снижении уже нанесённого вреда. 📌 Пост активиста

50 207

Kimi K2-0905 получил обновление 🚀 • Прокачанные возможности для кода, особенно фронтенд и tool-calling • Контекст расширен до 256k токенов • Улучшена интеграция с разными агентными фреймворками (Claude Code, Roo Code и др.) 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905 💬 Попробовать: https://kimi.com ⚡️ Для 60–100 TPS + 100% точности tool-call пробуйте turbo API: https://platform.moonshot.ai @data_analysis_ml

50 207

🤖 Parlant — простой фреймворк для разработки LLM-агентов Parlant помогает задавать агенту чёткое поведение: сценарии шагов (Journeys), правила тона и политики, подключение инструментов (API, БД, поиски), готовые ответы и объяснимость действий.


pip install parlant

Github: https://github.com/emcie-co/parlant

50 207

🛠️ ChatMock: API для OpenAI с использованием вашего ChatGPT аккаунта ChatMock создает локальный сервер, который позволяет взаимодействовать с моделями OpenAI через ваш аккаунт ChatGPT Plus/Pro. Это решение не требует API ключа и поддерживает работу с GPT-5 и другими моделями, обеспечивая гибкость в использовании. 🚀 Основные моменты: - Локальный сервер для OpenAI/Ollama API. - Использует ваш ChatGPT аккаунт для аутентификации. - Поддержка моделей GPT-5 и Codex. - Настраиваемые параметры для "умственного усилия" и "резюме мышления". - Необходима платная подписка на ChatGPT. 📌 GitHub: https://github.com/RayBytes/ChatMock

50 207

Что делать с тонной архивов о природе, накопленных за 50+ лет? Довериться ИИ! Эксперты ВТБ, Высшая школа менеджмента СПбГУ и АНО «Дальневосточные леопарды» создали настоящего ИИ-учёного с функционалом для обработки и систематизации данных. Новая разработка создана для национального парка «Земля леопарда». Работы много — он автоматически обрабатывает и безопасно хранит для исследователей, рассказала Ольга Дергунова, руководитель «ВТБ Образование» в рамках ВЭФ-2025. А в будущем планируется пойти ещё дальше — добавить распознавание аудиозаписей, обработку снимков с фотоловушек, возможность для посетителей заповедников загружать свои фото для научных и образовательных целей. ИИ-инструмент может быть масштабирован на другие заповедные территории России.

50 207

🧠 Как уменьшить галлюцинации в мультимодальных ИИ без экспертов и с минимальными данными Новая работа про метод TARS показывает: всего 4.8k примеров предпочтений (без аннотаторов и экспертов) достаточно, чтобы: 🔻 снизить галлюцинации: с 26.4% до 13.2% 🔻 сократить когнитивную “пустоту” ответа: с 2.5 до 0.4 📊 и даже догнать GPT‑4o по нескольким метрикам 💡 В чём суть: - Большинство моделей цепляются за “частые фразы” и забывают смотреть на изображение - TARS превращает обучение в игру в перетягивание каната: - внутренняя фаза перетасовывает незначимые слова (предлоги, вводные) - внешняя — учит модель сохранять “человеческий ответ”, несмотря на шум - Только слова с почти нулевой связью с изображением редактируются — зрительная опора не теряется - Дополнительно: loss на частотных шаблонах помогает модели не залипать в запомненных фразах 📈 Результат: - +8 пунктов к охвату объектов на изображениях - когнитивная согласованность резко растёт - метод масштабируется от 7B до 13B без доп. данных 🎯 Главный вывод: Модель учится доверять картинке, а не языковым штампам. 📄 Статья: https://arxiv.org/abs/2507.21584

50 207

🤝 OpenAI покупает стартап Statsig за $1.1 млрд 📌 Что делает Statsig: Инструменты для A/B-тестов и аналитики → можно сравнивать версии продукта, смотреть поведение пользователей и быстро выкатывать/откатывать изменения. ⚡ Зачем OpenAI: Теперь они смогут тестировать LLM-фичи (промпты, фильтры, задержки, цену) на реальных данных и управлять обновлениями автоматически. 👥 Основатель Виджай Раджи станет CTO приложений в OpenAI. 💰 Контекст: - Это одна из крупнейших покупок компании - В 2025 OpenAI уже привлекла $40 млрд и обсуждает новую сделку, которая может поднять оценку до $500 млрд - Ранее купили AI-стартап Джони Айва ($6.5 млрд), но сделка с Windsurf ($3 млрд) сорвалась 🔗 theverge.com/openai/769325/openai-statsig-acquisition-executive-moves

50 207

🧠 Новый шаг к мозгу на чипе Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга. ⚡ В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это. 💡 Но на дальние расстояния куда эффективнее работает свет. 🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв: — каждый импульс несёт электрический сигнал для локальной обработки — и синхронный световой импульс, который может передаваться дальше Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно. 💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов. Источник: techxplore.com/news/2025-08-scientists-private-ai.html #AI #Neuroscience #Innovation #Neuromorphic

50 207

Модели с контекстным окном в 1 миллион токенов после 200 тыс. токенов @data_analysis_ml

50 207

🗣 TaDiCodec — новый токенайзер речи, который умеет экстремально сжимать звук без потери качества. Что в нём особенного: - ⚙️ Метод Binary Spherical Quantization (BSQ) — никакого «развала» кодбука - 🎯 Латенты превращаются в дискретные токены через простую бинаризацию - 📦 Кодбук на 16,384 токена - 📉 Супернизкий битрейт: 0.0875 kbps при 24 kHz - 🌀 Архитектура на diffusion autoencoder — без GAN’ов и сложных костылей 👉 TaDiCodec показывает: можно сжимать аудио в десятки тысяч раз и всё равно сохранять качество речи. 🟠HF: https://huggingface.co/amphion/TaDiCodec 🟠Github: https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer @data_analysis_ml

50 207

🚀 Новый тариф GLM Coding Plan для Claude Code! Теперь работать с GLM-4.5 стало проще и дешевле: - 💸 Цена снизилась в 7 раз - ⚡️ В 3 раза больше промптов для задач по коду 🟠Get started: http://z.ai/subscribe 🟠Integration guide: http://docs.z.ai/scenario-example/develop-tools/claude

50 207

📝 Новое исследование о креативности текста Учёные показали: тексты, созданные человеком, семантически новее, чем сгенерированные ИИ. 🔎 Как измеряли Они ввели метрику «semantic novelty» — косинусное расстояние между соседними предложениями. 🧠 Главные выводы Человеческие тексты стабильно показывают более высокую новизну на разных эмбеддинг-моделях (RoBERTa, DistilBERT, MPNet, MiniLM). В датасете «human-AI storytelling» вклад людей оказался семантически разнообразнее. ✨ Но есть нюанс То, что мы называем «галлюцинациями» ИИ, может быть полезным в совместном сторителлинге. Они добавляют неожиданные повороты и помогают удерживать интерес к истории. 👉 Вывод: люди более новаторские, ИИ — более предсказуемый, но вместе они усиливают друг друга. Подробности

50 207

🚀 LongCat-Flash-Chat — новая MoE-модель от Meituan Что это: LongCat-Flash-Chat — огромная модель на 560B параметров с архитектурой Mixture-of-Experts (MoE). При этом в работе активируется только 18.6–31.3B параметров (в среднем ~27B), что делает её очень эффективной. Особенности: - Дизайн ScMoE (shortcut-connected MoE) позволяет перекрывать вычисления и коммуникации → скорость инференса более 100 токенов/сек. - Продуманная стратегия масштабирования: стабильное обучение, защита от ошибок данных, репродуцируемость. - Настроена под агентные задачи: контекст до 128k токенов, multi-stage пост-трейнинг, синтез данных с участием мультиагентов. Результаты: Модель показывает конкурентную производительность в понимании текста, академических задачах, программировании и агентных сценариях. Лицензия и доступ: - Доступна бесплатно на Hugging Face. - Лицензия MIT — можно использовать в любых проектах. https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

50 207

🛠️ Fine-tuning GPT-OSS и деплой в FP4 Простое дообучение в MXFP4 часто рушит качество модели. NVIDIA показала рабочий рецепт: совмещаем fine-tuning с Quantization-Aware Training (QAT), а затем возвращаем модель в 4-битную точность — быстро и без потери качества при инференсе. 🚀 В блоге: - Пошаговый QAT-гайд с кодом - Бенчмарки после fine-tune + QAT - Как NVFP4 на Blackwell даёт ещё больше точности 📖 Полный рецепт в NVIDIA Model Optimizer: https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training/

50 207

📢 OpenAI опубликовала официальный Realtime Prompting Guide — подробное руководство по работе с новым моделью gpt-realtime для голос-голос взаимодействия в API. 🧠 В отличие от текстовых моделей, gpt-realtime требует особых техник промптинга. Вот ключевые: ● Делите системный промпт на секции: роль, тон, контекст, правила, инструменты, поток диалога, безопасность ● Чётко задавайте роль и цель, чтобы модель понимала свою задачу и критерии успеха ● Управляйте речью напрямую: длина ответа (2–3 предложения), темп речи, жёсткая языковая блокировка ● Добавляйте примеры фраз для стиля и правило вариативности, чтобы избежать повторов ● Указывайте правильные произношения сложных терминов, цифры и коды — по символам, с подтверждением ● Убирайте неоднозначности: давайте определения, устраняйте конфликты, используйте критику для улучшения промпта ● Для непонятного аудио — отвечать только на чёткий ввод, в том же языке запрашивать уточнение ● Точно описывайте работу инструментов: когда использовать, когда нет, добавляйте преамбулы или запрос подтверждения ● Если роли разделены на «мыслителя» и «отвечающего» — требуйте перефразировать мысль в короткий живой ответ для речи ● Организуйте диалог как состояния с целями, инструкциями, критериями выхода и примерами ● Для сложных сценариев используйте JSON state machine или динамические правила и списки инструментов ● Определяйте условия эскалации (например, 2 сбоя инструмента или 3 подряд «нет ввода»), при которых модель должна коротко и нейтрально передать разговор человеку ⚡️ Этот гайд даёт системный подход к промптингу в реальном времени и помогает строить надёжных голосовых ассистентов на базе gpt-realtime. https://cookbook.openai.com/examples/realtime_prompting_guide

50 207

Repost from Machinelearning

⚡️ OLMoASR: открытые ASR-модели от AI2. Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи. ▶️Линейка моделей: 🟢OLMoASR-tiny.en (39M); 🟢OLMoASR-base.en (74M); 🟢OLMoASR-small.en (244M); 🟢OLMoASR-medium.en (769M); 🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио; 🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио; По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями. Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #ASR #OLMoASR #AI2

50 207

KOSMOS 2.5 от Microsoft наконец-то интегрирован в huggingface Transformers 🙌🔥 Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов. ✨ Основные возможности: - Конвертация изображений в Markdown - OCR с пространственными координатами - Общение напрямую с документами Огромный шаг для Document AI и мультимодальных рабочих процессов! 🟢Models : https://huggingface.co/models?search=microsoft/kosmos-2.5 🟢Docs: https://huggingface.co/docs/transformers/main/en/model_doc/kosmos2_5 #AI #HuggingFace #Microsoft #DocumentAI

50 207

🛰 ComputerRL — новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек. Главная идея — парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом. Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах. Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия. 📌 Статья 📌 Проект

50 207

🔥AI VK & Pro — топовый ивент по рекомендательным системам Пришли спецы из разных уголков RecSys и ML: от экспертов из больших компаний до независимых исследователей. Максимум стиля и глитча Команда VK поделилась, как они видят будущее рекомендаций, как строят единую рекомендательную платформу и многое другое. Нетворкали, обсуждали, что стоит за трендами и куда движемся дальше Диджей-сеты, активности и стиль