Big Data AI
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста РКН: clck.ru/3Fmqxe
Mostrar más📈 Análisis del canal de Telegram Big Data AI
El canal Big Data AI (@bigdatai) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 18 474 suscriptores, ocupando la posición 7 202 en la categoría Tecnologías y Aplicaciones y el puesto 36 434 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 18 474 suscriptores.
Según los últimos datos del 25 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -177, y en las últimas 24 horas de -6, conservando un alto alcance.
- Estado de verificación: No verificado
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 6.60%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 3.53% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 1 219 visualizaciones. En el primer día suele acumular 652 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 5.
- Intereses temáticos: El contenido se centra en temas clave como llm, openai, github, nvidia, deepseek.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“@haarrp - админ
Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям
@data_analysis_ml - анализ данных
@ai_machinelearning_big_data
@itchannels_telegram - важное для программиста
РКН: clck.ru/3Fmqxe”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 26 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
Carga de datos en curso...
| Fecha | Crecimiento de Suscriptores | Menciones | Canales | |
| 26 junio | +1 | |||
| 25 junio | +1 | |||
| 24 junio | 0 | |||
| 23 junio | +2 | |||
| 22 junio | +3 | |||
| 21 junio | +2 | |||
| 20 junio | 0 | |||
| 19 junio | +6 | |||
| 18 junio | +1 | |||
| 17 junio | +6 | |||
| 16 junio | 0 | |||
| 15 junio | 0 | |||
| 14 junio | 0 | |||
| 13 junio | 0 | |||
| 12 junio | +1 | |||
| 11 junio | +4 | |||
| 10 junio | 0 | |||
| 09 junio | +1 | |||
| 08 junio | +1 | |||
| 07 junio | +1 | |||
| 06 junio | 0 | |||
| 05 junio | +3 | |||
| 04 junio | +1 | |||
| 03 junio | +2 | |||
| 02 junio | +3 | |||
| 01 junio | 0 |
| 2 | 🐍 Python Парсинг: Большой продвинутый бесплатный курс
Полное практическое руководство по веб-скрейпингу на Python — от основ HTTP до production-grade пауков, обхода антибот-защит, асинхронности и проектирования надёжных пайплайнов. Каждый раздел содержит рабочие примеры, типовые ошибки и продвинутые практики.
https://github.com/justxor/Pythonparsing-/tree/main | 704 |
| 3 | Как ИИ за минуты выявляет риски по 152-ФЗ в ваших базах данных? 🔐
Персональные данные есть практически в каждой корпоративной системе — CRM, ERP, DWH, BI и служебных таблицах.
Но в большинстве компаний отсутствует прозрачность: где именно хранятся ПДн, кто их использует и какие риски это создает в рамках требований 152-ФЗ.
В результате компании сталкиваются с типовыми проблемами: «теневые» копии данных, избыточные права доступа, отсутствие понимания, какие данные вообще нужно хранить и обрабатывать.
📆 2 июля в 11:00 (МСК) компания Lasmart приглашает на бесплатный онлайн-вебинар «Как ИИ за минуты находит нарушения 152-ФЗ в корпоративных базах данных».
В программе вебинара:
— что 152-ФЗ говорит о персональных данных в СУБД;
— как автоматически находить и классифицировать ПДн в базах данных;
— как выстроить процесс работы с ПДн;
— как снизить нагрузку на ИБ и data-команды за счет автоматизации;
— демонстрация решения по мониторингу ПДн в СУБД.
👤 Спикер: Павел Хамрин, руководитель AI-направления Lasmart
🎁 Бонус участникам — чек-лист по контролю персональных данных в СУБД и DWH.
🔗 Регистрация по ссылке | 733 |
| 4 | 🌟 OpenAI предлагает поговорить с комнатным растением
Компания опубликовала на GitHub проект Plant Talk, с помощью которого комнатное растение можно наделить голосом и вести с ним беседу через ChatGPT.
Среди предлагаемых сценариев - дом, школьный класс, лаборатория или арт-проект.
В минимальной конфигурации нужны лишь компьютер с веб-камерой, микрофоном и динамиками, браузер Chrome или Edge и аккаунт OpenAI.
Камера делает снимок растения и проводит, как это называют OpenAI, "структурированную проверку его состояния", после чего можно начать разговор в реальном времени.
Например, спросить, как у него дела. в ответ растение "сверится со своими недавними наблюдениями" и оценит текущую обстановку.
Растению можно задать имя, характер и голос, а также настроить, на что именно обращает внимание камера.
Очевидно, что без дополнительных датчиков система судит о состоянии растения лишь по тому, что видит камера.
К системе можно подключить микроконтроллер Arduino с датчиком влажности почвы и модулем освещённости LM393, тогда к разговору добавятся реальные измерения.
📌Лицензирование: Apache 2.0 License
🖥Github
@ai_machinelearning_big_data
#AI #ML #PlantTalk #OpenAI | 553 |
| 5 | AnyCrawl превращает сайты в структурированные данные, готовые для LLM.
Инструмент берёт любой сайт и быстро приводит его к чистому JSON, который можно сразу использовать в AI-пайплайнах, RAG, агентах и автоматизации.
Что умеет:
• извлекать данные из поисковой выдачи Google, Bing и Baidu
• краулить сайт целиком
• парсить страницы в несколько потоков
• доставать нужные данные с помощью AI
По сути, это способ быстро превратить хаотичный веб в нормальные данные для языковых моделей.
GitHub: https://github.com/any4ai/AnyCrawl | 1 038 |
| 6 | Модели Ling & Ring 2.6 теперь доступны на OpenRouter - с временной скидкой до 31 июля.
Можно использовать наши новые модели серии 2.6 со скидкой до 90%.
Ring-2.6-1T / Ling-2.6-1T
Input: $0.075 за 1M токенов
Output: $0.625 за 1M токенов
Cache read: $0.015 за 1M токенов
Ling-2.6-flash
Input: $0.01 за 1M токенов
Output: $0.03 за 1M токенов
Cache read: $0.002 за 1M токенов
Попробуйте высокоэффективный интеллект для реальных агентных workflow и сложных задач. | 1 056 |
| 7 | DeepSeek на своём ПК за 3 шага: бесплатно и без API
Запускаем DeepSeek локально на своём ПК бесплатно и без API. Всё в три шага: ставишь Ollama, вводишь одну команду, пользуешься. Даже для слабого ПК есть лёгкая версия модели.
Хэштеги:
#DeepSeek #Ollama #нейросети | 807 |
| 8 | Пост про сильный ход, который сегодня сделала OpenAI.
Ноам Шазир помогал создавать архитектуру Transformer, ушёл из Google, основал CharacterAI, затем вернулся в DeepMind через сделку на $2.7 млрд и работал над Gemini. Теперь он переходит в OpenAI.
Дин Болл, который участвовал в формировании AI-политики администрации Трампа, тоже идёт в OpenAI. Это даёт компании возможность заранее просчитывать будущие регуляторные конфликты и одновременно иметь хороший доступ к государственным кругам. Особенно на фоне Anthropic, у которой сейчас идут сложности.
Кажется, многие недооценивают, насколько это значимо для OpenAI.
Даже The Information называет найм Шазира крупной победой:
> «Найм Шазира стал серьёзной победой OpenAI в войне за AI-таланты, поскольку компания пытается догнать своего главного конкурента Anthropic по самым продвинутым моделям перед ожидаемыми IPO обеих компаний. Шазир был одним из ключевых авторов оригинальной статьи о Transformer, архитектуре, которая предсказывает наиболее вероятное следующее слово во фразе и лежит в основе GPT-моделей OpenAI». | 1 564 |
| 9 | Исследователь Sakana AI Руджикорн «Тан» Чаракорн недавно представил Doc-to-LoRA на journal club DLCT от ML Collective.
В докладе он разобрал hypernetworks, амортизацию стоимости и дальнейшие направления развития метода.
После презентации прошла очень живая дискуссия.
https://youtube.com/watch?v=jb_0XcBMJQU | 1 387 |
| 10 | Google DeepMind выпустила большой текст про переход от AGI к ASI - искусственному сверхинтеллекту.
Называется From AGI to ASI. Среди авторов Маркус Хаттер, Айасон Гэбриэл и ещё несколько старших исследователей DeepMind. Документ на 57 страниц, и он интересен не прогнозами в стиле «когда AGI», а тем, что команда уже разбирает следующий этап.
ASI там определяется не как «ИИ умнее одного человека», а как система, которая превосходит по интеллекту и когнитивным возможностям большие человеческие организации. То есть сравнение идёт не с отдельным экспертом, а с целым институтом.
В тексте описаны несколько путей к такому уровню:
* масштабирование текущих AGI-систем через больше compute и данных
* новые алгоритмические подходы и архитектуры
* рекурсивное самоулучшение, когда ИИ помогает улучшать собственный код и способности
* коллективы из множества агентов, которые работают как распределённая система
Цифровой интеллект легко копируется, может работать без сна, ускоряться вместе с железом и параллельно запускаться в огромном количестве экземпляров. Поэтому DeepMind рассматривает AGI не как финальную точку, где всё стабилизируется, а как возможный старт быстрой цепочки дальнейших прорывов.
Пока большая часть рынка спорит, когда именно появится AGI, DeepMind уже формализует вопрос: что будет, если AGI начнёт ускорять разработку следующего поколения систем.
arxiv.org/pdf/2606.12683 | 2 017 |
| 11 | The Information: по сообщениям, Anthropic переходит от аренды облачных вычислений к аренде и самостоятельному управлению дата-центрами. Планируемая мощность в США — более 1 ГВт, а Google потенциально может выступить гарантом или поддержкой по арендным платежам.
Старая модель была простой: Anthropic платит облачным провайдерам за GPU или кастомные чипы, но сам провайдер контролирует здание, электропитание, сеть, охлаждение и большую часть графика поставок железа.
Новая модель приближает Anthropic к «цеху» ИИ-индустрии, где дата-центры — это уже не офисные здания, а энергоёмкие машинные залы, круглосуточно питающие системы обучения и инференса.
Для контекста: до сих пор вычислительная стратегия Anthropic в основном строилась через облачных провайдеров. Компания уже взяла на себя обязательства по аренде серверных мощностей более чем на 10 ГВт, включая соглашение с Google на $200 млрд.
Также Anthropic заключила крупные облачные сделки с Akamai, AWS, CoreWeave и Fluidstack. Они охватывают в том числе железо Amazon Trainium и партнёрство с Fluidstack на $50 млрд.
Кроме того, компания расширила команду по дата-центрам и подписала договор аренды со SpaceX/xAI на весь дата-центр Colossus 1 за $1,25 млрд в месяц, а также получила площади в Colossus II. | 1 422 |
| 12 | 🖥 Сервисы крутятся. Прод вроде живой. Но когда тимлид спрашивает: «почему здесь лучше ValueTask, а не Task?» или «как GC поведёт себя под нагрузкой?» - ты начинаешь плыть.
И дело не в том, что ты плохо пишешь код. Просто большинство курсов заканчиваются ровно там, где начинается настоящий .NET.
Этот курс про то, что обычно остаётся под капотом:
- CLR
- JIT
- GC
- Span
- async state machine
- Source Generators
- lock-free подходы
- OpenTelemetry
- дампы в проде
На практике разбираем, как .NET реально работает внутри: что происходит с кодом после компиляции, как память живёт под нагрузкой, почему async иногда помогает, а иногда ломает производительность, как читать проблемы по дампам и метрикам, а не гадать по логам.
Если хочешь дойти до уровня, где система для тебя не чёрный ящик, а инструмент, который ты понимаешь до IL, - велкам.
Сейчас на stepik доступна скидка 55%: https://stepik.org/a/288694 | 1 150 |
| 13 | Красивый тест на «понимание» у LLM.
Есть переводческий тест Beninatto-Trombetti. Он проверяет не знание словаря, а способность понять, что именно меняется при переводе.
Пример:
“Solo 3 parole: non sei solo”
Дословно это можно перевести как:
«Всего 3 слова: ты не один»
Но правильный перевод на английский будет:
“Just 4 words: you are not alone.”
Почему 4? Потому что в английском “you are not alone” - это уже четыре слова, а не три. Значит, переводчик должен изменить не только саму фразу, но и утверждение внутри неё.
И вот здесь LLM часто ломаются. Модель может правильно перевести смысл, но не заметить, что после перевода изменилась метаинформация о количестве слов.
Именно поэтому этот пример так интересен. Он показывает разницу между хорошей языковой имитацией и настоящим пониманием контекста.
Claude Fable 5 называют одной из самых сильных моделей на рынке, но даже она, по словам автора примера, проваливает такой тест.
LLM уже отлично комбинируют знания, пишут код, переводят, объясняют и помогают работать быстрее. Но подобные кейсы напоминают: до настоящего понимания и AGI путь всё ещё не такой короткий, как кажется. | 1 120 |
| 14 | 🚀 Интеграция с Duel Agents для LLM
Duel Agents — это слой маршрутизации для работы с несколькими моделями ИИ, выбирающий наиболее экономичный ответ. Этот репозиторий предоставляет инструменты для интеграции с платформой duelagents.com.
🚀 Основные моменты:
- Поддержка нескольких моделей ИИ через единую точку доступа.
- Удобные инструменты для установки и настройки.
- Возможность расширения функционала с помощью SDK.
- Интеграция с популярными клиентами и плагинами.
📌 GitHub: https://github.com/2aronS/Duel-Agents
#javascript | 963 |
| 15 | Готов к космическому разгону AI‑продукта?
Приходи на One Day Offer для Product Analysts! 🚀
20 июня команда GigaChat планирует найти будущего коллегу — продуктового аналитика, который поможет вывести LLM‑платформу на новую орбиту.
Ты будешь:
✔ анализировать поведение пользователей;
✔ проводить A/B‑тесты;
✔ создавать дашборды;
✔ работать с метриками.
А ещё ты станешь частью крупнейшего IT‑комьюнити.
Хочешь влиять на продукт для миллионов? Регистрируйся на One Day Offer прямо сейчас! | 1 017 |
| 16 | 🌟 Релиз диффузионной LLM от Google
DiffusionGemma - экспериментальная языковая модель с открытыми весами, которая заимствовала подход из генерации изображений, где диффузионные модели превращают шум в картинку.
Модель построена на семействе Gemma 4, а сам механизм диффузии восходит к более ранней разработке Gemini Diffusion.
Под капотом MoE на 26 млрд общих и 3,8 млрд активных параметров. После квантования модель умещается в 18 ГБ VRAM.
По словам Google, на одном GPU модель работает до 4 раз быстрее сопоставимой авторегрессионной модели.
Nvidia приводит около 1000 токенов в секунду на H100, 150 - на DGX Spark и до 800 - на DGX Station.
Google заявляет более 700 токенов в секунду на GeForce RTX 5090.
На устройствах с общей памятью (например на Apple Silicon) разница с обычными моделями, вероятно, окажется меньше, а в облаке с параллельными запросами преимущество вовсе исчезает - в этом сценарии диффузия может повышать издержки.
🟡За скорость приходится платить качеством
Для задач, где оно критично, Google по-прежнему рекомендует обычные модели Gemma 4, а DiffusionGemma позиционирует как инструмент для исследователей и разработчиков.
Сильной стороной компания называет задачи, не предполагающие строго последовательного порядка: вставку текста в готовый абзац, заполнение пропусков в коде, работу со структурированными данными.
🟡Доступность
Веса опубликованы на Hugging Face под Apache 2.0. Модель работает с Transformers, vLLM и MLX.
Запустить её можно также через Model Garden и Nvidia NIM, а бесплатно потестить на build.nvidia.com.
Для дообучения предлагаются собственный JAX-тулбокс Hackable Diffusion, Unsloth и NeMo от Nvidia.
Google собрала руководство для разработчиков, а Маартен Гроотендорст - визуальное объяснение работы модели.
@ai_machinelearning_big_data
#news #ai #ml | 1 269 |
| 17 | 🖥 На stepik обновили курс Python в 2026 - рабочий инструмент для автоматизации, ботов, парсинга, API, данных и разработки с ИИ.
Проблема новичков в том, что они учат Python кусками: синтаксис, пару задач, немного теории - и потом не понимают, как собрать из этого реальный проект.
Этот курс закрывает именно этот разрыв. Здесь вы не просто смотрите уроки, а учитесь писать код, разбирать ошибки и собирать рабочие решения на практике.
Внутри:
- Python с нуля
- много практики без сухой теории
- реальные задачи и проекты
- автоматизация рутины
- работа с файлами, данными и API
- понятная логика программирования
- современная разработка с ИИ
- отдельный блок по вайбкодингу
Вайбкодинг это нормальный навык 2026 года и вас научат- правильно ставить задачу, проверять код, понимать результат и быстрее доводить проект до рабочего состояния.
48 часов скидка 60%: https://stepik.org/course/288218/ | 1 031 |
| 18 | ✔️ Китай построит единую национальную вычислительную сеть
В ближайшие 5 лет Пекин планирует объединить разрозненные дата-центры страны в общую инфраструктуру для форсированного развития ИИ-отрасли.
Операционным управлением займутся телеком-гиганты China Mobile и China Telecom, которые должны обеспечить полную связность сети к 2028 году. С учетом модернизации энергосистем общие затраты на проект могут достичь полутриллиона долларов. Основное финансирование обеспечат выпуск гособлигаций и целевые фонды.
План жестко квотирует закупки - не менее 80% оборудования, включая ИИ-чипы, должно поставляться локальными производителями. Для NVIDIA и AMD это означает радикальное сокращение присутствия на китайском рынке.
Масштабная инфраструктурная стройка вошла в государственную стратегию "Шести больших сетей" и призвана обеспечить КНР независимость для лидерства в глобальной ИИ-гонке.
bloomberg.com
✔️ Google представила потоковую модель Gemini 3.5 Live Translate
Новинка генерирует аудио до окончания реплики спикера, балансируя между накоплением контекста и скоростью вывода. Алгоритм поддерживает более 70 языков и сохраняет оригинальную интонацию, темп и высоту голоса.
Технология сразу пошла в конечные продукты. Обновление разворачивается в мобильном Google Translate. Для корпоративных клиентов тестируется интеграция в Google Meet с поддержкой более 2000 языковых комбинаций в рамках одной конференции.
Превью-версия модели доступна в AI Studio и через Gemini Live API. Сгенерированные аудиодорожки маркируются SynthID.
blog.google
✔️ Скоростная версия флагманской модели Xiaomi
Китайская компания выпустила модель MiMo-V2.5-Pro-UltraSpeed на 1 трлн параметров со скоростью вывода 1000 токенов в секунду.
Пропускной способности добились совместно с разработчиками фреймворка TileRT за счёт квантования в FP4 и спекулятивного декодирования DFlash. Скорость генерации выросла в 10 раз по сравнению с прошлыми версиями. Xiaomi позиционирует модель для систем автоматизированного принятия решений с минимальной задержкой.
Доступ к UltraSpeed API стоит в 3 раза дороже базовой MiMo-V2.5-Pro. Открытая версия с весами FP4 опубликована на HuggingFace.
С 9 по 23 июня проходит закрытое корпоративное тестирование облачной версии. В день выделяется 10 слотов на сессии до 30 минут, доступ предоставляется по заявкам.
xiaomi.com
✔️ Perplexity и Гарвард оценили ускорение работы от применения агентов
Гарвардская школа бизнеса и Perplexity опубликовали отчет об эффективности автономного агента Computer. По сравнению со стандартным поиском платформы агент экономит 87% времени на интеллектуальные задачи и снижает условные затраты на труд на 94% (на базе данных о зарплатах в США).
ИИ-поиск требует постоянных действий пользователя при средней сессии в 33 секунды, а основные часы съедает ручная работа человека. Агент Computer берет весь цикл на себя и работает автономно около 26 минут.
Опросы пользователей зафиксировали медианное ускорение рутины в 25 раз. Доля сессий с негативной оценкой результатов выдачи при переходе на агента снизилась с 2,9% до 1,3%.
perplexity.ai
✔️ В США готовятся запустить торговлю фьючерсами на компьют
Goldman Sachs и JPMorgan Chase разрабатывают фьючерсные контракты, привязанные к стоимости аренды GPU. Инструмент нужен для хеджирования рисков дефолта и обесценивания оборудования по кредитам, выданным на создание ИИ-инфраструктуры.
Чикагская товарная биржа и Межконтинентальная биржа планируют начать торги контрактами на компьют в этом году, если инициативу одобрит регулятор.
Механизм позволит банкам открывать короткие позиции для компенсации убытков при падении арендных ставок. Облачные провайдеры, в свою очередь, смогут фиксировать прибыль и защищаться от ценовой волатильности.
Пока регуляторы США оценивают механизмы защиты от манипуляций, на зарубежных площадках уже работают альтернативные платформы ставок на динамику стоимости аренды NVIDIA H100.
theinformation.com
@ai_machinelearning_big_data
#news #ai #ml | 803 |
| 19 | OpenEnv - инструмент для создания агентной среды выполнения: терминалов, браузеров и любых других окружений, с которыми может взаимодействовать AI-агент.
В анонсе говорится, что OpenEnv уже поддерживают и используют PyTorch Foundation, vLLM, Lightning AI и другие организации.
Подробнее:
https://huggingface.co/blog/openenv-agentic-rl | 1 305 |
| 20 | Nex-N2 - новое любопытное семейство агентных моделей.
Что внутри:
- Adaptive Thinking - модель сама подбирает глубину рассуждения на каждом шаге
- экономия около 20% токенов без потери качества
- Coherent Thinking - единый формат мышления для поиска, кодинга и tool use
- меньше хрупких переключений между разными режимами работы
По заявлению команды, Nex-N2 показывает уровень Tier-1 open-source моделей на SWE-bench, Terminal-Bench, GDPval и других бенчмарках, приближаясь к GPT-5.5 и Opus 4.7.
Звучит мощно, но такие цифры стоит проверять независимыми прогонами.
- Kimi-K2.6: 86% - 13 из 14
- MiniMax: 100% - 8 из 8
- GLM-5.1: 100% - 13 из 13
- DeepSeek-V4-Pro: 92% - 11 из 12
- Opus 4.7: 45% - 5 из 11
- GPT-5.5: 30% - 3 из 10
🎉 Open-weight. Try it now.
🔗 https://nex-agi.com
📦 https://huggingface.co/nex-agi/Nex-N2-Pro
https://modelscope.cn/models/nex-agi/Nex-N2-Pro
https://github.com/nex-agi/Nex-N2 | 1 385 |
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
