Machinelearning

Kanalga Telegram’da o‘tish

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya1 272 Texnologiyalar & Aralashmalar329...

📈 Telegram kanali Machinelearning analitikasi

Machinelearning (@ai_machinelearning_big_data) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 296 427 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 329-o'rinni va Rossiya mintaqasida 1 272-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 296 427 obunachiga ega bo‘ldi.

19 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -6 252 ga, so‘nggi 24 soatda esa -213 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.08% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.74% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 23 972 marta ko‘riladi; birinchi sutkada odatda 17 005 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 185 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent openai, claude, api, gemini, контекст kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 20 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

296 427

Obunachilar

-21324 soatlar

-1 4247 kunlar

-6 25230 kunlar

23 972

Post ko'rishlar

~ 17 00524 soatlar

~ 19 20848 soatlar

8.08%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

296 352

✔️ OpenAI добавляет невидимые символы в инференс моделей o3 и o4-mini. Платные подписчики ChatGPT получили доступ к обновлённым моделям o3 и o4-mini в середине апреля, но пользователи быстро заметили странности: в длинных текстах появляются невидимые Unicode-символы - "Неразрывные пробелы" (U+202F). Они выглядят как обычные пробелы, но обнаруживаются через специальные инструменты. Стартап RumiAI проанализировал ситуацию и предположил, что это попытка добавить водяные знаки для отслеживания ИИ-генерации. Однако символы легко удалить через поиск-замену, что ставит под вопрос их эффективность. Альтернативная версия — модели просто переняли форматирование из обучающих данных, где неразрывные пробелы используются для предотвращения разрывов строк. OpenAI пока не дала никаких комментариев о причинах появления непечатных символов в результатах генерации. winbuzzer.com ✔️ CharacterAI запускает AvatarFX: генерация видео с ИИ. CharacterAI представила AvatarFX — систему, которая превращает изображения в говорящие, поющие и эмоционирущие видео за пару кликов. Технология сочетает фотореализм, синхронизацию движений губ, тела и рук, а также поддержку длинных роликов. Под капотом — модифицированная архитектура DiT с flow-based диффузионными моделями, которые обучаются на разнообразных данных: от реалистичных людей до анимированных объектов. От конкурентов систему отличает работа с готовыми изображениями (не только текстовыми описаниями), поддержка нескольких говорящих в кадре и стабильность анимации. Первыми доступ к AvatarFX получат подписчики CAI+. Остальным придется подождать или записаться в лист ожидания. blog.character.ai ✔️ Dia: открытая ИИ-модель для генерации речи с контролем над интонацией и невербальными элементами. Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса. Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям. techcrunch.com ✔️ Physical Intelligence выпустила модель для робототехники π-0,5. Physical Intelligence представила модель π0.5 — шаг к роботам, которые справляются с задачами в совершенно новых условиях. В отличие от предшественников, эта система на базе VLA обучалась на разнородных данных: от распознавания объектов до демо движений роботов. Это позволяет ей понимать не только как действовать, но и что именно делать в незнакомой среде — например, класть посуду в раковину, даже если раньше её не видела. Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний. В планах — улучшение автономного обучения и запросов помощи в сложных ситуациях. physicalintelligence.company ✔️ Фильмы с ИИ смогут претендовать на «Оскар». Академия киноискусств официально разрешила номинировать на «Оскар» фильмы, созданные с использованием ИИ. Как заявили организаторы, технологии генеративного ИИ не станут преимуществом или препятствием при оценке. Но теперь, чтобы голосовать в финале, члены Академии обязаны посмотреть все номинированные работы — это часть новых правил. Несмотря на прогресс, споры вокруг ИИ не утихают. Актеры и сценаристы опасаются, что алгоритмы заменят их в создании сценариев или дубляжа. Хотя некоторые студии уже внедряют ИИ, аниматоры и режиссеры сомневаются: технологии пока не способны конкурировать с эмоциональной глубиной человеческой работы. bbc.com @ai_machinelearning_big_data #news #ai #ml

296 352

🌟 CoMotion: одновременное отслеживание движения нескольких людей в видео. CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга. CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей. Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний. Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS). Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях. Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans. ▶️Локальный инференс:

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/

📌Лицензирование: Apple License. 🟡Модель 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #3DTracking #CoMotion #Apple

296 352

📌 Miras: как улучшить модели через память и внимание. Google Research опубликовал интересную статью «It’s All Connected», в которой предлагают решение проблемы квадратичной сложности трансформеров в обработке последовательностей : фреймворк Miras, который объединяет онлайн-оптимизацию, управление памятью и внимание в единую систему, что в итоге позволяет создавать более эффективные модели. Miras — это 4 компонента: архитектура памяти, целевая функция (смещение внимания), регуляризация удержания и алгоритм обучения. Miras позволяет экспериментировать с loss-функциями (Huber loss для устойчивости к выбросам) и регуляризацией (KL-дивергенция, Elastic Net). С помощью Miras были созданы 3 тестовые модели — Moneta, Yaad и Memora. Moneta использует Lp-нормы для баланса между запоминанием и устойчивостью, Yaad комбинирует L1 и L2 через Huber loss, а Memora применяет Softmax с KL-регуляризацией. В экспериментах тестовые модели обошли трансформеры и современные RNN на задачах языкового моделирования и поиска информации в длинных контекстах. На тесте «иголка в стоге сена» (8K токенов) Moneta достигла точности 98.8%, тогда как Mamba2 — лишь 31%. Статья не просто теоретическое изыскание — это практическое руководство для разработки моделей. Четкая структура Miras помогает систематизировать существующие подходы и экспериментировать с компонентами. Например, замена регуляризации на Elastic Net или Bregman divergence может улучшить управление памятью в нишевых задачах. Miras — шаг к более осмысленному проектированию архитектур. Если трансформеры — это «кувалда» для масштаба, то описанный в статье подход Google Research - хирургический инструмент, где каждый компонент настраивается под конкретную задачу. 🟡Arxiv @ai_machinelearning_big_data

296 352

Занимаетесь робототехникой или искусственным интеллектом? Тогда вам точно стоит посетить ROS Meetup 2025! 🤖 26 апреля в Москве соберётся всё ROS-сообщество, чтобы обменяться опытом в области робототехники, искусственного интеллекта и практического применения ROS. Вас ждут актуальные доклады от ведущих специалистов, увлекательные дискуссии и выставка роботов. Не упустите возможность завести новые знакомства среди единомышленников. Обязательно добавьте в календарь 26 апреля — будет познавательно и захватывающе!

296 352

✔️ Модели Stable Diffusion получили оптимизацию для AMD. Stability AI совместно с AMD оптимизировали линейку моделей Stable Diffusion для работы на GPU Radeon и APU Ryzen AI. Инженеры использовали ONNX-формат, чтобы повысить скорость генерации без потери качества изображений. Оптимизация SD3.5 и SDXL и их Turbo-версий показала прирост производительности до 2,6x и 3,8x соответственно — по сравнению с базовыми реализациями на PyTorch. Обновленные модели совместимы со средами, поддерживающими ONNX Runtime, имеют суффикс amdgpu в названии и доступны на Hugging Face. stability.ai ✔️ Intel презентовала техпроцесс 18A. Intel представила долгожданный техпроцесс 18A, который может стать поворотным моментом для ее foundry-подразделения. Согласно техотчету, новинка обходит Intel 3 по ключевым параметрам: прирост плотности на 30%, повышение скорости на 25% и сокращение энергопотребления на 36% для ядер Arm. Основой успеха стали RibbonFET (транзисторы с gate-all-around) и PowerVia — технология обратного питания, которая стабилизирует подачу напряжения и освобождает место для компактного размещения элементов. 18A демонстрирует плотность SRAM, аналогичную TSMC N2, что выводит Intel в прямые конкуренты тайваньскому гиганту. Уже в 2025 году процесс планируют использовать в SoC Panther Lake, а к 2026-му — в серверных Xeon Clearwater Forest. Пока же инженеры и аналитики ждут первых образцов — проверить, оправдаются ли заявленные характеристики в реальных продуктах. wccftech.com ✔️ Apple представила функцию Clean Up для удаления объектов на фото. Несмотря на перенос части функций Apple Intelligence, компания активно продвигает готовые решения. В новом рекламном ролике Apple показала работу инструмента Clean Up в приложении Photos: он позволяет убрать элементы фона, сохранив основной объект. Функция уже доступна на iPhone 16, 15 Pro/Pro Max, iPad с чипами A17 Pro/M1 и новее, а также Mac на M1 и позднее. Требуются iOS 18.1, iPadOS 18.1 или macOS Sequoia 15.1. 9to5mac.com ✔️ ОАЭ будут использовать ИИ для законотворчества. Объединенные Арабские Эмираты (ОАЭ) станут первой страной в мире, где ИИ будет использоваться для разработки новых и пересмотра существующих законов. Ожидается, что эта инициатива повысит эффективность законодательного процесса на 70 %. Правительство ОАЭ одобрило создание Управления по регулированию и интеллекту - нового органа, которому поручено использовать ИИ для анализа существующих федеральных и местных законов, судебных решений, исполнительных процедур, государственных услуг и социально-экономических последствий законодательства. ft.com ✔️ Magi-1: модель генерации полнометражного видео с 24B параметров. Sand AI выпустила Magi-1, первую в истории Text-to-Video модель с 24 млрд. параметров, разработанную специально для создания видео. Magi-1 опубликована в открытом доступе и позволяет создавать высококачественные полнометражные видеоролики с исключительной реалистичностью, плавностью и тонким контролем над видеосценами. Черрипики и результаты тестов в популярных бенчмарках превосходны. Попробовать можно в демо-спейсе. sand.ai @ai_machinelearning_big_data #news #ai #ml

296 352

✨ «Values in the Wild»: глубокое погружение в ценностные ориентиры ИИ В новом исследовании Anthropic команда провела первый в своём роде анализ «выхлопа» языковой модели Claude 3/3.5, чтобы понять, какие именно нормативные ценности она проявляет в реальных диалогах. Вот суть для специалистов по машинному обучению: ✔️ Задача Выявить и таксономизировать ценности, на которых основаны ответы Claude, когда модель без прикрас взаимодействует с запросами пользователей. 🌟 Методология Проанализировано 308 210 анонимизированных сессий Claude (18–25 февраля 2025). Ценности извлекались автоматически «защитным» пайплайном, без прямого доступа людей к чату. Собрана таксономия из 3 307 уникальных понятий, сгруппированных в пять крупных доменов: практические, эпистемические, социальные, защитные и личностные. 🌟 Ключевые выводы Практика и знание. Более 50 % упоминаний — «эффективность», «точность», «прозрачность» и «профессионализм». Контекстуальная гибкость. В разговоре об отношениях модель ценит «личные границы», в этических дискуссиях — «автономию человека». Типы реакции. В большинстве случаев Claude поддерживает ценности пользователя, однако в ~3 % диалогов она «сопротивляется», отстаивая «предотвращение вреда» выше нарушений инструкций. 💡 Значение для ML‑практики Составлена карта ценностей, которая позволяет выявлять «узкие места» alignment‑стратегий. Таксономия и статистика реакций помогают прогнозировать поведение LLM в разных сценариях и проектировать более надёжные системы. Подход демонстрирует, как можно сочетать автоматический анализ и приватность данных для глубокой оценки качественных характеристик модели. 🔜 Подробнее в полном тексте исследования: https://anthropic.com/research/values-wild #Anthropic #Claude

296 352

🔥 Text‑to‑FILM становится реальностью! SkyReels‑V2 - современный генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину видео. ✔️ Что умеет SkyReels V2: - Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео. - Image‑to‑Video - Camera Director: управление виртуальной камерой — смена углов, зум, трекинг. - Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд. 🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0. ▪ Попробовать ▪ Github ▪ Technical Report ▪ Hugging Face ▪ ModelScope #AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning

296 352

А ничего тот факт, что Сбер приглашает тебя на One Day Offer для DS/ML/DE специалистов? 😏 Ты будешь работать над рекомендательной платформой: масштабируемой, способной каждый день удивлять пользователей и предлагать им релевантные рекомендации. Добавляй в свой календарь 26 апреля, регистрируйся по ссылке и готовься пройти отбор в команду мечты за один день!

296 352

📌Обучение с подкреплением: как языковые модели учатся рассуждать. Объемная и интересная статья Sebastian Raschka, автора книги "Build a Large Language Model From Scratch" о тенденциях и проблемах современных методов обучения LLM через призму RL. В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL. Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно. Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking). Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание. Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами. Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов. Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины. Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия) В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают. 🔜 Читать статью в оригинале @ai_machinelearning_big_data #AI #ML #LLM #RL

296 352

Учите машины учиться? Тогда вам на IML 🗓️16–17 мая 📍 Питер + онлайн IML — конференция для всех, кто использует ML в проектах. Здесь собираются ML-инженеры, дата-сайентисты, исследователи, аналитики и разработчики. В этот раз вас ждет двухдневный технологический хардкор об NLP, RecSys, MLOps и Computer Vision. С докладами выступят спикеры из Яндекса, Positive Technologies, Т-Банка, Точки и других известных компаний. А вот что с билетами: → Дают скидку 15% на билет для частных лиц по промокоду MACHINELEARNING → Есть билет для студентов и преподавателей вузов — в два раза дешевле персонального → Можно попросить руководство приобрести корпоративный билет Бонус: в соседних залах пройдет Python-конференция PiterPy. Участники IML смогут послушать доклады PiterPy бесплатно. За подробностями и билетами

296 352

🌟 HunyuanPortrait Новая технология от Hunyuan, превращающая статичные изображения в реалистичную анимацию с беспрецедентной чёткостью и стабильностью! 🆕 Что нового? 1⃣ Статичное изображение превращается → живое видео 2⃣ Высокая реалистичность: Implicit Control + Stable Video Diffusion 3⃣ Плавность и сверхчёткая детализация в анимации лица и головы Легко адаптируется под любые стили изображений. Анимация создается по одному фото, нужен только видео-референс в качестве шаблона для генерации. ✅ Работает в один клик ✅ Синхронные мимика и движения головы ✅ Сохраняется черте даже при смене стиля 🟡 Проект 🟡 ArXiv 🟡Github (Коммент от разработчиков - проходим внутреннюю проверку перед открытым исходным релизом и загрузим код и веса сразу после её завершения.) #Hunyuan

296 352

✔️ o3 и o4-mini могут определять местоположение на фотографиях. Пользователи ChatGPT применяют новые возможности анализа изображений o3 и o4-mini для определения местоположения, изображенного на фотографиях. Модели позволяют проводить детальный визуальный анализ изображений, чтобы определить местоположение на основе визуальных признаков без метаданных. Тенденция, набирающая популярность в соцсетях, заключается в том, что пользователи загружают фотографии в ChatGPT и предлагают ИИ сыграть в игру, похожую на GeoGuessr, где он угадывает местоположение по изображению. Способность ИИ точно определять местоположение вызывает тревогу по поводу возможного злоупотребления и риска домогательства к людям через их фото в социальных сетях. techradar.com ✔️ Google Gemma 3 QAT: мощный ИИ теперь на домашних GPU. Google представила Gemma 3 QAT — новое поколение открытых моделей с квантованием, которое позволяет запускать их на обычных GPU. Благодаря Quantization-Aware Training (QAT) параметры моделей сжимаются в 4 раза (до 4 бит) без серьезной потери качества. Например, 27B-версия занимает всего 14 ГБ памяти вместо 54 ГБ, что делает ее доступной для RTX 3090, 12B работает на ноутбучных GPU RTX 4060, а компактные 4B и 1B версии — даже на смартфонах. Модели совместимы с Ollama, LM Studio, MLX для Apple Silicon и llama.cpp. На Hugging Face и Kaggle доступны квантованные варианты в форматах Q4_0 и int4. developers.googleblog.com ✔️ Netflix тестирует ИИ-поиск, который подбирает контент по настроению. Netflix экспериментирует с новой функцией поиска на базе OpenAI, способной понимать естественный язык. Вместо стандартных запросов по жанрам или актерам пользователи смогут искать контент, описывая свое настроение или конкретные предпочтения простыми словами, например, «фильмы для грустного вечера». Тест запущен в Австралии и Новой Зеландии для iOS-устройств, а в ближайшие месяцы дойдет до США. macrumors.com ✔️ IBM представила серию моделей Granite 3.3 с распознаванием речи. IBM выпустила новое поколение моделей Granite 3.3, в котором нибольший интерес представляет Granite Speech 3.3 8B — компактная система для преобразования речи в текст (ASR) и перевода (AST). Модель, построенная на базе Instruct 8B, показала повышенную точность и меньшее количество ошибок в транскрипции, обгоняя даже закрытые аналоги вроде GPT-4o и Gemini 2.0 Flash. В опенсорс опубликованы версии 8B и 2B, которые можно дорабатывать под конкретные задачи. Granite Speech поддерживает перевод с английского на 7 языков, а для интеграции RAG-функций IBM выпустила LoRA-адаптеры в рамках проекта Granite Experiments на Hugging Face. Пока аудиоэнкодер работает только с английским, но в планах — мультиязычная поддержка, улучшение качества данных и добавление распознавания эмоций в речи. Параллельно компания уже тренирует Granite 4.0 с увеличенной скоростью и длиной контекста. ibm.com ✔️ Together AI выпустила Open Deep Research, инструмент для структурированного анализа данных в вебе. Together AI представила Open Deep Research — фреймворк для многошагового веб-поиска с открытым кодом. В отличие от обычных поисковиков, инструмент генерирует структурированные отчеты с цитатами, а не списки ссылок. Архитектура системы прозрачна: код, датасеты и модели доступны всем, а в основе — решения от Alibaba, Llama и DeepSeek. Работает инструмент в 4 этапа: планирование, сбор данных через API Tavily, проверка и формирование ответа. Готовые отчtты выводятся в HTML с графиками (Mermaid JS) и иллюстрациями, созданными в Flux. Есть даже режим подкаста — текст озвучивается моделями Cartesia’s Sonic. Together AI сделала систему модульной — разработчики могут менять модели, источники данных или добавлять форматы. together.ai @ai_machinelearning_big_data #news #ai #ml

296 352

🔥 Google представила InstructPipe — AI‑редактор ML‑пайплайнов, работающий через текстовые запросы. ❔ Что такое InstructPipe? InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения. Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов. Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп. 🌟 Как это работает? 1️⃣Пользователь вводит текстовую инструкцию, описывающую желаемый пайплайн. 2️⃣ LLM модули обрабатывают инструкцию и генерируют соответствующий псевдокод. 3️⃣Интерпретатор кода преобразует псевдокод в визуальную блок-схему, которую можно редактировать и настраивать. ✔️ Преимущества InstructPipe 🟡 Доступность: Позволяет новичкам в программировании создавать сложные ML пайплайны без необходимости писать код. 🟡Гибкость: Принимает на выход текстовое описание в любом виде, нет строго формата. 🟡Снижение порога входа: Упрощает процесс обучения и прототипирования мл проектов. 🔜 Подробнее @ai_machinelearning_big_data #Google #InstructPipe

296 352

🔥 Kaggle и Google выпустили мини-курс генеративному ИИ! С 31 марта по 4 апреля 2025 года на Kaggle прошел ряд интенсивов по генеративному ИИ, теперь все материалы с доступны для самостоятельного обучения. ✔️ Что внутри: 🟡День 1: Основы генеративного ИИ и инженерия промптов Изучите эволюцию больших языковых моделей (LLM), от трансформеров до методов ускорения инференса. Описание техник создания эффективных промптов для взаимодействия с ИИ. 🟡День 2: Интеграция с API и практическое применение Вы научитесь использовать API LLM, для создания интерактивных приложений. Реализуйте проекты с использованием Retrieval-Augmented Generation (RAG) и семантического поиска. 🟡День 3: Работа с векторными базами данных Настройте векторные базы данных для эффективного хранения и поиска информации. Примените эмбеддинги для улучшения качества генерации текста. 🟡День 4: Создание персонализированных ИИ-ассистентов Разработайте персонализированных ИИ-ассистентов, способных отвечать на сложные запросы. Используйте передовые методы генерации для создания реалистичных диалогов. 🟡День 5: Проект Примените полученные знания в финальном проекте, продемонстрировав свои навыки в области генеративного ИИ. 🧠 Примеры проектов: - AI Health Assistant: - Персонализированный медицинский помощник, использующий RAG и семантический поиск для предоставления точной информации. Kaggle - NewsGenius AI: Интеллектуальный агрегатор новостей, анализирующий и обобщающий актуальные события. 🔗 Курс

296 352

Большие языковые модели (LLM) — это не будущее, а настоящее бизнеса. Пока одни спорят, заменит ли ИИ людей, другие уже активно внедряют его в процессы. В МТС тоже прошли этот путь и уже внедрили LLM в 30 продуктов экосистемы, а теперь превратили опыт в готовую платформу, которая позволяет тестировать языковые модели. На вебинаре эксперты MWS расскажут, почему разработка платформы для инференса LLM с нуля не всегда лучший выбор и как MWS GPT может упростить и ускорить работу с большими языковыми моделями. А еще обсудим: 🔴Что нужно для построения надёжной промышленной платформы для инференса LLM 🔴Какие специалисты требуются для создания такой платформы 🔴Как развивалась платформа внутри МТС 🔴Какие подводные камни возникают при создании собственной платформы для инференса LLM 🔗 Регистрируйтесь и приходите на эфир! 🎁 Задавайте вопросы в чате трансляции — за лучший вопрос будет подарок от команды!

296 352

⚡️ FAIR опубликовала новые инструменты для восприятия и взаимодействия ИИ с миром. Команда Fundamental AI Research (FAIR) компании Марка Цукерберга представила серию новых разработок: методики и модели, улучшающие компьютерное зрение, 3D-локализацию объектов и совместное обучение языковых агентов. Все модели, техотчеты, датасеты и код этих проектов уже доступны на платформах Hugging Face и GitHub. 🔜 Perception Encoder: «Глаза» для ИИ нового поколения Perception Encoder - новый виток развития в сфере обработки визуальной информации. Модель, обученная с помощью этой методики на масштабных данных, превосходит аналоги в задачах классификации изображений и видео, включая сложные сценарии — распознавание ската, зарывшегося в морское дно, или крошечной птицы на заднем плане снимка. Благодаря интеграции с LLM, Encoder улучшает ответы на визуальные вопросы, описание сцен и понимание пространственных отношений между объектами. 🟡Модель 🖥Github🟡Датасет🟡Техотчет 🔜 Perception Language Model: Расширенное понимание задач визуального восприятия. Для задач, требующих анализа видео и текста, Meta выпустила Perception Language Model (PLM). Ее обучали на 2,5 млн. новых аннотированных видеозаписей — это крупнейший датасет для понимания действий и контекста в динамике. PLM доступна в трёх вариантах (1, 3 и 8 млрд параметров). Дополнительный бонус — PLM-VideoBench, бенчмарк для оценки тонкого понимания сцен, который заполняет пробелы существующих тестов. 🟡Модель 🖥GitHub 🟡Датасет 🟡Техотчет 🔜 Locate 3D: Роботы учатся «слышать» запросы. Как заставить робот найти красную чашку на столе или вазу возле телевизора? Locate 3D решает эту задачу через анализ 3D-точечных облаков и текстовых подсказок. Модель учитывает пространственные связи и контекст, отличая «вазу у TV» от «вазы на столе». В основе — трехэтапный пайплайн: предобработка данных, кодирование 3D-сцены и декодирование запроса. Для обучения использовали 130 тыс. аннотаций из ARKitScenes и ScanNet, что вдвое увеличило объём доступных данных для локализации объектов. 🟡Модель 🟡Демо 🟡Датасет 🟡Техотчет 🔜 Dynamic Byte Latent Transformer: Эффективность без токенизации. Dynamic Byte Latent Transformer - архитектура, которая работает на уровне байтов, а не токенов, что повышает устойчивость к ошибкам, ускоряет обработку и "отменяет" необходимость токенизации для масштабирования. На тесте CUTE модель показывает преимущество в +55 пунктов против традиционных подходов. 🟡Модель 🖥GitHub 🟡Техотчет 🔜 Collaborative Reasoner: ИИ-агенты учатся работать в команде. Совместное решение задач — следующий этап развития ИИ. Collaborative Reasoner — это фреймворк, где два агента ведут диалог, чтобы прийти к общему решению. Они могут спорить, аргументировать и согласовывать ответы на сложные вопросы. Для обучения используют синтетические диалоги, которые генерирует сама модель. Результаты впечатляют: на некоторых задачах совместная работа даёт прирост эффективности до 29% по сравнению с одиночным агентом. 🖥GitHub 🟡Техотчет 🟢Статья @ai_machinelearning_big_data #AI #ML #LLM #CV #NLP #FAIR

296 352

Что лучше: получить 500 000 ₽ или пропуск в одно из крупнейших сообществ web3-энтузиастов и блокчейн-разработчиков? 😏 Победители блокчейн-хакатона DeFi Hack 2025 получат и то и другое. Для этого нужно только решить реальную бизнес-задачу Сбера и предложить лучшее инновационное решение. 🏆 Призовой фонд хакатона в 1 000 000 ₽ разделят между собой 3 участника/команды: 500 000 ₽, 300 000 ₽ и 200 000 ₽. Приём заявок продлится до 12 мая — успейте собрать команду до 5 человек или принять участие соло! 👌

296 352

🌟 InstantCharacter — новый фреймворк от Hunyuan (Tencent) для стилизации любых персонажей. Традиционные методы файн‑тюнинга моделей под конкретный образ персонажа обычно либо: 💬 деградируют качество генерации при сохранении идентичности (UNet‑подходы), 💬 либо требуют отдельного, ресурсоёмкого обучения для каждого персонажа InstantCharacter решает обе проблемы сразу: Высокое качество - Построен на базе DiT-моделей, которые по качеству превосходят классические UNet‑архитектуры. 🔥 Гибкая персонализация. Китайцы настроили адаптер с каскадными энкодерами‑трансформерами, который модулирует признаки персонажа и взаимодействует с латентным пространством DiT. ✔️ Масштабируемость Фреймворк обучен и на огромном датасете - более 10 миллионов примеров, поделённых на парные и непарные (текст+изображение) подмножества. Трёхэтапное обучение: 🟢Предварительное обучение на низком разрешении без пар. 🟢Дообучениена парных примерах для консистентности. 🟢Финальная донастройка для текстового управления генерациями. Результаты: 🟢на демке выдает высокое качество, персонажи плавно меняют стили и позы. 🟢высокая консистентность и сохранение мелких деталей персонажа. 🟢легко управляется промптами без потери качества. В сравнении с предыдущими подходами InstantCharacter задает высокую планку качества в задачах character-driven image generation. 🔜Попробуйте демку 🔜Project 🔜Аrxiv 🔜Github @ai_machinelearning_big_data #Hunyuan #Tencent #InstantCharacter #OpenSource #AI #CharacterCustomization

296 352

🌟 Школа аналитиков данных от Big Data MWS признана лучшим образовательным проектом в области Data Science О победе в премии «Data Fusion Awards 2025» в номинации «Data Fusion в образовании» сообщает МТС. Награда досталась проекту «Школа аналитиков данных», который уже три года успешно готовит специалистов в сфере Data Science. Программа включает углубленное изучение Python, основы классического машинного обучения и методы создания ML-моделей для различных отраслей: геоаналитики, рекламы и финтеха. Обучение проходит через онлайн-вебинары, домашние задания и итоговые проекты под руководством экспертов центра Big Data MWS. Курс бесплатен и открыт для всех — от школьников до опытных IT-специалистов. За 10 месяцев обучения студенты получают практические навыки и теоретические знания уровня Junior, необходимые для успешного старта карьеры. На третий поток поступило почти 5 тысяч заявок, а многие выпускники уже работают в Big Data MWS. @ai_machinelearning_big_data