Machinelearning

Kanalga Telegram’da o‘tish

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya1 275 Texnologiyalar & Aralashmalar329...

📈 Telegram kanali Machinelearning analitikasi

Machinelearning (@ai_machinelearning_big_data) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 296 149 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 329-o'rinni va Rossiya mintaqasida 1 275-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 296 149 obunachiga ega bo‘ldi.

21 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -6 159 ga, so‘nggi 24 soatda esa -192 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.12% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.73% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 24 037 marta ko‘riladi; birinchi sutkada odatda 16 970 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 191 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent openai, claude, api, gemini, контекст kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 22 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

296 149

Obunachilar

-19224 soatlar

-1 4507 kunlar

-6 15930 kunlar

24 037

Post ko'rishlar

~ 16 97024 soatlar

~ 19 10748 soatlar

8.12%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

296 057

🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей. DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR. Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви. Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления. Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder. Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах. Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации. Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25. Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины. Для локального инференса потребуются модели: 🟢Marigold checkpoint; 🟢Энкодер CLIP-ViT-H-14-laion-2B; 🟢Набор чекпоинтов DepthLab. ▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh

🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #DepthLab

296 057

📷 Еще несколько лет назад обработка изображений требовала значительных временных затрат. Фотографы и дизайнеры тратили часы на редактирование снимков, чтобы добиться нужного результата. Сегодня же, благодаря развитию ИИ, подобные задачи решаются буквально за считанные секунды. Современные алгоритмы способны автоматически корректировать цвета, устранять шумы, улучшать резкость и даже добавлять эффекты, которые ранее были доступны только профессионалам. 🤖 ИИ не ограничивается обработкой изображений. Он активно применяется в самых разных сферах, делая выполнение повседневных задач проще и комфортнее. Например, в электронной коммерции ИИ помогает улучшать взаимодействие между покупателями и продавцами, помогая улучшить процесс поиска и выбора товаров. Примером успешного внедрения ИИ в сферу электронной коммерции является Авито. Новая версия поиска на площадке, основанная на алгоритме ранжирования Avito Ranker 3, значительно увеличила релевантность выдачи объявлений. Теперь вместо того, чтобы полагаться исключительно на время размещения, система учитывает более важные параметры: 🟡качество описания и фото; 🟡цену; 🟡уровень сервиса продавца. Эти изменения позволили сократить количество показов нерелевантных и низкокачественных объявлений вдвое. При этом пользователи стали на 17% чаще переходить из поиска в объявления. Конверсия покупок также увеличилась — до 25%. Алгоритмы Авито анализируют более 100 факторов, среди которых: 🟡Релевантность запросу. 🟡Персональные предпочтения покупателя: роль играют его интересы, а также активность в конкретной категории товаров или услуг. 🟡Рейтинг и отзывы: позиция объявления в выдаче зависит от уровня сервиса и числа положительных отзывов. 🟡Конкурентоспособность цены: насколько она отличается от других подобных предложений. 🟡Расстояние продавца от покупателя и стоимость доставки: выгодно ли покупать покупка товар издалека или лучше найти похожий товар поблизости. @ai_machinelearning_big_data

296 057

📌Cовременные методов позиционного кодирования в Transformers: от простых целых чисел до RoPE. Познавательная статья Кристофера Флитвуда, ML-инженера HuggingFace об эволюции методов позиционного кодирования в моделях-трансформерах, начиная с простых подходов и заканчивая Rotary Positional Encoding (RoPE), используемым в современных моделях, таких как Llama 3.2. Самовнимание, ключевой механизм трансформеров, требует обогащения позиционной информацией, поскольку оно является перестановочно инвариантным, то есть не учитывает порядок токенов в последовательности. Без позиционной информации модели не могут различать одинаковые токены, находящиеся в разных позициях, что делает невозможным определение отношений между словами в предложении. В статье описываются желательные свойства идеальной схемы позиционного кодирования: уникальность кодирования для каждой позиции, линейная зависимость между закодированными позициями, обобщение на более длинные последовательности, детерминированный процесс генерации и возможность расширения на множественные измерения. Начальные методы, например, добавление целочисленного значения позиции к эмбеддингу токена, были признаны несостоятельными из-за проблем с диапазоном значений и низкой разделительной способностью. Альтернативой стало бинарное позиционное кодирование, которое, однако, не обеспечивало достаточной гладкости и непрерывности для оптимизации. Синусоидальное позиционное кодирование, описанное в «Attention is all you need», стало важным шагом вперед. Оно использует синусоидальные и косинусоидальные функции с разными частотами для кодирования позиции, позволяя модели изучать отношения между позициями. RoPE кодирует относительные позиции, применяя матрицу вращения к парам компонентов векторов запросов (q) и ключей (k), что позволяет модели эффективно кодировать позиционную информацию без изменения нормы векторов. Это достигается путем умножения пар элементов векторов на матрицу вращения. RoPE также может быть расширен для работы с многомерными данными, например, изображениями, путем независимого кодирования позиций в разных измерениях. 🔜 Статья на HuggingFace @ai_machinelearning_big_data #AI #ML #LLM #RoPE #Huggingface #Blogpost

296 057

Если образование в сфере IT, ИИ или математики, то это — Яндекс Образование ➡️В 2024 году Яндекс вместе с партнерами запустил флагманский бакалавриат для исследователей и архитекторов ИИ — AI360. На программу поступили 100 самых сильных абитуриентов. Также первая индустриальная аспирантура по ИИ с уклоном в практику открыта на базе НИУ ВШЭ и ИТМО. ➡️В прошлом учебном году Яндекс начал активно внедрять в образование ИИ-помощников. YandexGPT не дает учащимся готовых ответов, а помогают самим найти решение. Так 85% старшеклассников при подготовке к ЕГЭ по информатике воспользовались ИИ-помощником от Яндекс Учебника. В НИУ ВШЭ нейросеть Яндекса использовалась для подготовки дипломных работ. ➡️Выпускники Яндекса работают над социально значимыми зачами. В этом году создали нейросеть, которая помогает выявлять тяжелое заболевание spina bifida на ранних сроках беременности, технологию уже используют в Центре Кулакова. ➡️Яндекс делает мир IT и ИИ доступным для всех. За год более 3 миллионов школьников узнали о современных технологиях на уроке компании, более 1 миллиона учились на платформе Яндекс Учебника. В 19 вузах из 12 регионов были запущены единые модули по бэкенд- и фронтенд-разработке, на них учится 4,3 тысячи студентов. @ai_machinelearning_big_data #news #ai #ml

296 057

✔️ AGUVIS: платформа для автономных агентов GUI на основе компьютерного зрения. Salesforce Research представил AGUVIS, фреймворк, использующий компьютерное зрение для автономных агентов GUI пользователя, работающего с web, mobile и PC-интерфейсами. AGUVIS использует единые визуальные данные и согласованное пространство действий для повышения обобщаемости в GUI-средах. Модель обладает возможностями планирования и рассуждения и использует набор траекторий агентов GUI с многомодальным основанием. AGUVIS показал среднюю точность 89,2% в GUI-задачах, превзойдя другие методы, и снижение затрат на вывод на 93% по сравнению с GPT-4o. Веса модели и код инференса - в планах, код для тренировки, траектории планирования и рассуждений доступны на Github. aguvis-project.github.io ✔️ Google повела итоги года в области ИИ: 60 главных анонсов 2024 года. Google подвела итоги 2024 года, отметив значительный прогресс в области развития технологий ИИ. За год было сделано 60 крупных анонсов: в начале 2024 года были представлены обновления для Gemini, Chrome, Pixel и Search и функция Circle to Search. В феврале дебютировала модель Gemini 1.5, а Bard стал Gemini. В марте акцент был сделан на использовании ИИ в здравоохранении, а в мае на конференции Google I/O были представлены новые продукты и функции на базе ИИ. В течение года Google запустила новые инструменты для Google Workspace, образования, перевода, поиска и покупок. В декабре была представлена Gemini 2.0, модель нового поколения наступающей агентной эры ИИ. blog.google ✔️ Лазерный искусственный нейрон имитирует функции нервных клеток со скоростью света. Исследователи Университета Гонконга разработали лазерный искусственный нейрон, который полностью имитирует функции, динамику и обработку информации биологического градиентного нейрона. Новая разработка достигает скорости обработки сигнала в 10 ГБод, что в миллиард раз быстрее, чем у биологических аналогов. Лазерный градиентный нейрон преодолевает ограничения скорости фотонных версий спайковых нейронов и имеет потенциал для еще более быстрой работы. Ученые использовали его для создания системы резервуарных вычислений, которая демонстрирует исключительную производительность в задачах распознавания образов и прогнозирования последовательностей. Тестовая среда обработала данные 100 миллионов сердечных сокращений или 34,7 миллиона рукописных цифровых изображений всего за одну секунду. eurekalert.org ✔️ xAI выпустила мобильное приложение Grok для iOS с возможностью генерации изображений. xAI выпустила Grok для iOS, которое в настоящее время находится на стадии бета-тестирования в Австралии и некоторых других регионах. Приложение имитирует основные функции Grok и использует модель искусственного интеллекта Grok-2. Приложение может переписывать и обобщать текст, отвечать на вопросы и создавать изображения на основе текстовых запросов, а также получать доступ к данным из интернета и X в режиме реального времени. Одной из отличительных особенностей Grok - возможность генерации изображений, которая не имеет таких строгих ограничений, как у некоторых конкурентов, и позволяет анализировать изображения, загруженные пользователями. techradar.com ✔️ Соучредитель Anthropic прогнозирует "еще более резкий" прогресс в развитии ИИ в 2025 году. Джек Кларк, соучредитель Anthropic, в своей публикации на LinkedIn предположил, что в 2025 году темпы развития ИИ значительно ускорятся, благодаря сочетанию традиционных методов масштабирования моделей и масштабирования вычислительных ресурсов во время выполнения, используемое в моделях o-серии OpenAI. Кларк уверен, что сочетание традиционного масштабирования с новыми методами приведет к "еще более резким" достижениям в области ИИ в 2025 году. Anthropic пока не выпустила модель, конкурирующую с o-серией OpenAI или Gemini от Google. Их модель Opus 3.5 была отложена из-за высоких затрат, но она помогла в разработке Sonnet 3.5. the-decoder.com @ai_machinelearning_big_data #news #ai #ml

296 057

🌟 MiniVLA: компактная Vision-Language-Action модель для робототехники. AI-лаборатория Стенфордского университета представила модель MiniVLA — усовершенствованную версию Vision-Language-Action (VLA), компактную альтернативу OpenVLA. Отличительная особенность MiniVLA - сокращенное в 7 раз количество параметров (1 млрд. против 7 миллиардов у OpenVLA), что дает значительное ускорение процессов обучения и инференса. В архитектуре MiniVLA используется тот же ViT для обработки изображений, что и в OpenVLA, однако в качестве языковой модели используется Qwen 2.5 0.5B вместо Llama 2 7B. Обучение языковой модели основано на датасете Llava-1.5-Instruct VQA, аналогично базовой модели Prismatic VLM в OpenVLA. Несмотря на уменьшение размера, MiniVLA демонстрирует сопоставимую с OpenVLA производительность в рамках бенчмарка Libero-90 (61.4% против 62%). Одно главных усовершенствований MiniVLA - применение векторного квантования (VQ) для кластеризации действий (action chunking). Вместо дискретного представления действий, модель прогнозирует их последовательности, которые кодируются в виде M кодовых индексов с помощью VQ-BeT5. Это существенно повышает производительность на Libero-90. Так, MiniVLA с VQ h8 (action chunks) достигает 77% успеха, в то время как базовая модель MiniVLA и OpenVLA демонстрируют 61.4% и 62% соответственно. MiniVLA поддерживает подачу на вход нескольких изображений, что позволяет использовать "историю изображений" и серию снимков с носимых целевым роботом камер. Мульти-кадровая возможность способствует повышению производительности на Libero-90: модель MiniVLA с VQ h8 и историей изображений (history=2) достигает 82% успешности, а с кадрами с новимой камеры — 82.1%. По сделанным замерам производительности, MiniVLA показывает в 2.5 раза более высокую скорость инференса, чем OpenVLA (12.5Hz против 5Hz) на одном GPU NVIDIA L40s. ▶️В репозитории на HF опубликованы несколько вариантов MiniVLA: 🟢Prism with Qwen 2.5 0.5B backbone 🟢MiniVLA 1B Wrist VQ 🟢MiniVLA VQ 1B 🟢MiniVLA Image History (T=2) VQ 1B 🟢MiniVLA 1B 🟢MiniVLA 1B VQ Trained on Bridge V2 📌Лицензирование: MIT License. 🟡Статья 🟡Набор моделей 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLA #MiniVLA

296 057

⚡️ QVQ-72B-Preview: VLM с ризонингом от Qwen. QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков. Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах. ⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения: 🟠возможность смешения языков и переключения между ними; 🟠склонность к зацикливанию в логических рассуждениях; 🟠постепенная потеря концентрации на визуальном контенте при многоступенчатом рассуждении, что может приводить к галлюцинациям. Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit. 📌Лицензирование: Qwen License. 🟡Статья 🟡Модель 🟡Demo 🟡Набор GGUF 🟡Набор MLX 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #Qwen #Reasoning

296 057

✔️ OCTAVE: модель для генерации голоса и личности от Hume AI Hume AI представила OCTAVE (Omni-Capable Text and Voice Engine), модель нового поколения для работы с речью и языком. OCTAVE способна не только генерировать голос, но и создавать уникальные личности, воспроизводя язык, акцент, выражения и характер на основе коротких образцов от 5 секунд. Модель может имитировать пол, возраст, интонацию и стиль речи, а также создавать несколько взаимодействующих ИИ-персонажей в режиме реального времени. OCTAVE поддерживает в качестве ввода текст и аудио, сохраняя уровень понимания языка, сравнимый с моделями аналогичного размера. Hume AI предоставляет доступ OCTAVE ограниченному числу своих партнеров и планирует расширить доступ в ближайшие месяцы, после проведения оценки ее безопасности и эффективности. hume.ai ✔️ Gaxos Labs расширяет возможности ИИ для 3D с помощью Meshy. Gaxos.ai Inc. объявила об успешной интеграции Meshy 4 в свое ИИ-решение для разработчиков игр - Gaxos Labs. Meshy 4 позволяет художникам, дизайнерам и разработчикам точно настраивать топологию сетки, ограничивать количество полигонов и создавать 3D-модели более высокого качества. Используя генеративную геометрию Meshy 4, пользователи могут легко переключаться между сетками на основе четырехугольников или треугольников, чтобы соответствовать конкретным требованиям своего проекта. Такая свобода позволяет разработчикам адаптировать 3D-активы к своим потребностям, будь то более гладкие поверхности для персонажей и анимации или сложные детали для окружения. globenewswire.com ✔️ Olympian Motors и NVIDIA совместно разрабатывают первую ИИ-платформу для электромобилей. Olympian Motors объявила о расширении сотрудничества с NVIDIA для разработки платформы Olympus — открытой, модульной и управляемой ИИ платформы для электромобилей. Партнерство подразумевает использование NVIDIA DRIVE AGX Orin и создание нового протокола разработки и развертывания ИИ-моделей и приложений для электромобилей. Платформа Olympus обеспечит легкий и стандартизированный доступ к инфраструктуре данных автомобиля, датчикам и блокам обработки данных и к сетям связи. Разработчики получат модульную операционную систему и облако, чтобы развертывать модели машинного обучения и активно участвовать в развитии экосистемы электромобилей. Платформа Olympus будет представлена вместе с моделями Model 84 и Centaur VAN. msn.com ✔️ VoxelSensors представит инновационное решение контекстуального интеллекта на CES 2025. Бельгийский стартап VoxelSensors объявил о собственной разработке, которое позволит искусственному интеллекту взаимодействовать с людьми более естественно, как в реальном мире. Решение VoxelSensors собирает данные с носимых устройств от первого лица, что позволяет создавать модели контекстуального интеллекта, способные понимать и помогать пользователю в реальных условиях. Компания использует комбинацию датчиков SPAES и модуля PERCEPT для сбора данных, которые важны для интерпретации опыта пользователя. Датчики SPAES обеспечивают высокую точность, меньшую задержку и более низкое энергопотребление по сравнению с существующими аналогами. voxelsensors.com ✔️ PIMIC анонсировал чип Clarity NC100 на базе ИИ для шумоподавления окружающей среды. Clarity NC100, чип шумоподавления окружающей среды на основе глубокой нейронной сети (DNN), который устанавливает новый стандарт производительности и эффективности ИИ на периферии. Эта технология обеспечивает ультимативное подавление шума в сложных условиях, будь то сильный ветер или промышленные условия, всего с одним микрофоном, потребляя при этом всего 150 мкА. PIMIC представит образцы Clarity NC100 на выставке CES 2025 в Лас-Вегасе, интегрированные с цифровым микрофоном AI, разработанным компанией ZillTek. embedded.com @ai_machinelearning_big_data #news #ai #ml

296 057

🌟 ASAL: автоматизированный поиск искусственной жизни с использованием VLM для исследования открытых систем. ASAL (Automated Search for Artificial Life) - метод автоматизации поиска симуляций искусственной жизни (ALife). В его оcнове лежит использование VLM для оценки и анализа результатов симуляций. Традиционные техники симуляции базируются на ручном проектировании и методах проб и ошибок, ограничивая возможности для открытий новых форм жизни. ASAL не имеет таких ограничений и предлагает 3 алгоритма поиска: 🟢контролируемый поиск целевых симуляций (Supervised Target); 🟢поиск открытых систем с временной новизной ( Open-Endedness); 🟢исследование всего разнообразия симуляций (Illumination). ASAL использует CLIP и DINOv2 для оценки видео, созданных в ходе симуляций, количественно анализируя качественные феномены в ALife. Метод был успешно применен к субстратам Boids, Particle Life, Game of Life, Lenia и Neural Cellular Automata. В проведенных экспериментах ASAL обнаружил ранее неизвестные формы жизни в Lenia и Boids, а также Cellular Automata, демонстрирующие открытую динамику, подобную Game of Life. Также, эти эксперименты показали, что ASAL способен находить симуляции, соответствующие как единичным, так и последовательным целям. Например, поиск последовательности "одна клетка", а затем "две клетки" приводит к обнаружению правил, способствующих самовоспроизведению. Для поиска открытых систем в Life-like CA использовался полный перебор, где Game of Life вошла в 5% наиболее открытых систем. Для визуализации разнообразия был разработан алгоритм освещения на основе генетического алгоритма, позволивший создать "атласы" для Lenia и Boids. ▶️Локальная установка и запуск настроенного блокнота со всеми тремя алгоритмами:

# Clone repo
git clone https://github.com/SakanaAI/asal.git
cd asal

# Create conda env
conda env create -f environment.yaml

# Install requirements
pip install -r requirements.txt

# Running ASAL
asal.ipynb

📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #ASAL #SakanaAI

296 057

✔️ NVIDIA LogitsProcessor — библиотека для управления генерацией текста с помощью модификации вероятностного распределения токенов. NVIDIA опубликовала LogitsProcessorZoo, коллекцию гибких и мощных инструментов для обработки логитов, позволяющих решать задачи контроля длины последовательностей, выделения ключевых фраз или управление ответами с несколькими вариантами. Библиотека позволяет корректировать логиты, предоставляя возможность контроля над поведением модели. Например, GenLengthLogitsProcessor позволяет изменять длину генерируемого текста, CiteFromPromptLogitsProcessor - стимулирует модель использовать вводные данные, а ForceLastPhraseLogitsProcessor включает заданную фразу перед завершением вывода. Библиотека полностью совместима с методом generate из Transformers. huggingface.co ✔️ Microsoft Research представила AIOpsLab, платформу разработки ИИ-агентов для автономных облачных систем. AIOpsLab предоставляет стандартизированную среду для тестирования и сопоставления агентов в условиях, имитирующих реальные. Система имеет интерфейс "агент-облако", посредством которого агенты взаимодействуют с сервисами. AIOpsLab использует генераторы нагрузки и отказов для имитации как типичных, так и нештатных ситуаций. AIOpsLab включает в себя средства для обнаружения инцидентов, определения их местоположения, диагностики причин и устранения последствий, при этом обеспечивается поддержка распространенных фреймворков для агентов. AIOpsLab доступен на GitHub. microsoft.com ✔️ Энциклопедия Britannica стала AI-компанией. Britannica полностью переориентирует свою деятельность на разработку и внедрение ИИ. Предполагается, что в ближайшем будущем компания может стать публичной с оценочной стоимостью в 1 млрд. долларов. До 2012 года Britannica занималась выпуском старейшего англоязычного энциклопедического издания, являясь источником знаний до появления Google и Wikipedia. На сегодняшний день основным направлением деятельности Britannica является разработка и реализация ПО для онлайн-обучения, ориентированного на образовательные учреждения и библиотеки. В дополнение, компания предлагает чат-бот Britannica AI, предоставляющий доступ к обширной базе энциклопедических знаний, накопленных за два столетия. gizmodo.com ✔️ Аэрокосмический двигатель, разработанный ИИ, успешно прошел горячую обкатку. Компания LEAP 71 продемонстрировала потенциал современных инженерных систем ИИ на примере разработки ракетного двигателя аэроспайкового типа. Данный двигатель, функционирующий на топливной смеси из кислорода и керосина, спроектирован с использованием большой вычислительной инженерной модели и способен обеспечивать тягу до 5000 ньютонов. Аэроспайковая конструкция отличается от традиционных ракетных двигателей способностью к автоматической адаптации к изменениям атмосферного давления. На проектирование с помощью ИИ у LEAP 71 ушло чуть больше трех недель. Изделие было изготовлено на 3D-принтере из цельного медного блока методом селективного лазерного плавления. Первое испытание, проведенное 18 декабря 2024 года, показало успешную работоспособность при температуре газа в 3500 °C. newatlas.com ✔️ Tetsuwan Scientific разрабатывает роботизированных AI-ученых, способных самостоятельно проводить эксперименты. AI-ученые от Tetsuwan Scientific представляют собой стеклянные робо-кубы, которые могут самостоятельно оценивать результаты и вносить изменения в эксперименты. Собственное ПО и датчики позволяют роботам понимать такие параметры, как калибровка и характеристики жидкостей. Tetsuwan Scientific уже сотрудничает с La Jolla Labs для измерения эффективности дозировок РНК-терапевтических препаратов. Целью Tetsuwan Scientific является создание независимых AI-ученых, способных автоматизировать весь научный процесс. techcrunch.com @ai_machinelearning_big_data #news #ai #ml

296 057

🌟 VidTok: Универсальный токенизатор видео от Microsoft. VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации. Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения. В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации. Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением. VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации. При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели. ▶️ В открытый доступ опубликованы 12 чекпоинтов, расшифровка нейминга: 🟢vidtok - базовое название; 🟢kl или fsq - тип регуляризации и квантования латентного пространства; 🟢causal или noncausal - тип обработки временной информации (покадрово или все кадры сразу); 🟢488 или 41616 - компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16; 🟢4chn, 8chn или 16chn - количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео; 🟢262144, 32768 или 4096 - размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация. ▶️Локальная установка и пример запуска как для непрерывной, так и для дискретной токенизации и как для каузальных, так и для некаузальных моделей:

# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok

# Create conda env
conda env create -f environment.yaml
conda activate vidtok

# Inference 
import torch
from scripts.inference_evaluate import load_model_from_config

cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")    
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device)  # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape

📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Microsoft #VidTok

296 057

Команда Яндекса подробно рассказала о том, как оценивала знания культурного кода у YandexGPT Чтобы понять, насколько хорошо нейросеть понимает специфичные для нашей культуры явления, командой был разработан бенчмарк культурного кода — в этот процесс вошли классификации, промты с цитатами, отсылками, поговорками и сравнение ответов человека и LLM. В начале работы была проведена оцифровка самого понятия “культурный код” и отбор главных верхнеуровневых категорий, по которым будет проводиться разработка запросов. Запросы были составлены с целью выяснить, понимает ли Yandex GPT цитаты, фразеологизмы, факты о быте, социуме и других факторах, олицетворяющих нашу культуру. Промты скармливались модели, постепенно усложняясь в формулировках, добавлялись витиеватости. Следующий этап — валидация, поэтому команда создала тестовый бенч на 200 вопросов и протестировала его на AI-тренерах. Выяснилось, что бенч нуждается в разбивке по возрасту, поскольку в каких-то темах более старшие респонденты разбирались лучше молодых ребят, а в каких-то — наоборот. Было решено выделить 3 категории: “30+”, “30-” и “все”. Первые заходы проводились по схеме “выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем”. После того, как вопросы отладились по составу и смыслам, пришло время увеличивать полноту и размер бенча. Итоговый бенчмарк составил 2000 самых разнообразных вопросов, на которые снова отвечали AI-тренеры. По результатам их ответов был сформирован средний скор, равный 78. Эта величина стала контрольной для оценки ответов Yandex GPT. @ai_machinelearning_big_data #news #ai #ml

296 057

🌟 CAD-Recode: создание САПР-моделей из облаков точек. CAD-Recode - модель для преобразования облака точек в последовательность эскизов и экструзии, записанных как код Python с использованием библиотеки CadQuery. CAD-Recode способен создавать точные CAD модели с минимальным количеством входных точек, а возможность редактирования кода с помощью LLM открывает новые возможности для интерактивного изменения геометрии САПР-моделей. CAD-Recode состоит из двух частей: проектора, который переводит облака точек в данные для обработки, и LLM на основе Qwen2-1.5B, в которой был сохранен оригинальный токенизатор и добавлен один дополнительный линейный слой. Модель обучалась на 1 млн. CAD-моделей. Качество обучения модели оценивалось по 3 показателям: расстоянию Хаусдорфа (CD), пересечению над объединением (IoU) и доле неверных результатов (IR). Эксперименты с полученной моделью проводились на 3 датасетах: DeepCAD, Fusion360 и CC3D. CAD-Recode показал значительное улучшение по сравнению с другими методами, достигнув медианного CD в 0.168 на DeepCAD и 0.159 на Fusion360. CAD-Recode продемонстрировал 76.5% точность при ответе на вопросы по САПР (CAD-QA) при использовании GPT-4o. В репозитории проекта на Github доступна простая демонстрация инференса CAD-Recode. Перед использованием необходимо установить пакеты в соответствии с Dockerfile и затем запустить demo.ipynb в jupyter. 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #CADRecode

296 057

Позаботился о подарках для родных и близких? Позаботься и о лучшем подарке для себя — новая работа ждёт тебя в Сбере!✨ Заходи на сайт rabota.sber.ru — здесь сбываются амбициозные проекты, классные коллеги и крутые возможности. 🔥 В Новый год — с новой работой в Сбере.💚

296 057

📎 ML в медицине: дайджест за 16 - 22 декабря 2024 г. ▶️Модели, бенчмарки и датасеты 🔘MedMax: датасет для обучения мультимодальных медицинских моделей. Большой набор медицинских изображений с текстовыми описаниями, на которой можно обучать и модели для работы с медицинскими данными. 🔘RadiologyLlama-70B: модель генерации отчетов в радиологии. Модель, которая помогает врачам писать заключения, принимать решения и показывает лучшие результаты, чем обычные модели. 🔘Multi-OphthaLingua и CLARA: мультиязычный бенчмарк для оценки офтальмологических QA и RAG-система снижения предвзятости LLM. Датасет на 1184 вопроса по офтальмологии, которые легли в основу RAG-системы CLARA. 🔘FactEHR: датасет для оценки способности LLM к декомпозиции фактов. Набор из 2168 клинических записей 4 типов, который содержит 8665 декомпозиций фактов. ▶️Фреймворки и методологии 🔘ReflecTool: фреймворк для создания клинических агентов. Фреймворк, который помогает лучше справляться с клиническими задачами за счет использования специальных инструментов. 🔘Process-Supervised Reward Model: улучшение качества генерации клинических заметок с помощью LLM. Метод проверять качество медицинских заметок, созданных ИИ, оценивая их не целиком, а по шагам создания. 🔘LLM как эксперт: метод получения априорных знаний для прогностических моделей. Методика использования LLM как "экспертов" для создания более точных начальных параметров в прогностических моделях с ограниченным количеством данных. 🔘ICS: сегментация медицинских изображений с контекстным обучением. Улучшение сегментации последовательных медицинских изображений, используя предыдущие результаты для согласованности, без необходимости дополнительного обучения. 🔘HC-LLM: генерация радиологических отчетов с учетом исторической информации. Система, которая использует историю рентгеновских снимков и отчетов для генерации более качественных радиологических отчетов с LLM. ▶️Медицинские LLM-приложения 🔘Система рекомендаций на основе MoE. Система, объединяющая Mixture-of-Experts и языковые модели, для персонализированных рекомендаций здорового питания на основе текстовых и визуальных данных пользователя 🔘MCQG-SRefine: генерация медицинских тестов формата USMLE. Система на базе GPT-4, которая автоматически генерирует сложные экзаменационные вопросы по медицинским темам. 🔘LookDeep Health: AI-платформа для непрерывного мониторинга пациентов. Платформа, которая использует CV для непрерывного наблюдения за пациентами в больницах, отслеживая их перемещения и действия в реальном времени. ▶️Исследования и обзоры *️⃣Влияние уровня объяснимости ИИ на доверие и точность диагностики рака молочной железы. Исследование, которое показало, что чрезмерная детализация объяснений работы ИИ-систем поддержки врачебных решений может снижать доверие и точность диагностики среди врачей, и что более простые интерфейсы оказываются более эффективными. *️⃣Исследование федеративного обучения с RAG для LLM в медицинской сфере Сравнение нескольких подходов обучения для создания системы генерации медицинских текстов. Спойлер - LLM c RAG, лучше, чем без. *️⃣Обзор методов агрегации эмбедингов для анализа гистопатологических изображений в клинической практике. Сравнение, которое показало, что модели, обученные на медицинских данных, работают лучше, чем общие модели, и нет одного лучшего метода агрегации для всех задач. 🔜 Читать полный дайджест 🔜 Читать в Telegraph @ai_machinelearning_big_data

296 057

📌Топ Python-проектов для ML 2024 года. Эти проекты были выбраны на основе их актуальности на 2024 год. Каждый из них - смесь практической полезности, новизны и, честно говоря, крутости, будь то смелый и инновационный подход, элегантное решение сложных проблем или просто умная реализация. 🟢BAML - предметно-ориентированный язык для работы с LLM. BAML превращает текстовые промпты в многократно используемые функции LLM с типизированными переменными и обеспечивают конкретный тип выходных данных. BAML превосходит другие методы получения структурированных данных от LLM и поддерживает VS Code и Cursor. 🟢marimo - Python notebooks геймчейджер. Новый подход к notebook, который превращает их в мощную, реактивную среду для создания удобных для совместного использования рабочих процессов. Marimo готов заменить Jupyter и Streamlit, устраняя проблемы скрытого состояния и ручного выполнения ячеек. 🟢OpenHands - мощный агент для разработки. Безопасная изолированная среда, где AI-агенты могут выполнять код, взаимодействовать с веб-браузерами, управлять файлами, отлаживать проблемы, рефакторить код и даже сотрудничать с другими агентами. Среда включает в себя Docker-песочницу с доступом к bash-оболочке, веб-браузингом и IPython-сервером. 🟢Crawl4AI - интеллектуальный веб-скрапинг. Библиотека, которая обрабатывает динамический контент, обходит механизмы защиты от ботов, извлекает структурированные данные и масштабирует задачи сбора массивов информации. Асинхронная архитектура дает высокую скорость работы даже со сложным JavaScript. На выходе - форматы JSON, markdown и очищенный HTML, готовые для импорта в LLM. Crawl4AI поддерживает Chromium, Firefox и WebKit через Playwright. 🟢LitServe - универсальный движок для развертывания моделей. Детище LightningAI - мощный инструмент для развертывания моделей и сложных AI-конвейеров. Построен на базе FastAPI, поддерживает PyTorch, TensorFlow, JAX и работает с GenAI, СV, ASR и эмбедингами. LitServe умеет в KV-кэширование для LLM, и подходит как для легких приложений, так и для тяжелых корпоративных нагрузок. 🟢Mirascope - унифицированный интерфейс LLM. Python-инструмент для упрощения извлечения структурированных данных из LLM. Он предлагает удобный интерфейс, основанный на декораторах и декларативных схемах. Mirascope поддерживает OpenAI, Anthropic и Cohere и имеет свой поисковый агент WebSearchAgent, который может автономно собирать информацию из интернета. 🟢Surya - OCR с высокой точностью. OCR-система на 90 языках. Surya извлекает текст из сканированных изображений, PDF-файлов и других визуальных форматов с точностью, сравнимой с Google Cloud Vision. Помимо OCR, Surya проводит расширенный анализ документа, определяя заголовки, изображения, таблицы и порядок чтения, что идеально для оцифровки книг, форм и научных документов. 🟢DataChain - конвейер данных для ИИ. Платформа для управления версиями мультимодальных наборов изображений, видео, текста и PDF-файлов. Библиотека преобразует разрозненные файлы в централизованные датасеты, которые легко запрашивать и манипулировать с помощью Python без использования Spark или SQL. DataChain поддерживает PyTorch, TensorFlow, AI-генерацию метаданных, сериализацию инференса LLM и выполнение пакетных процедур. 🟢Narwhals - универсальный слой совместимости для DataFrame-библиотек. Легковесный слой, который объединяет pandas, Polars, PyArrow, Modin и cuDF в Python. Он позволяет писать код, не зависящий от используемого бэкенда, используя подмножество API Polars в качестве интерфейса. Поддерживает как eager, так и lazy execution стили, включая Dask. Narwhals не имеет зависимостей и обеспечивает статическую типизацию для автозавершения и подсказок в IDE. 🟢PydanticAI - фреймворк для разработки AI-приложений. Фреймворк агентов, которые управляют взаимодействием с LLM и проверкой их инференса. Имеет систему внедрения зависимостей, позволяющую динамически получать контекстные данные. PydanticAI поддерживает пользовательские функции Python, вызываемые агентами для доступа к информации и выполнения вычислений. @ai_machinelearning_big_data

296 057

📌Как линейная алгебра может помочь при разработке web-приложения. Интересная и познавательная статья разработчика Ивана Шубина о том, как он использовал матрицы для создания интерактивного редактора диаграмм Schemio. Изначально, редактор позволял создавать простые фигуры и манипулировать ими, но с введением иерархии объектов возникла необходимость в сложных преобразованиях координат. Матрицы стали ключом к решению этой проблемы, позволяя эффективно управлять перемещением, вращением и масштабированием объектов. Для преобразования глобальных и локальных координат между собой использовались матричные преобразования. Умножение матриц дало возможность комбинировать преобразования, а инверсия матрицы помогает переводить координаты из глобальных в локальные. Иван подробно описывает, как матрицы помогают управлять поворотом и масштабированием объектов относительно опорной точки и как они используются при монтировании и демонтировании объектов, чтобы избежать нежелательных коллизий. Таким образом, матричная математика стала решением для расширения возможностей редакторе Schemio. 🔜 Читать полную версию статьи #Math #LinearAlgebra #Webdev

296 057

В огне предновогодних дедлайнов не всегда хватает времени на обед, и облачный провайдер Cloud.ru с Самокатом решили это исправить. Они запустили лимитированную серию IT-боксов для перекуса: снеки и брендированные стикеры. Боксы рандомно добавляют в заказы счастливчикам из IT-компаний. Одобряем.

296 057

✔️ OpenAI анонсировала новые модели o3 и o3 mini. В последний день цикла 12 Days, OpenAI анонсировала новые модели "рассуждений" o3 и o3-mini, которые, со слов самой OpenAI, превосходят предыдущие поколения по производительности. Обе модели являются преемниками o1 и используют новый подход к "рассуждению", разбивая инструкции на более мелкие задачи. o3 превзошла o1 в SWE-Bench Verified на 22,8 процента, а также продемонстрировала высокие результаты в математических и научных задачах в бенчмарках, проведенных самой компанией. Публичный релиз пока не запланирован, но OpenAI начала принимать заявки для тестирования новых моделей. openai.com ✔️ Поиск Google получит режим "AI Mode" с интерфейсом, похожим на чат-бота Gemini. Google планирует добавить в свою поисковую систему новый режим "AI Mode". Эта опция, расположенная в верхней части страницы результатов, позволит переключаться на интерфейс, аналогичный чат-боту Gemini. Вкладка "AI Mode" будет находиться слева от вкладок "Все", "Изображения", "Видео" и "Покупки". При получении ответа в режиме "AI Mode" будут отображаться ссылки на соответствующие веб-страницы и строка поиска с подсказкой "Задать дополнительный вопрос...". Google, вероятно, испытывает давление из-за запуска поиска в ChatGPT и стремится объединить поиск и AI, уже отображая AI-сводки для некоторых поисковых запросов. theinformation.com ✔️ Еврокомиссия одобрила сделку Nvidia по приобретению Run:ai Европейская комиссия безоговорочно одобрила предложение Nvidia о приобретении компании Run:ai за 700 млн. долларов. Расследование ЕС по данной сделке было сосредоточено на практиках, которые могли бы усилить контроль Nvidia над GPU-рынком в ЕС. Однако, комиссия пришла к выводу, что приобретение Run:ai не вызовет опасений относительно конкуренции. Таким образом, сделка получила одобрение, и Nvidia сможет продолжить свое развитие не опасаясь препятствий со стороны европейских регуляторов. reuters.com ✔️ Cloudflare проставила Calls: бэкэнд для real-time AI-приложений. Cloudflare Calls состоит из сессий и треков, позволяя подключать AI, например ChatGPT, в качестве трека к текущей сессии. В сочетании с Realtime API от OpenAI позволяет создавать приложения, поддерживающие мультипользовательское взаимодействие с голосовым и видео AI в реальном времени. Cloudflare Calls использует WebRTC для передачи аудио и видеоданных и берет на себя сложность ее инфраструктуры, включая маршрутизацию медиа и TURN-серверы, предоставляя разработчикам готовую сеть для подключения пользователей к ближайшим серверам. Все видео и аудиопотоки шифруются по умолчанию, обеспечивая конфиденциальность и безопасность. blog.cloudflare.com ✔️ ReDrafter: ускорение инференса LLM на NVIDIA GPU. Apple в сотрудничестве с NVIDIA интегрировала новый метод спекулятивного декодирования ReDrafter в фреймворк NVIDIA TensorRT-LLM, что позволяет значительно ускорить инференс LLM на NVIDIA GPU. ReDrafter использует RNN в качестве черновой модели и динамический алгоритм древовидного внимания, повышая скорость генерации токенов до 3.5 раз за шаг по сравнению с другими методами. Интеграция в TensorRT-LLM потребовала от NVIDIA добавления новых операторов, расширив возможности фреймворка. В результате, при тестировании на производственной модели с десятками миллиардов параметров, наблюдалось ускорение генерации токенов в секунду в 2.7 раз . ReDrafter доступен через TensorRT-LLM. machinelearning.apple.com @ai_machinelearning_big_data #news #ai #ml

296 057

⚡️ ModernBERT: новое и улучшенное поколение BERT. ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa. Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует token type IDs, что упрощает ее использование. ModernBERT доступна в двух вариантах: 🟢base с 22 слоями и 149 млн. параметров; 🟢large с 28 слоями и 395 млн. параметров. Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста. Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания. Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет. ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов. Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования. Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large . ⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #ModernBERT