es
Feedback
Machinelearning

Machinelearning

Ir al canal en Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Mostrar más

📈 Análisis del canal de Telegram Machinelearning

El canal Machinelearning (@ai_machinelearning_big_data) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 295 417 suscriptores, ocupando la posición 333 en la categoría Tecnologías y Aplicaciones y el puesto 1 275 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 295 417 suscriptores.

Según los últimos datos del 24 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -6 346, y en las últimas 24 horas de -267, conservando un alto alcance.

  • Estado de verificación: No verificado
  • Tasa de interacción (ER): El promedio de interacción de la audiencia es 7.94%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.71% de reacciones respecto al total de suscriptores.
  • Alcance de las publicaciones: Cada publicación recibe en promedio 23 454 visualizaciones. En el primer día suele acumular 16 873 visualizaciones.
  • Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 183.
  • Intereses temáticos: El contenido se centra en temas clave como openai, claude, api, gemini, контекст.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 25 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

295 417
Suscriptores
-26724 horas
-1 5017 días
-6 34630 días
Archivo de publicaciones
⚡️ Дайджест интересных новостей 💰 Оценка компании TSMC Co. на короткое время превысила 1 триллион долларов из-за набирающей обороты "гонки за AI". Bloomberg 🟢 Nvidia объявила новый конкурс на создание набора данных с открытым исходным кодом для обучения студентов-магистров по проектированию аппаратного обеспечения с целью в конечном итоге автоматизировать разработку будущих графических процессоров. Nvlabs.Github 🖼 Magnific AI представила новый плагин Photoshop, позволяющий пользователям использовать инструмент масштабирования и улучшения изображения непосредственно в интерфейсе самого популярного редактора графики от Adobe. MagnificAI 👨🏻‍💻 Платформа Poe (принадлежит Quora) запустила «Previews» — новую функцию, позволяющую пользователям создавать веб-приложения и взаимодействовать с ними непосредственно в чатах, используя Claude 3.5 Sonnet. TechCrunch 🇯🇵 Министерство обороны Японии опубликовало свою первую базовую политику по использованию искусственного интеллекта в военных целях, направленную на решение проблем с набором персонала и не отставание от мировых держав в оборонных технологиях.. The Japan times 🎦 "Менее чем через год будет создано видео с помощью искусственного интеллекта в реальном времени...": интервью главного научный сотрудник Luma Labs. Andersen Horowitz 👩‍⚕️ Thrive AI Health, стартап, финансируемый OpenAI и Thrive Global, использует ИИ для предоставления персонализированных медицинских консультаций. Помощник с искусственным интеллектом может использовать данные человека, чтобы давать рекомендации по сну, диете, физическим упражнениям, управлению стрессом и социальным связям. Time ⚡️Groq представила молниеносный механизм LLM. Он может обрабатывать запросы со скоростью более 1250 токенов в секунду, что намного быстрее, чем могут делать чипы графических процессоров таких компаний, как Nvidia. Это позволяет движку Groq практически мгновенно отвечать на запросы и задачи пользователей. Venturebeat 🇨🇳 Microsoft не будет следовать за OpenAI в блокировании доступа Китая к моделям искусственного интеллекта. Модели OpenAI доступны клиентам через Microsoft Azure. Seekingalpha #news #digest @ai_machinelearning_big_data

+5
🌟 Paints-Undo - генерация пошагового видео процесса рисования по исходному изображению. Paints-Undo — это проект lllyasviel ( разработчик ForgeUI, FooocusUI, Controlnet, IC-Light ), целью которого является предоставление базовых моделей человеческого поведения при рисовании с надеждой, что будущие модели искусственного интеллекта смогут лучше соответствовать реальным потребностям людей-художников. Проект представляет собой семейство моделей, которые принимают изображение в качестве входных данных, а затем выводят последовательность рисования этого изображения. Модель отображает все виды человеческого поведения: рисование эскизов, рисование, раскрашивание, затенение, преобразование форм, переворот влево-вправо, настройку цветовой кривой, изменение видимости слоев, изменение общей идеи в процессе рисования. Вычислительные потребности: 24 ГБ VRAM на Nvidia 4090 и 3090TI, минимальные потребности - 12-16 ГБ VRAM. На обработку одного изображения уйдет в среднем 5-10 минут для видео длительностью 25 секунд с FPS=4 в разрешении 512х320 и ниже. Проект состоит из 2 моделей : Paints_undo_single_frame - модель берет 1 изображение и каждый указанный шаг за отдельную итерацию в обратном от результата порядке (пояснение на примере с живым рисованием, где одно движение кисти = одному шагу для модели. Диапазон шагов: от 0 до 999, где 0 - законченное изображение, а 999 - первое движение кисти.) Paints_undo_multi_frame - модель берет 2 изображения и выводит 16 промежуточных кадров между двумя входными изображениями. Результат гораздо более последовательный, чем у однокадровой модели, но также намного медленнее, менее «творческий» и ограничен 16 кадрами. Архитектура моделей представляет собой модифицированную SD 1.5, помимо этого включает компоненты 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection. Локальный запуск:
git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py
🟡 Страница c демо 🖥 Github [ Stars: 499 | Issues: 7 | Forks: 29 ] @ai_machinelearning_big_data #Image2Video #Image2Sketch #Diffusers #Research

⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения. TTT - это метод, который позволяет моделям ис
+1
⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения. TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения. Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат. Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы. По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше. Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени. На Github опубликованы адаптации метода: - адаптация под Pytorch - адаптация под JAX 🟡Arxiv 🖥 GitHub for Pytorch [ Stars: 277 | Issues: 3 | Forks: 12 ] 🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ] @ai_machinelearning_big_data #Pytorch #Jax #TTT #LLM #Training

🌟 UltraPixel — новый подход для получения изображений сверхвысокого разрешения Группа исследователей из Гонконгского универс
+3
🌟 UltraPixel — новый подход для получения изображений сверхвысокого разрешения Группа исследователей из Гонконгского университета науки и технологий (HKUST) совместно с Huawei Noah’s Ark Lab разработали принципиальной новую методику создание изображений в сверхвысоком разрешении (до 6000 px). Новая архитектура основана на совокупности диффузионных патчей, принципов технологии ScaleCrafter для управления расширением сверточных блоков, ResAdapter для точной настройки базовой модели T2I и адаптация энтропии внимания на уровне внимания сети шумоподавления. В качестве исходной генеративной модели используется StableCascade На сегодняшний день, исследователи дорабатывают механизм сохранения детализации для достижения максимального фотореалистичного результата. В ближайшее время планируется публикация кода и необходимых сопутствующих моделей для инференса и самостоятельной тренировки. О требуемых вычислительных ресурсах для запуска пайплайна не сообщается. 🟡 Страничка UltraPixel 🟡 Arxiv @ai_machinelearning_big_data #Text2Image #UltraHiRes #Diffusion #Ai

🌟 Inf-DiT: Upscale изображения до любого разрешения с помощью диффузионного трансформера с эффективным использованием памяти
+1
🌟 Inf-DiT: Upscale изображения до любого разрешения с помощью диффузионного трансформера с эффективным использованием памяти Диффузионные модели показывают замечательные результаты при создании изображений. Однако из-за квадратичного увеличения памяти при генерации изображений сверхвысокого разрешения (например, 4096×4096) разрешение генерируемых изображений часто ограничивается 1024×1024. Inf-DiT предлагает однонаправленный механизм внимания блоков, который может адаптивно регулировать затраты памяти во время процесса вывода и обрабатывать глобальные зависимости. Комплексные эксперименты показывают, что этот метод демонстрирует отличную производительность при создании изображений сверхвысокого разрешения. По сравнению с широко используемыми структурами UNet, Inf-Dit может 5-кратно сократить использование VRAM при генерации изображений размером 4096 × 4096. Адаптацию для ComfyUI обещают к концу июля. 🟡 Arxiv 🖥 GitHub [ Stars: 298 | Issues: 12 | Forks: 12 ] 🟡 Модель (прямая загрузка) #Upscale #DiT #Diffusers #Img2Img @ai_machinelearning_big_data

One Day Offer для Центра робототехники 🤖 13 июля вы сможете пройти все этапы отбора, познакомиться с инновационной командой
One Day Offer для Центра робототехники 🤖 13 июля вы сможете пройти все этапы отбора, познакомиться с инновационной командой Сбера и получить оффер Middle/Senior Robotics или Backend Developer. Наш Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям: манипуляция, роботизация логистики и мобильные роботы. Сейчас перед нами стоит по-настоящему амбициозная задача – разработать антропоморфного робота общего назначения. В работе мы используем: ROS/ROS2, DDS, Python, PyTorch, JAX, Model-transformers, SOTA, C++, Isaac Sim / MuJoCo / PyBullet. Какие задачи будут в вашем планере 👇 ▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов ▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines ▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet ▪️ проектирование архитектуры системы Масштабные проекты и работа мечты ждут вас. Регистрируйтесь на One Day Offer 13 июля 😉

IT-тусовка для ML-разработчиков от Яндекса. YACAMP, гранж и лето. 10 августа встречаемся на YACAMP — масштабной IT-тусовке в
IT-тусовка для ML-разработчиков от Яндекса. YACAMP, гранж и лето. 10 августа встречаемся на YACAMP — масштабной IT-тусовке в стиле гранж от сервисов Яндекса. Полезные доклады от экспертов по вашей теме, нетворкинг и вечеринка. Поговорим про продуктовую разработку, обсудим сложные кейсы, ну и отдохнём, конечно. В программе 10+ интерактивных площадок, выступления музыкантов, уже нашумевшее IT-казино и вечеринка до самого утра. Читайте подробности и регистрируйтесь на YACAMP. Реклама. ООО «Яндекс.Такси» ИНН 7704340310

⚛️ Исследователи из MIT разработали новый инструмент на основе генеративного ИИ, предназначенный для анализа сложных табличны
⚛️ Исследователи из MIT разработали новый инструмент на основе генеративного ИИ, предназначенный для анализа сложных табличных данных в базах данных Этот инструмент, называемый GenSQL, основан на языке программирования SQL и позволяет пользователям выполнять сложные статистические анализы без глубокого понимания внутренних механизмов. GenSQL может использоваться для прогнозирования, обнаружения аномалий, заполнения пропущенных значений, исправления ошибок и создания синтетических данных. Система интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределенность и корректировать процесс принятия решений на основе новых данных. Одно из основных преимуществ GenSQL заключается в его способности обрабатывать сложные запросы, комбинируя анализ данных и модели. Например, система может определить вероятность того, что разработчик из Сиэтла знает язык программирования Rust, учитывая не только корреляцию между столбцами в базе данных, но и более сложные зависимости. Кроме того, вероятностные модели, используемые GenSQL, являются прозрачными и аудируемыми, что позволяет пользователям видеть, какие данные используются для принятия решений и получать оценку уровня неопределенности. В ходе исследования GenSQL был сравнен с другими популярными методами, основанными на нейронных сетях, и показал значительно более высокую скорость и точность. Исследователи планируют продолжить разработку инструмента, сделав его более доступным и мощным, а также расширить его возможности для обработки больших объемов данных и обработки естественного языка, чтобы в конечном итоге создать эксперта по ИИ, подобного ChatGPT, для анализа баз данных. 📌 Источник #базыданных #mit @ai_machinelearning_big_data

🌟 GeoWizard — модель для оценки 3D-параметров, таких как глубина, по отдельным изображениям git clone git@github.com:fuxiao0
+1
🌟 GeoWizard — модель для оценки 3D-параметров, таких как глубина, по отдельным изображениям
git clone git@github.com:fuxiao0719/GeoWizard.git
cd GeoWizard
conda create -n geowizard python=3.9
conda activate geowizard
pip install -r requirements.txt
cd geowizard
GeoWizard — это новая генеративная модель, предназначенная для оценки таких геометрических 3D-параметров как глубина по отдельным изображениям. GeoWizard позволяет оценивать глубину и получать карту нормалей на порядок лучше всех предыдущих методов, что сильно повлияет на методы 3D-реконструкции 🟡 Страничка GeoWizard 🖥 GitHub 🟡 Hugging Face 🟡 Arxiv @ai_machinelearning_big_data

🔹 Как применять нейронные сети в анализе финансовых рынков? Рассмотрим, нейронные сети в финансах на открытом уроке от Otus.
🔹 Как применять нейронные сети в анализе финансовых рынков? Рассмотрим, нейронные сети в финансах на открытом уроке от Otus. Эта лекция разработана для тех, кто стремится понять: как нейронные сети могут быть использованы для предсказания рыночных движений и улучшения инвестиционных стратегий ✅ В течении часа рассмотрим реальные примеры и кейсы, использования нейронных сетей в торговых стратегиях, включая анализ временных рядов и алгоритмическую торговлю. Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска 👉 Регистрация на урок и подробности: https://otus.pw/kcoE/?erid=LjN8KVYNM

🌟 ControlNet++ — улучшенная версия вспомогательной технологии для генерации изображений ControlNet++ использует дискриминаци
+1
🌟 ControlNet++ — улучшенная версия вспомогательной технологии для генерации изображений ControlNet++ использует дискриминационные модели вознаграждения для оптимизации согласованности между входными условиями (изрбражение-референс) и результатами генерации за счет оптимизации последовательности циклов. Согласно опубликованным бенчмаркам, ControlNet++ значительно улучшает управляемость процессом генерации. Новый метод метод превосходит классический ControlNet: - на 7.9% по mIoU; - на 13.4% по SSIM; - на 7.6% по RMSE. Адаптации под UI для Stable Diffusion пока нет. Еще круче то, что контролнеты++ успели упаковать в Controlnet Union и собрали в 1 модель. Теперь можно разом делать 12 препроцессов с одной модели CN. 👉 Репозиторий https://huggingface.co/xinsir/controlnet-union-sdxl-1.0 Модель safetensors без конфига в папку с Контролнетом Автоматика1111 или ComfyUI. Это все действия которые необходимо сделать) А самое главное - больше не нужно качать тонну моделей и следить в UI что нужный препроцессор выбран. Работает controlnet union на SDXL-моделях. Для SD3 свой контролнет, для SD1.5 -свой, этот работать не будет. 👉 Видео: https://www.youtube.com/watch?v=UBFEw1IUX_I 🖥 GitHub [ Stars: 274 | Issues: 2 | Forks: 11 ] 🟡 Страничка проекта ControlNet++ 🟡 Arxiv 🟡 Демо на HF 🟡 Модели на HF #ControlNet #Diffusers #Image2Image @ai_machinelearning_big_data

Конференция по машинному обучению Собрали 30+ спикеров из Т-Банка, Яндекса, VK, MTS AI и AIRI. Будет: — 4 параллельных потока
Конференция по машинному обучению Собрали 30+ спикеров из Т-Банка, Яндекса, VK, MTS AI и AIRI. Будет: — 4 параллельных потока: NLP & MLOps/LLMops, Research & RnD, CV & Speech, RecSys & TS; — доклады и обсуждения реальных бизнес-задач; — афтепати с барбекю и диджеем. Turbo ML Conf пройдет 20 июля в Москве. Обязательно зарегистрируйтесь, пока за вас это не сделал бот. erid:2VtzqxZ5ma8 Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673

+2
🌟 СogVLM2-Video — обновление популярной VLM уровня GPT4V на основе Llama3-8B CogVLM2-Video обучалась на боле чем 30 тыс пар видео-текст. Метод понимания видеоряда. реализованный в модели основан на автоматизированном процессе обобщения распознанных кадров с временной меткой, которым управляет LLM c навыком ранжирования локализаций и удержанием ключевого контекста. CogVLM2 способна проанализировать видео, дать ответы на вопросы по контексту видеоряда и предоставить текстовые субтитры значительно быстрее других VLM. Лицензия на использование: - для академических исследований бесплатно - для коммерческих проектов необходима регистрация через специальную форму и выполнение условий по указанию авторства на всех полученных материалах. 🟡 Страничка CogVLM2 🖥 GitHub [ Stars: 1.5к | Issues: 26 | Forks: 79 ] 🟡 Модель на HF #video #VLM

🤔 Билайн.бизнес и венчурный фонд ХАЙВ объявляет о запуске серии Pitch Day AI, посвященной инновационным технологиям в област
🤔 Билайн.бизнес и венчурный фонд ХАЙВ объявляет о запуске серии Pitch Day AI, посвященной инновационным технологиям в области искусственного интеллекта и больших данных. Мы ищем перспективные стартапы, у которых есть В2В продукт для корпоративных клиентов, которые получат возможность стать партнерами билайн.бизнес и войти в продуктовый портфель Big Data & AI, а также привлечь инвестиции от венчурного фонда ХАЙВ в размере до 100 млн руб. Темы: - Видеоаналитика и компьютерное зрение - Анализ речи и текста - Приложения, решения и ПО для повышения эффективности бизнеса и государства на основе машинного обучения и больших данных (кроме видео-, аудио- и текстовой аналитики), включая сервисы для оценки финансовых рисков и прогнозирования оптимального места для открытия торговой точки. Условия для участия: - Готовый продукт, соответствующий одной из заявленных тем - Наличие команды и первых коммерческих клиентов с подтвержденным опытом внедрения и использования продукта. Этапы проведения: Прием заявок до 19 июля. 19 июля — 2 августа — отбор проектов. 2 — 14 августа — подготовка к выступлению. 15, 22 и 29 августа — проведение Pitch Day. Все необходимые для участия и просто полезные ссылки — на билайн now 🐝 Реклама ПАО «ВымпелКом», beeline.ru

⚡️ ReproModel — набор no-code инструментов для обучения и тестирования AI-моделей. ReproModel — GUI, который упрощает эффективность исследований, предоставляя стандартизированные модели, загрузчики данных и процедуры обработки. Он включает в себя полный спектр уже существующих бенчмарков, экстрактор кода и дескриптор LLM. Этот набор инструментов помогает исследователям модульно структурировать свою разработку и сравнивать производительность каждого этапа конвейера воспроизводимым способом. По заявлению разработчика, инструмент помогает сократить время разработки, расчета и обучение модели как минимум на 40%. *️⃣Лицензирование: MIT License *️⃣Для локального запуска необходим NodeJS *️⃣Для локального запуска генератора методологий необходима Ollama 🖥 GitHub [ Stars: 35 | Issues: 0 | Forks: 1 ] 🟡 Демо видео на Youtube #opensource #train #LLM #SOTA

+1
⚡️ MOTIA — outpaint видео (добавление контента за границами области просмотра) с сохранением межкадровой согласованности. MOTIA — двухэтапный конвейер на основе генеративной диффузии. Первая фаза (input-specific adaptation) выполняет outpaint первого кадра видео и определяет паттерн закономерности для дорисовки в последующих кадрах. Вторая фаза (pattern-aware outpainting) делает непосредственно outpaint всего видео на основе знаний первой фазы, добавляя шум и контролирует пространственную геометрию, сохраняя возможную плавность и бесшовность. Судя по бенчмаркам разработчика, MOTIA - один из лучших методов на данный момент. Запустить:
conda env create -f environment.yml
git clone https://huggingface.co/wangfuyun/Be-Your-Outpainter
bash run.sh
🖥 GitHub 🟡 Модели на HF 🟡 Страничка MOTIA 🟡 Arxiv @ai_machinelearning_big_data

Изучите применение ChatGPT в рабочих целях, чтобы получить от этого прибыль. Сейчас самое время начать использовать искусственный интеллект. Здесь вы узнаете, почему стоит освоить ChatGPT. Это поможет вам: - Использовать ChatGPT в вашей профессиональной сфере. - Предлагать компаниям разработку индивидуально дообученного ChatGPT по заказу. - Увеличить свой доход, освоив навык создания индивидуально дообученного ChatGPT. Зарегистрируйтесь на бесплатный вебинар, чтобы узнать больше деталей. Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KPpVo

⚡️ RouteLLM - фреймворк с открытым исходным кодом для эффективной маршрутизации между несколькими LLM Метод построения маршру
+1
⚡️ RouteLLM - фреймворк с открытым исходным кодом для эффективной маршрутизации между несколькими LLM Метод построения маршрутов (роутеров) использует данные о предпочтениях для обучения управляющего роутера, который может предсказывать, какие запросы могут быть обработаны слабыми моделями, а какие требуют более мощных. RouteLLM обещает значительное снижение затрат без ущерба для качества ответов. В тестах, таких как MT Bench и MMLU, RouteLLM достиг высокой производительности при меньшем количестве вызовов на мощные модели. В фреймворке реализована поддержка вызова по API (OpenAI, Anthropic, Google, Amazon Bedrock) и локального бекэнда (Ollama) Преднастроены 4 роутера, обученных на паре моделей gpt-4-1106-preview и  mixtral-8x7b-instruct-v0.1 : mf - использует модель матричной факторизации, обученную на данных о предпочтениях sw_ranking - использует взвешенный расчет ELO для маршрутизации, где каждый голос взвешивается в зависимости от того, насколько он похож на запрос пользователя bert - использует классификатор BERT causal_llm - использует классификатор отдельной LLM настроенный на данные о предпочтениях. random - случайным образом направляет запрос к случайной модели. 🟡Arxiv 🟡Страница проекта 🟡Модели (Augmented for routes) на HF 🖥Github [ Stars: 686 | Forks: 52 | Issues:2] #LLM #ML #machinelearning #opensource @ai_machinelearning_big_data

+2
🌟 CLIP-DINOiser — MaskCLIP с семантической сегментацией под управлением DINO Метод CLIP-DINOiser использует только один прямой проход CLIP и двух легких сверточных слоев при выводе, при этом не требует дополнительного контроля и дополнительной VRAM. В результате применение методв значительно снижается уровень шума. Метод демонстрирует высокие результаты в бенчмарках COCO, Pascal Context, Cityscapes и ADE20k. Код запуска:
python demo.py --file_path [path to the image file] --prompts [list of the text prompts separated by ',']
❗️ Дополнительно нужно установить MMCV and MMSegmentation 🟡 Страничка CLIP-DINOiser 🟡 Arxiv 🖥 GitHub 🟡 Jupyter Notebook @ai_machinelearning_big_data

⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм Kolors — это большая диффузионна
+2
⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors. Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений. По результатам оценки 50 независимых экспертов, модель Kolors генерирует более красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели 🟡 Страничка Kolors 🟡 Попробовать 🖥 GitHub @ai_machinelearning_big_data