Machinelearning

Відкрити в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Сітка:Machinelearning Росія1 275 Технології та додатки329...

📈 Аналітичний огляд Telegram-каналу Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 296 030 підписників, посідаючи 329 місце в категорії Технології та додатки та 1 275 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 296 030 підписників.

За останніми даними від 21 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -6 159, а за останні 24 години на -192, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 8.12%. Протягом перших 24 годин після публікації контент зазвичай збирає 5.73% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 24 037 переглядів. Протягом першої доби публікація в середньому набирає 16 970 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 191.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як openai, claude, api, gemini, контекст.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Завдяки високій частоті оновлень (останні дані отримано 22 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

296 030

Підписники

-19224 години

-1 4507 днів

-6 15930 день

24 037

Перегляди допису

~ 16 97024 години

~ 19 10748 годин

8.12%

Коефіцієнт залучення

~ 5

Дописів на день

Ads index

beta

Архів дописів

295 982

🌟 Text-to-Speech в браузере на безе OuteTTS. Простое приложение React + Vite для запуска OuteTTS с помощью Transformers.js и WebGPU. Попробовать демо можно на HuggingSpace. При первом запуске модель загружается в кэш браузера, это занимает какое-то время. ▶️ Локальная установка и запуск:

# Clone the repository
git clone https://github.com/huggingface/transformers.js-examples.git

# Go to project dir
cd transformers.js-examples/text-to-speech-webgpu

# Install the dependencies via npm
npm i

# Run dev server
npm run dev

# Open your browser and go to&nbsp;http://localhost:5173

🟡Demo 🖥Github @ai_machinelearning_big_data #AI #ML #TTS #WebGPU #TransfomersJS

295 982

🔥 Российские ученые представят рекордное количество работ на NeurIPS 2024 в Ванкувере. Специалисты из AIRI подготовили к презентации 17 научных работ. Среди исследуемых тем — обновление крупнейшего в мире датасета для лекарственных молекул, оптимизация в машинном обучении, а также методы удешевления обучения AI-моделей. Одна из работ, подготовленных совместно с Лабораторией искусственного интеллекта Сбера, изучает влияние эмоций на принятие решений нейросетями. По словам старшего вице-президента Сбера Андрея Белевцева, такой успех говорит о высокой конкурентоспособности отечественной науки в области AI на мировой арене. @ai_machinelearning_big_data #AI #LLM

295 982

📌Монография "Reinforcement Learning: An Overview" Исчерпывающий материал по обучению с подкреплением (Reinforcement Learning, RL), в котором подробно описываются различные модели среды, задачи оптимизации, исследуется определение компромисса между теорией и практической эксплуатаций RL. Отдельно рассматриваются смежные темы: распределенное RL, иерархическое RL, обучение вне политики и VLM. В работе представлен обзор алгоритмов RL: 🟢SARSA; 🟢Q-learning; 🟢REINFORCE; 🟢A2C; 🟢TRPO/PPO; 🟢DDPG; 🟢Soft actor-critic; 🟢MBRL. Автор - Kevin Murphy, главный научный сотрудник и руководитель команды из 28 ресечеров и инженеров в Google Deepmind. Группа работает над генеративными моделями (диффузия и LLM), RL, робототехникой, байесовским выводом и другими темами. Кевин опубликовал более 140 статей на рецензируемых конференциях и в журналах, а также 3 учебника по ML, опубликованных в 2012, 2022 и 2023 годах издательством MIT Press. (Книга 2012 года была удостоена премии ДеГроота как лучшая книга в области статистической науки). 🔜 Монография опубликована в открытом доступе 9 декабря 2024 года. @ai_machinelearning_big_data #AI #ML #Book #RL

295 982

📌Интерактивное руководство по Prompt Engineering для Ollama. Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B. Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama. Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B. ▶️Содержание: Начальный уровень 🟢Глава 1: Базовая структура промпта. 🟢Глава 2: Ясность и прямота. 🟢Глава 3: Назначение ролей. Средний уровень 🟢Глава 4: Отделение данных от инструкций. 🟢Глава 5: Форматы данных инференса и речь для Ollama. 🟢Глава 6: Рассуждение (шаг за шагом). 🟢Глава 7: Использование примеров. Продвинутый уровень 🟠Глава 8: Избегание галлюцинаций. 🟠Глава 9: Создание сложных промптов (примеры использования для реальных задач): 🟢Сложные промпты с нуля - чатбот; 🟢Сложные промпты с нуля по юридическим услугам; 🟢Упражнение: Сложные промпты для финансовых услуг; 🟢Упражнение: Сложные промпты для программирования. Приложение: За пределами стандартных подсказок 🟠Цепочка промптов. 🟠Использование инструментов. 📌Лицензирование: MIT License. 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Github #Tutorial #Ollama

295 982

Салют от команды GigaChat! Приглашаем на конференцию по технологиям ИИ 📆 17 декабря, 12:30 (МСК, GMT+3) 📍 Офлайн в Москве. Для посещения в офлайне нужно дождаться приглашения от организаторов. 🌐 Онлайн-трансляция на сайте SberDevices В программе — 9 докладов о том, как ИИ учится говорить, слышать, фильтровать данные и помогать людям. Спикеры расскажут про создание ИИ-агентов и персонажей, эмбеддинги и навыки моделей. Поделятся способами фильтровать данные и быстро обучать мощные модели. Вас ждут новости разработки GigaChat и ассистента Салют, а также расскажут про open-source модели. Участвуйте в дискуссиях с другими участниками и задавайте вопросы спикерам во время докладов. А офлайн-участников ждут афтерпати и стенды с технологиями: можно будет протестировать GigaChain и технологии GigaChat Audio, а также поработать с гипотезами в GigaPlayground. Для участия нужно зарегистрироваться на сайте. Больше подробностей — в Telegram-канале конференции. Реклама. ПАО Сбербанк. ИНН 7707083893

295 982

✔️ Венчурный фонд a16z представил прогноз ключевых технологических трендов на 2025 год. Эксперты Andreessen Horowitz ожидают рост спроса на ядерную энергию для обеспечения растущих потребностей центров обработки данных искусственного интеллекта. Появятся новые профессии, требующие навыков в области аппаратного и программного обеспечения, робототехники и автоматизации. XR-устройства получат развитие как инструменты для разработчиков, создающих приложения для реального мира. В сфере здравоохранения ИИ будет использоваться для демократизации доступа к медицинской информации и решения кадрового кризиса. Ожидается рост популярности периферийного ИИ и создание крупных вычислительных центров для обучения и развертывания моделей ИИ. a16z.com ✔️ В Китае создан ИИ для написания политически корректных документов. Китайский интернет-гигант Baidu совместно с партийным приложением Xuexi разработал инструмент на основе искусственного интеллекта, который помогает чиновникам создавать политически корректные документы. Xuexi – это приложение, посвященное жизни и идеям Си Цзиньпина. Новый инструмент проверяет документы на соответствие идеям Си Цзиньпина и гарантирует, что ссылки на его высказывания взяты из проверенных источников. Инструмент также может использоваться для создания документов с цитированием государственной статистики и политики. theregister.com ✔️ Бывший сотрудник OpenAI создает стартап в области AI-аудио. Алексис Конно, один из разработчиков Advanced Voice Mode для ChatGPT, основал стартап WaveForm, который занимается созданием системы AI-аудио, способной улавливать больше нюансов речи, чем существующие технологии. WaveForm, получивший начальное финансирование в размере 40 млн. долл. от Andreessen Horowitz, стремится создать систему, которая пройдет "речевой тест Тьюринга", то есть сможет имитировать человеческую речь настолько точно, что пользователи не смогут отличить ее от живого собеседника. В настоящее время WaveForm, состоящий из 5 сотрудников, находится на стадии разработки своих моделей. axios.com ✔️ Ultralytics YOLO11 была взломана и содержит криптомайнер. Ultralytics YOLO11, модель, предназначенная для обнаружения объектов, была скомпрометирована в результате атаки на цепочку поставок. Вредоносный код, внедренный в версии 8.3.41 и 8.3.42, устанавливал криптомайнер на устройства пользователей, скачавших библиотеку с через Python Package Index (PyPI). Ultralytics, используемая в популярных проектах SwarmUI и ComfyUI, загружалась более 260 000 раз за сутки. Вредоносный код запускал майнер XMRig, подключающийся к пулу "connect.consrensys[.]com:8080". Разработчики Ultralytics удалили скомпрометированные версии и выпустили обновление 8.3.43, устраняющее уязвимость. Расследование показало, что атака, возможно, была осуществлена через два вредоносных запроса на внесение изменений в код от пользователя из Гонконга. В настоящее время проводится полный аудит безопасности для предотвращения подобных инцидентов в будущем. bleepingcomputer.com ✔️ OpenAI представила Sora: новую модель для создания видеороликов по текстовому описанию. Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p. Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео. openai.com @ai_machinelearning_big_data #news #ai #ml

295 982

В «Золотом Яблоке» можно создавать кастомные подарочные карты с дизайном от YandexART 🎨 «Золотое Яблоко» внедрило Yandex AI Rendering Technology — диффузионную нейросеть, которая создаёт изображения в ответ на текстовые запросы. Теперь она генерирует уникальные подарочные карты по запросам покупателей. Пока генерация работает на сайте, а в декабре заработает и в приложении. С безопасностью, кстати, всё в порядке: сервис не делает дизайны на спорные темы. Нейросеть можно использовать и в других сценариях: генерировать материалы для сайта или брендбука; придумывать маскотов; создавать фирменные иконки и логотипы. Тем, кто собирается решать с помощью нейросетей бизнес‑задачи, рекомендуем попробовать Playground в консоли Yandex Cloud.

295 982

🌟 EXAONE 3.5: Набор инструктивных моделей от LG AI. LG AI Research опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов: 🟠2.4B – компактная модель для использования на устройствах;, 🟠7.8B – универсальная модель; 🟢32B – высокопроизводительная модель для задач, требующих максимальной эффективности. Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей. Для повышения надежности оценки производительности EXAONE 3.5 был проведен тщательный процесс деконтаминации. Метод деконтаминации был взят из глобальной модели, а его эффективность оценивалась путем многократного сравнения обучающих данных с тестовыми наборами данных. К каждой модели, LG AI выпустил квантованные версии в форматах AWQ и GGUF. ⚠️ EXAONE 3.5 - инструктивные модели, поэтому рекомендуется использовать системные промпты, представленные в примере кода инференса. ▶️Пример инференса EXAONE-3.5-7.8B-Instruct на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "%Prompt%" 

messages = [
    {"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

📌Лицензирование: EXAONE AI Model License. 🟡Статья 🟡Набор моделей 🟡Demo 7.8B 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #EXAONE #LG

295 982

🌟 EuroLLM: многоязычные модели европейских языков. EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках: Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский. ▶️В коллекции представлены модели: 🟢EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов; 🟢EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод; 🟠EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096; 🟠EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо ⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF. ▶️Пример кода инференса EuroLLM-9B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📌Лицензирование: Apache License 2.0 🟡Набор моделей 🟡Arxiv 🟡Demo EuroLLM-1.7B-Instruct @ai_machinelearning_big_data #AI #ML #LLM #EuroLLM

295 982

🌟 AQLM․rs: сокращаем расходы на нейросети Исследователь Яндекса разработал сервис для запуска языковых моделей с 8 млрд параметров на пользовательских девайсах. Автор написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU. Для этого он применил технологию сжатия нейросетей AQLM, которую разработала команда Yandex Research вместе с университетами ISTA и KAUST. Для примера, скорость ответов нейросети на MacBook Pro M1 составила 1,5 токена в секунду или 3–4 символа. 🟡Статья 🖥Github @ai_machinelearning_big_data #AI #ML #LLM

295 982

🌟 ShowUI-2B: VLM для взаимодействия с графическими интерфейсами. ShowUI-2B - VLM на базе Qwen2-VL-2B, которая оптимизирована для взаимодействия с GUI. Она обладает глубоким пониманием пользовательских интерфейсов и навигации по ним на веб- и мобильных платформах. Модель обрабатывает комбинацию визуальных и текстовых данных для создания соответствующих действий GUI. Она интерпретирует скриншоты и текстовые инструкции для определения точек и последовательности взаимодействия. В качестве входных данных ShowUI-2B может принимать: скриншоты интерфейсов, текстовые инструкции (или запросы), системные промпты, определяющие области действия и последовательности действий. Результат инференса модели: координаты расположения элементов пользовательского интерфейса [x,y], действия (щелчок, ввод, выбор и т.д.), значения для ввода текста и целевые позиции для взаимодействия. Для мобильных интерфейсов ShowUI-2B обрабатывает касания, свайпы и ввод текста. Прикладные сферы применения : 🟢Автоматизированное тестирование интерфейса; 🟢Агенты автоматизации задач; 🟢Интерактивные учебные пособия и системы рекомендаций; 🟢UX\UI-задачи приложений и веб-сайтов. ShowUI-2B продемонстрировала высокую эффективность в задачах zero-shot grounding (75.1% точности) и навигации по GUI на различных платформах (Web, Mobile, Online). ⚠️ Модель поддерживает интеграцию с Computer Use OOTB, проектом Desktop GUI Agent, который позволяет управлять действиями на PC с помощью LLM, запущенной локально или через API. ▶️Установка и запуск с GradioUI:

# Clone the Repository
git clone https://github.com/showlab/ShowUI.git
cd ShowUI

# Install Dependencies
pip install -r requirements.txt

# Start the GradioUI
python app.py

# Go to local URL:  http://127.0.0.1:7860

📌Лицензирование: MIT License. 🟡Модель 🟡Demo 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #ShowUI

295 982

Погружаемся в ML вместе на Data Dojo! Собираемся уже 17 декабря, чтобы послушать три доклада от спикеров из разных сервисов Яндекса: 🔸 Илья Дьяков из команды Автономного транспорта разберёт задачку с Yandex ML Cup. Она связана с симуляторами, которые предсказывают дорожное движение и тестируют ML-модели до того, как они попадут в настоящие автомобили. 🔸 Артемий Вешкин из Яндекс Музыки тоже рассмотрит один из этапов Yandex ML Cup. И расскажет, как разработать решение, которое будет отличать кавер-версии от оригиналов песен. 🔸 Николай Карпачёв из команды Переводчика расскажет, как ребята поучаствовали в соревновании по качеству перевода на WMT24. В главном треке ребята попали в топ-5! 📅 Зарегистрироваться и узнать подробности можно тут. Ждём вас! Реклама. ООО "Яндекс", ИНН 7736207543.

295 982

📎 ML в медицине: дайджест за 1 - 7 декабря 2024 г. ▶️Модели, бенчмарки и датасеты 🔘SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток. Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках. 🔘Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей. Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание. 🔘EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии. Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами. ▶️Фреймворки и методологии 🔘RARE: RAG-ризонинг. Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний. 🔘STORM: cтратегия организации модальностей для классификации редких событий. Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач. 🔘TransFair: прогноз прогрессирования глазных заболеваний. Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными. 🔘PePR: оценка эффективности моделей с учетом потребления ресурсов. Показатель, который помогает оценить, насколько эффективно модель использует ресурсы. 🔘Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением. Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности. ▶️Медицинские LLM-приложения 🔘MedChain: LLM-агент и бенчмарк для принятия клинических решений. Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов. 🔘QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами. Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом. 🔘CLINICSUM: генерация медицинских заключений из диалогов врача и пациента. Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру. ▶️Исследования и обзоры *️⃣Проблемы производительности LLM для здравоохранения с учетом демографической справедливости. Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах. *️⃣Применение эмбединг-моделей для классификации медицинских текстов. Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных. *️⃣BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего. Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах. 🔜 Читать полный дайджест @ai_machinelearning_big_data

295 982

⚡️ TRELLIS: универсальная модель для генерации 3D-контента от Microsoft. TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки. SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения. TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов. Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны). ⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше. ▶️Установка и запуск c WebUI (Gradio):

# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS

# Create conda env and install dependencies
. ./setup.sh --new-env --basic  --flash-attn --diffoctreerast --spconv 
--mipgaussian --kaolin --nvdiffrast

# Install web demo via Gradio
. ./setup.sh --demo

# Run WebUI
python app.py

📌Лицензирование: MIT License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #ImageTo3D #Trellis #Microsoft

295 982

🌟 Fish Speech V1.5: модель преобразования текста в речь и клонирования голоса. Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle"). Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса. ▶️Языковая структура обучающего корпуса версии 1.5: 🟢Английский (en) >300 тыс. часов 🟢Китайский (zh) >300 тыс. часов 🟢Японский (ja) >100 тыс. часов 🟢Немецкий (de) ~20 тыс. часов 🟢Французский (fr) ~20 тыс. часов 🟢Испанский (es) ~20 тыс. часов 🟢Корейский (ko) ~20 тыс. часов 🟢Арабский (ar) ~20 тыс. часов 🟠Русский (ru) ~20 тыс. часов 🟢Голландский (nl) <10 тыс. часов 🟢Итальянский (it) <10 тыс. часов 🟢Польский (pl) <10 тыс. часов 🟢Португальский (pt) <10 тыс. часов Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker. Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech. ⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском. 📌Лицензирование: CC-BY-NC-SA-4.0 License. 🟡Модель 🟡Demo 🟡Документация 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #TTS #FIshSpeech

295 982

✔️ Уязвимости в инструментах машинного обучения. Уязвимости, обнаруженные компанией JFrog в популярных инструментах машинного обучения с открытым исходным кодом: MLflow, H2O, PyTorch и MLeap, позволяют злоумышленникам использовать клиентские библиотеки машинного обучения, которые работают с Safetensors. Взлом клиента машинного обучения позволяет получить доступ к учетным данным реестра моделей и внедрить вредоносный код. Среди обнаруженных уязвимостей - недостаточная санитизация в MLflow (CVE-2024-27132), небезопасная десериализация в H2O (CVE-2024-6960), проблема с обходом пути в PyTorch и уязвимость Zip Slip в MLeap (CVE-2023-5245). thehackernews.com ✔️OPENAI представили reinforcement finetuning для o1 (RFT). Этот метод отличается от обычного файнтюнинга (или файнтюнинга с учителем) тем, что он позволяет обучать модель думать определённым образом в конкретной области, важной для пользователя. Подробнее ✔️ Apple планирует изменить конструкцию памяти iPhone для повышения производительности ИИ. Компания планирует внедрить дискретную упаковку памяти в iPhone, начиная с 2026 года, чтобы повысить производительность ИИ на устройстве. Samsung, поставщик компонентов памяти Apple, уже начал проводить исследования, чтобы удовлетворить запрос Apple. Сейчас iPhone использует упаковку типа «пакет-на-пакете» (PoP), где DRAM LPDDR размещается непосредственно на "системе-на-кристалле" (SoC). Переход на дискретную упаковку позволит увеличить количество контактов ввода-вывода, повышая скорость передачи данных и количество параллельных каналов данных. Это улучшит пропускную способность памяти и возможности ИИ и также улучшает теплоотвод. Однако это изменение может потребовать уменьшения размера SoC или аккумулятора, а также увеличить энергопотребление и задержку. macrumors.com ✔️ Google DeepMind представит более 100 научных работ на NeurIPS 2024. Google DeepMind примет участие в 38-й ежегодной конференции по нейронным системам обработки информации (NeurIPS), которая пройдет с 10 по 15 декабря в Ванкувере, где представит более 100 новых научных работ по темам: агенты ИИ, генеративные медиа, инновационные подходы к обучению. В рамках конференции запланированы живые демонстрации Gemma Scope, ИИ для создания музыки, модели прогнозирования погоды, системы CAT3D и Android Control. deepmind.google ✔️ PlayerUnknown представил 2 новые игры, основанные на машинном обучении. Разработчик PlayerUnknown анонсировал две новые игры, основанные на технологиях Ai и ML: Preface: Undiscovered World и Prologue: Go Wayback. Preface: Undiscovered World доступна в раннем доступе в Steam и представляет собой техническую демонстрацию процедурно генерируемых миров. Prologue: Go Wayback – это "выживалка", в которой погода и окружающая среда непосредственно влияют на исследование мира игроком. Обе игры служат «строительными блоками» для будущих проектов PlayerUnknown Productions и предназначены для сбора отзывов пользователей. dualshockers.com ✔️ Китай представил сверхпроводящий чип с 504 кубитами. Китай представил свой самый передовой квантовый компьютер «Tianyan-504» с 504-кубитным чипом «Xiaohong», разработанным в партнерстве с Китайской академией наук и компанией QuantumCTek. «Tianyan-504» устанавливает новый национальный рекорд, преодолевая порог в 500 кубитов, и конкурирует с IBM, по показателям производительности, времени жизни кубита и точности считывания. «Tianyan-504» будет интегрирован с квантовой облачной платформой China Telecom «Tianyan», запущенной в 2023 году, чтобы обеспечить глобальный доступ к возможностям квантовых вычислений. Платформа «Tianyan» уже привлекла более 12 миллионов посещений пользователей из более чем 50 стран. thequantuminsider.com @ai_machinelearning_big_data #news #ai #ml

295 982

⚡️ Llama 3.3 70B. Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам. Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности. Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года. Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки. ▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📌Лицензирование: LLAMA 3.3 License. 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #Llama3

295 982

🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения. The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых. Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом. Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования. Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование. The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет. ▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
    well_base_path="hf://datasets/polymathic-ai/",
    well_dataset_name="active_matter",
    well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
    ...

📌Лицензирование кода : BSD-3-Clause License. 📌Лицензирование датасетов : CC-BY-4.0 License. 🟡Страница проекта 🟡Коллекция на HF 🟡Demo 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Dataset #TheWell

295 982

🎨Исследователи создали новый способ генерации изображений, который не уступает методу диффузии Ученые из Yandex Research представили новый подход к генерации изображений: Switti (Scale-wise transformer for text-to-image synthesis). Команда взяла за основу AR-модели, которые автоматически предсказывают следующий компонент последовательности на основе всех предыдущих компонентов этой последовательности. Однако изменился сам подход: модель прогнозирует уже не токен, а сам скейл: изображение генерируется по тексту разрешение за разрешением. Кажется, идея оказалось рабочей. Switty генерирует изображения в 7 раз быстрее (0.1 секунда), чем SDXL и в 2 раза быстрее, чем у SDXL-Turbo. При этом качество сопоставимо с диффузионными моделями. Приятно наблюдать за новыми решениями, которые драйвят сферу и предлагают конкурентную альтернативу устоявшимся диффузионным моделям. Учитывая скорость, Switti смело можно будет использовать в случаях, когда необходимо создать большое количество изображений за короткое время. Модель Switti уже доступна для тестирования. Можно ознакомиться с результатами работы на платформе Hugging Face: демонстрационная версия. Для разработчиков доступен исходный код на GitHub: репозиторий проекта. @ai_machinelearning_big_data