Machinelearning

Відкрити в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Сітка:Machinelearning Росія1 276 Технології та додатки332...

📈 Аналітичний огляд Telegram-каналу Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 295 915 підписників, посідаючи 332 місце в категорії Технології та додатки та 1 276 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 295 915 підписників.

За останніми даними від 22 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -6 276, а за останні 24 години на -223, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 8.09%. Протягом перших 24 годин після публікації контент зазвичай збирає 5.69% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 23 927 переглядів. Протягом першої доби публікація в середньому набирає 16 831 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 193.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як openai, claude, api, gemini, контекст.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Завдяки високій частоті оновлень (останні дані отримано 23 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

295 915

Підписники

-22324 години

-1 4447 днів

-6 27630 день

23 927

Перегляди допису

~ 16 83124 години

~ 18 91548 годин

8.09%

Коефіцієнт залучення

~ 5

Дописів на день

Ads index

beta

Архів дописів

295 838

🌟 Mini-Omni2: MMLM с возможностью обработки изображений, речи и текста. Mini-Omni2 одна из первых MMLM с открытым исходным кодом, которая наиболее близко воспроизводит функциональность GPT-4o. Mini-Omni2 может понимать визуальные, аудио и текстовые модальности на входе и генерировать речевые ответы, интерактивно взаимодействуя с пользователями. Модель основана на архитектуре Qwen2 и использует предварительно обученные кодировщики CLIP и Whisper для обработки визуальных и аудио данных. Mini-Omni2 отличается от других моделей тем, что не требует отдельных моделей ASR или TTS. В Mini-Omni2 применяется алгоритм Text-Instruct Delay Parallel Decoding, который позволяет генерировать текстовые и аудио токены параллельно, используя синтез речи из текста для вывода аудио в режиме реального времени. ▶️ Архитектура Mini-Omni2: 🟢Визуальный кодировщик: ViT-B/32 из модели CLIP, он преобразует входные изображения в последовательность длиной до 50 токенов, которая подается в однослойный LlamaMLP. 🟢Аудио кодировщик: используется модель Whisper-small, с ее помощью извлекается семантика из входного аудио. 🟢Языковая модель: Qwen2-0.5B с расширенным словарем за счет добавления дополнительных 7 LM-голов. ⚠️ Mini-Omni2 обучена только на английском языке. Однако, поскольку в качестве аудиокодера используется whisper, модель может понимать и другие языки, которые поддерживает whisper, но инференс будет только на английском. ▶️ Локальная установка и запуск в Streamlit Ui:

# Create conda env
conda create -n omni python=3.10
conda activate omni

# Clone repo & install requirements
git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

# Start server first
sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

# Run streamlit UI
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

📌Лицензирование : MIT License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #MLLM #MiniOmni2

295 838

❓Узнайте как построить модель финансового рынка, создать и обучить торгового агента с использованием специализированного фреймворка на открытом уроке в Otus Моделировать финансовый рынок непростая задача, а когда мы хотим обучить торгового агента для эффективной работы, она становится непосильной для одного человека На открытом уроке «Построение торгового агента на базе алгоритмов обучения с подкреплением» рассмотрим свободно распространяемые фреймворки для моделирования финансового рынка ✅ Сосредоточимся на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя Регистрация на урок 👇 https://otus.pw/mGOD/?erid=LjN8JxFYg #реклама О рекламодателе

295 838

Начался этап Квалификации на международный чемпионат по программированию Yandex Cup 2024 В этом году разработчики погрузятся в задачи, посвященные древним цивилизациям и попробуют решить их с точки зрения IT. На картинках — примеры таких ситуаций: разработать систему регулировки в средневековой Венеции, помочь роботам пройти лабиринт Майя или разработать систему оцифровки для бюллетеней из Древнего Рима. Всего шесть направлений: фронтенд, бэкенд, мобильная разработка, ML, аналитика и алгоритмы. Участвовать могут как опытные разработчики, так и начинающие — со всего мира. Также в этом году ввели отдельный зачет для юниоров 14-18 лет из России. Успейте зарегистрироваться на сайте и пройти первый этап до 20 октября! Самых лучших ждет финал в Ташкенте, где они смогут сразиться за звание абсолютного чемпиона каждого направления.

295 838

💡 Turbo Alignment: библиотека для обучения LLM под задачи бизнеса Помимо своей большой языковой модели T-lite, Т-Банк открыл доступ к библиотеке Turbo Alignment, которая позволяет даже небольшим командам без значительных ресурсов и глубокой экспертизы в LLM создавать LLM-based продукты. ✔️ В библиотеке доступны: ▶️No-code-запуск экспериментов, скрипты для обучения большого количества алгоритмов, модуль для быстрого тестирования моделей и инструменты для мониторинга метрик во время обучения. ▶️Инструменты для исследований и разработки. Turbo Alignment предоставляет все необходимые средства для добавления новых методов обучения и их сравнения с уже существующими решениями на конкретных задачах. Библиотека создана при участии лаборатории T-Bank AI Research и также дает доступ к последним исследованиям в области AI Alignment. ▶️Поддержка сложных процессов обучения. Turbo Alignment оптимизирован для распределенного обучения на нескольких видеокартах и серверах (Multi-GPU и Multi-Node). 🖥 GitHub @ai_machinelearning_big_data #LLM #news #ai

295 838

🌟 SegVLAD: метод визуального распознавания мест. SegVLAD - метод для решения задач визуального распознавания мест (VPR) в условиях значительных изменений ракурса. SegVLAD использует сегментацию изображений, разделяя их на значимые объекты ("вещи"). Вместо того, чтобы кодировать все изображение целиком, как это делают традиционные методы VPR, SegVLAD кодирует и ищет соответствия на уровне отдельных сегментов. Основа архитектуры SegVLAD - набор перекрывающихся подграфов сегментов SuperSegments. Подграфы создаются путем расширения окрестности каждого сегмента, учитывая информацию о соседних сегментах, полученную с помощью триангуляции Делоне. Для каждого SuperSegment вычисляется дескриптор с использованием метода VLAD (Vector of Locally Aggregated Descriptors). VLAD агрегирует локальные дескрипторы пикселей, полученные с помощью предварительно обученного DINOv2, который способен извлекать высокоуровневые признаки, инвариантные к различным условиям съемки. SegVLAD обучался на наборах данных, включающих как уличные, так и внутренние среды: Pitts30k, AmsterTime, Mapillary Street Level Sequences (MSLS), SF-XL, Revisted Oxford5K, Revisited Paris6k, Baidu Mall, 17Places, InsideOut и VPAir. Тесты SegVLAD показали, что метод превосходит современные VPR, особенно на датасетах с большими изменениями точки обзора. SegVLAD является универсальным и может быть использован с различными методами сегментации изображений и кодировщиками признаков. Проект программной реализации метода SegVLAD - Revisit Anything. ▶️Локальный запуск с набором данных 17 places из датасета AnyLock (~ 32GB) и моделями SAM+DINO: ⚠️ Перед запуском подготовьте данные датасета согласно структуре и укажите путь к данным в place_rec_global_config.py/

# Шаг1 - выбор метода (DINO/SAM):
python place_rec_SAM_DINO.py --dataset <> --method DINO/SAM

# Шаг2 - генерация VLAD cluster center (опционально):
python vlad_c_centers_pt_gen.py --dataset <>

# Шаг 3 - извлечение PCA:
place_rec_global_any_dataset_pca_extraction.py --dataset <> --experiment <> --vocab-vlad <domain/map>

# Шаг 4 - запуск SegVLAD: 
place_rec_main.py --dataset <> --experiment <> --vocab-vlad <domain/map> --save_results <True/False>

📌Лицензирование : BSD-3-Clause license. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #SAM #DINO #VPR #SegVLAD

295 838

✔️ Alibaba Group утверждает, что ее новый инструмент перевода на основе ИИ превосходит Google и ChatGPT. Alibaba выпустила обновленную версию инструмента перевода на базе ИИ, который, по ее словам, превосходит продукты Google, DeepL и ChatGPT. Продукт поддерживает 15 языков, включая русский, и основан на собственной LLM Qwen. Новый инструмент использует контекстуальные подсказки, культурные и отраслевые термины, что, по мнению Alibaba, поможет увеличить продажи их клиентов, которые используют их он-лайн маркетплейсы. Alibaba планирует активно продвигать инструмент в Европе, Америке и на развивающихся рынках. cnbc.com ✔️ Робот-художник Ai-Da войдет в историю: портрет Алана Тьюринга будет продан на аукционе. Ai-Da станет первым роботом-гуманоидом, чья работа будет выставлена на аукцион крупного аукционного дома Sotheby's. Созданная командой под руководством Эйдена Меллера, Ai-Da представляет собой ультрареалистичного робота-женщину, использующего ИИ для рисования, живописи и скульптуры. Картина Алана Тьюринга, как ожидается, будет продана за £100 000 - £150 000 на октябрьских торгах цифрового искусства Sotheby’s. Портрет под названием «AI God» имеет высоту 2,3 метра и был создан Ai-Da с использованием алгоритмов ИИ. Предстоящие торги Sotheby’s пройдут с 31 октября по 7 ноября и будут посвящены пересечению искусства и технологий, представляя спектр цифровых форм искусства, отражающих различные движения в современном цифровом художественном ландшафте. mirror.co.uk ✔️ Силовые министерства США увеличивают инвестиции в ИИ. Министерство обороны США увеличило расходы на проекты в области ИИ на 20% по сравнению с 2021 и 2022 годами. С момента запуска ChatGPT, ведомство заключило контракты на сумму 670 млн. долларов с 323 компаниями для разработки алгоритмов и инструментов ИИ. Министерство внутренней безопасности США также увеличило расходы на ИИ, выделив 22 миллиона долларов 20 компаниям в 2022 и 2023 годах. Среди подрядчиков - крупные компании (Palantir), так и молодые стартапы (Scale AI). В общей сложности, у Пентагона 83 активных контракта на разработку ИИ, превышающих 1 млрд. долларов. fortune.com ✔️ Lenovo представила портфолио гибридных решений на базе ИИ на международной конференции Tech World. Lenovo представила Hybrid AI Advantage – новую платформу, объединяющую возможности частных и публичных облачных сервисов с решениями для индивидуальных пользователей и предприятий. В нее вошли: Lenovo AI Library – библиотека готовых шаблонов ИИ для различных отраслей и бизнес-функций. Lenovo AI Now – локальный ИИ-агент, превращающий ПК в персональных помощника. Lenovo Learning Zone – платформа для персонализированного обучения. В дополнение к этому Lenovo анонсировала новое поколение систем жидкостного охлаждения Neptune для серверов, обеспечивающих до 40% экономии энергии в ЦОД. news.lenovo.com ✔️ Xscape создает многоцветные лазеры для соединения чипов в ЦОДах. Стартап Xscape Photonics привлек $44 млн в рамках раунда финансирования серии A на разработку программируемых лазеров на основе кремниевой фотоники для ЦОДов. Лазеры Xscape используют различные цвета света для передачи нескольких потоков данных по одному каналу без помех, повышая пропускную способность соединений между графическими процессорами, ИИ-чипами и памятью. В отличие от традиционных металлических соединений, кремниевая фотоника потребляет меньше энергии, выделяет меньше тепла и обеспечивает более высокую пропускную способность. Xscape уже сотрудничает с 10 клиентами и получила инвестиции от Cisco и Nvidia. Компания планирует использовать полученные средства для расширения своей команды и увеличения производства лазеров. techcrunch.com @ai_machinelearning_big_data #news #ai #ml

295 838

⚡️ Mistral AI представила новые модели 3B и 8B. Mistral AI, отмечая годовщину выпуска Mistral 7B, представила две новые модели: Ministral 3B и Ministral 8B. Семейство этих моделей получило название «Ministraux», они отличаются высокой производительностью в области знаний, рассуждений, вызова функций и эффективности среди аналогичных моделей категории менее 10 млрд. параметров. Обе модели Ministraux поддерживают контекстную длину до 128 тыс. токенов (32 тыс. токенов на vLLM), а Ministral 8B использует специальную схему чередующегося скользящего окна внимания для более быстрого и эффективного инференса. Модели предназначены для использования в различных сценариях, от робототехники до автономных интеллектуальных помощников без подключения к интернету. Обе модели в ближайшее время будут доступны в сервисе La Plateforme и в облачных сервисах партнеров MistalAI. Цены: 0.1$/M (input and output) для Ministral 8B и 0.04$ /M (input and output) для Ministral 3B. ▶️ Ministral 3B доступна для некоммерческого использования по запросу через форму. ▶️ Ministral 8B-Instruct опубликована в отрытом доступе: 🟢Architecture: Transformer 🟢Parameters: 8B 🟢Layers: 36 🟢Heads: 32 🟢Dim: 4096 🟢Hidden Dim: 12288 🟢Vocab Size: 131K 🟢Context Length: 128K 🟢Tokenizer: V3-Tekken 🟢Language: multilingual Локальный запуск рекомендуется выполнять в среде vLLM, воспользоваться docker или библиотекой Mistral Inference. ⚠️ vLLM имеет ограничение на размер контекста 32k, поскольку поддержка interleaved attention kernels for paged attention в нем пока еще не реализована. ⚠️ Для локального запуска Ministral 8B-Instruct понадобится 24 Gb VRAM 📌Лицензирование : MRL-0.1 🟡Страница проекта 🟡Модель 🟡Demo Ministral 8B-Instruct @ai_machinelearning_big_data #AI #ML #LLM #Ministraux #MistralAI

295 838

⚡️ Ollama получила поддержку запуска моделей GGUF с Huggingface. Ollama, приложение, основанное на llama.cpp, для локального взаимодействия с LLM получила возможность запускать одной командой любую GGUF модель, размещенную на Huggingface без создания нового Modelfile. На сегодняшний день на HF около 45 тысяч моделей в формате GGUF, и теперь можно запустить любую из них одной командой ollama run. Также доступна настройка параметров запуска: выбор типа квантования и системного промпта. ▶️Быстрый запуск:

ollama run hf.co/{username}/{repository}

▶️Запуск с выбором типа квантования:

ollama run hf.co/{username}/{repository}:{quantization}

По умолчанию шаблон чата будет выбран автоматически из списка часто используемых шаблонов. Он создается на основе встроенных метаданных tokenizer.chat_template, хранящихся в файле GGUF. Если в GGUF нет встроенного шаблона или необходимо настроить свой шаблон чата, нужно создать новый файл с именем template. Шаблон должен быть шаблоном Go, а не шаблоном Jinja. Например:

{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>

📌 Список всех доступных параметров доступен в документации репозитория Ollama. ⚠️ В качестве доменного имени в команде запуска можно использовать доменные имена как hf.co, так и huggingface.co. 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Ollama #Huggingface

295 838

🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA. NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B: ▶️ Llama-3.1-Nemotron-70B-Instruct Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference. Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet. 🟠Llama-3.1-Nemotron-70B-Instruct-HF Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения. Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb). ▶️ Llama-3.1-Nemotron-70B-Reward Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество. Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling. Nemotron-70B-Reward занимает первое место в RewardBench. 🟠Llama-3.1-Nemotron-70B-Reward-HF Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения. Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb). Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM. HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность. ⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске. ⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM. 📌Лицензирование моделей: Llama 3.1 Community License. 📌Лицензирование датасета : CC-BY-4.0 🟡Коллекция моделей на HF 🟡Arxiv 🟡Датасет 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #Nemotron #NVIDIA

295 838

Erid: 2Vtzqwc6BjR Одно поколение считало на счетах. Дальше появились калькуляторы. Затем главным врагом самостоятельно выполненных домашек стал решебник «ГДЗ»🌝 На сегодняшний день помощник всех учащихся – это ИИ. Кто бы мог подумать, что из состояния «интернет – это что-то страшное и недоступное» мы пришли к истории, когда на рабочую почту падает приглашение на вебинар «Как оценивать компетенции, чтобы соискатели «не списывали» у ChatGPT”?🧬 К чему это всё: Мы запускаем первый в России масштабный ОПРОС о генеративных нейросетях Чтобы участие было приятнее (помимо мысли, что вы делаете большой вклад в развитие оных), мы разыгрываем вот такие плюшки: 🍩годовой доступ к Telegram Premium 🍩месяц премиум-подписки на ChatGPT 🍩подписку на два месяца в Альпина Digital Опрос займет всего 5 минут, и принесет пользу миру ИИ 👾 Скорей участвуй! Мы свяжемся с победителями до 31.10🎃

295 838

🌟 Возвращение RNN: LSTM и GRU — все, что нам было нужно? Архитектура Transformer доминирует в моделировании последовательностей уже несколько лет, демонстрируя отличные результаты в задачах NLP, машинного перевода и генерации текста. Главный недостаток Transformer — они долго считают длинные последовательности. А если вычислительных ресурсов мало, то реализация занимает либо много времени, либо требует их увеличения. Авторы исследования предлагают вернуться к RNN, ведь они быстрее считают и параллельно учитывают контекст. Чтобы отвязаться от обратного распространения ошибки (BPTT), которая требует линейного времени обучения, применяется алгоритм параллельного сканирования за счет устранения зависимости от срытых состояний из гейтов LSTM и GRU. В предлагаемом методе представлены "уменьшенные" LTSM и GRU - minLSTM и minGRU. Они не только обучаются параллельно, но и используют значительно меньше параметров, чем их старшие аналоги. Минимализм версий достигается следующим образом: 🟢Устранение зависимостей скрытых состояний из гейтов. В minLSTM и minGRU input, forget и update gate зависят только от входных данных, а не от предыдущих скрытых состояний. 🟢Отказ от ограничения диапазона candidate hidden state. В традиционных LSTM и GRU функция гиперболического тангенса используется для ограничения диапазона значений скрытых состояний. В minLSTM и minGRU это ограничение снимается. 🟢Неизменность масштаба выходных данных во времени (только для minLSTM). Для minLSTM выполняется нормализация forget и input гейтов, чтобы гарантировать, что масштаб состояния ячейки не зависит от времени. Результаты экспериментов: 🟠Время выполнения: minLSTM и minGRU скорость обучения по сравнению с LSTM и GRU, больше в 1361 раз для последовательности длиной 4096; 🟠Задача выборочного копирования: minLSTM и minGRU успешно справились, в отличие от S4, H3 и Hyena; 🟠Обучение с подкреплением на датасете D4RL: minLSTM и minGRU обошли Decision S4 и показали производительность, сопоставимую с Decision Transformer, Aaren и Mamba; 🟠Языковое моделирование: minLSTM, minGRU, Mamba и Transformer показывают одинаковые результаты, но Transformer требует значительно большего количества шагов обучения. Прикладная реализация численно-устойчивой в логарифмическом пространстве версии метода minGRU на Pytorch представлена в репозитории на Github. ▶️ Локальная установка и запуск minGRU в последовательном и параллельном режиме :

# Install miniGRU-pytorch
pip install minGRU-pytorch

# Usage
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(512)
x = torch.randn(2, 1024, 512)
out = min_gru(x)
assert x.shape == out.shape

# Sanity check
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(dim = 512, expansion_factor = 1.5)
x = torch.randn(1, 2048, 512)

# parallel

parallel_out = min_gru(x)[:, -1:]

# sequential

prev_hidden = None
for token in x.unbind(dim = 1):
    sequential_out, prev_hidden = min_gru(token[:, None, :], prev_hidden, return_next_prev_hidden = True)
assert torch.allclose(parallel_out, sequential_out, atol = 1e-4)

📌Лицензирование : MIT License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #RNN #miniGRU

295 838

Яндекс запустил Тренировки: го прокачиваться в алгоритмах и ML Новый сезонов Тренировок поможет подтянуть знания алгоритмов, ML и навык прохождения интервью в IT. Занятия бесплатные и проходят в формате онлайн-интенсивов: с лекциями и ежедневными разборами домашних заданий. Лучших учеников ждет пробное техническое собеседование в Яндекс и промокод 3000 ₽ на Яндекс Маркет. Участники, которые хорошо себя проявят, получат возможность пройти ускоренный отбор на стажировку или сразу в штат компании. Подать заявку на Тренировки можно здесь.

295 838

✔️ Google переключается на атомную энергию для питания своих дата-центров с ИИ. Google подписал соглашение с Kairos Power об использовании небольших ядерных реакторов для обеспечения энергией своих дата-центров, работающих на базе искусственного интеллекта. Первые реакторы планируется запустить в течение этого десятилетия, а к 2035 году их количество будет увеличено. Google и Kairos Power не раскрывают финансовые детали сделки и места строительства новых электростанций. Технологические компании все чаще обращаются к атомной энергии для обеспечения электропитанием огромных дата-центров, на которых основана работа ИИ. В прошлом месяце Microsoft заключила соглашение о возобновлении работы на ядерной электростанции Три-Майл-Айленд в США. bbc.com ✔️ США рассматривают возможность ограничения экспорта чипов для ИИ от Nvidia и AMD в страны Персидского залива. Цель - ограничить доступ к американским технологиям в интересах национальной безопасности США. Ограничения будут основаны на новой системе лицензирования экспорта чипов для центров обработки данных, которая была представлена в прошлом месяце. Власти США обеспокоены растущим спросом на ЦОДы, работающие на основе ИИ, в странах Персидского залива, и их финансовыми возможностями. Новые правила могут потребовать от компаний сокращения связей с Китаем и странами залива в обмен на доступ к американским технологиям. Nvidia пока не прокомментировала ситуацию. finance.yahoo.com ✔️ Вице-президент Microsoft по ИИ переходит в OpenAI для работы над AGI. Себастьян Бубек проработал в Microsoft десять лет, занимаясь разработкой малых языковых моделей. Несмотря на то, что Microsoft и OpenAI являются конкурентами в некоторых областях, Microsoft высоко оценила вклад Бубека и надеется на продолжение сотрудничества. В OpenAI Бубек будет работать над достижением AGI. Эксперты отрасли полагают, что опыт Бубека поможет OpenAI в исследованиях и разработке языковых моделей, которые, несмотря на меньший, чем у AGI, масштаб, могут играть значительную роль в достижении этой цели. bloomberg.com ✔️ Cognite выпускает отчет о сравнительном анализе языковых моделей для промышленных агентов. Cognite, лидер в области ИИ для промышленности, представила отчет "Cognite Atlas AI™ LLM & SLM Benchmark Report for Industrial Agents" на мероприятии IMPACT 2024. Это первый в своем роде отчет, который должен решить проблему несоответствия общих наборов данных для сравнительного анализа LLM и SLM в специфике промышленных задач. В отчете основное внимание уделено поиску на естественном языке в качестве ключевого инструмента извлечения данных для промышленных агентов ИИ. Отчет будет доступен для бесплатной загрузки 28 октября 2024 года на официальном сайте Cognite. businesswire.com ✔️ TSMC строит завод по производству чипов в Европе. Министр науки и технологий Тайваня Ву Чэн-вэнь сообщил Bloomberg TV, что TSMC уже начала строительство своего первого завода по производству полупроводников в Дрездене и планирует строительство следующих заводов для различных секторов рынка. Строительство завода в Дрездене началось в августе 2024 года, общая сумма инвестиций превысит 10 млрд евро, при этом проект получил 5 млрд евро государственных субсидий. Завод создается в партнерстве с Bosch, Infineon и NXP для удовлетворения потребностей европейской автомобильной и промышленной отрасли в полупроводниках. euronews.com @ai_machinelearning_big_data #news #ai #ml

295 838

🌟 Branch-Train-MiX: метод получения MoE-модели Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса. После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер. 🟡 Страница проекта 🟡 Разбор метода @ai_machinelearning_big_data #MoE #LLM

295 838

Как стать высокооплачиваемым специалистов в ML? Изучать тренды в Data Science с экспертами топовых компаний на продвинутом курсе «Machine Learning. Professional» от OTUS Приглашаем на открытый урок, где рассмотрим современную модель TSMixter от Google которая умеет автоматически раскладывать временной ряд на сложные компоненты и строить прогноз на их основе. ✅ Изучение и практика: научимся загружать и работать с моделью Сравним ее с более сложными трансформенными моделями, такими как NBEATS, NHITS, iTransformers, PatchTST и TimesNet. 👇 Регистрация на урок: https://otus.pw/h9fI/?erid=LjN8KKusy #реклама О рекламодателе

295 838

🌟 CogView-3Plus-3B: модель генерации Text-to-Image. CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3. CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели. Технические параметры: 🟢Архитектура: DiT; 🟢Количество параметров: 3 млрд.; 🟢Разрешение: от 512 до 2048, кратное 32; 🟢Разрядности: FP32, BF16 (рекомендуется); 🟢VRAM: 20Gb (1024x1024), 30Gb (2048x2048); 🟢СPU Offload: есть, при его использовании, VRAM для всех поддерживаемых разрешений - 11Gb; 🟢Язык промпта: English; 🟢Max. длина промпта: 244 токена. Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio. ⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY. ⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса. 📌Лицензирование : Apache 2.0 License. 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #T2I #CogView3

295 838

Как IT-технологии помогают следить за популяцией редких животных? Вопрос не из простых, но если поговорить со знающими людьми, можно найти ответ! Именно это и сделали блогер Тёма Пименов и комьюнити-менеджер Яндекс Образования Рина Родионова. В подкасте «Непрошеный просвет» они провели настоящее IT-расследование: пообщались с Эдуардом Аллахвердовым, сотрудником Yandex Cloud и выпускником МФТИ и ШАДа, и выяснили, как технологии Data Science помогают учёным следить за снежными барсами в национальных парках. А ещё расспросили гостей из ШАДа и Yandex Cloud, на какие программы стоит обратить внимание, чтобы заниматься подобными проектами. Включайте выпуск прямо сейчас и присоединяйтесь к IT-расследованию! Полная версия доступна по ссылке.

295 838

🌟 ARP: авторегрессионное обучение последовательности действий для задач роботизированного манипулирования. ARP - архитектура авторегрессионной политики, разработанная в Рутгерском университете, которая учится генерировать последовательности действий, используя Chunking Causal Transformer (CCT), предлагая универсальный подход, превосходящий специализированные решения для задач манипулирования. Политика предсказывает только будущую последовательность действий на основе текущего состояния (или наблюдения), не пытаясь предсказать всю траекторию. Этот метод обучения последовательности действий более достижим в приложениях робототехники и позволяет лучше использовать причинно-следственные связи. ARP состоит из трех основных компонентов: 🟢Chunking Causal Transformer: CCT лежит в основе АРП и отвечает за авторегрессивную генерацию последовательности действий. Он принимает на вход текущее наблюдение и последовательность прошлых действий и предсказывает следующий фрагмент (chunk) действий. 🟢Модуль эмбединга действий: преобразует действия (дискретные, непрерывные или координаты пикселей) в непрерывные векторные представления (эмбединги), которые могут быть обработаны CCT. 🟢Модуль декодирования действий: преобразует инференс от CCT обратно в соответствующие действия в формате, подходящем для управления роботом. ARP оценивался в 3 средах (Push-T, ALOHA, RLBench) и сравнивался с современными методами для каждой среды. Во всех случаях ARP продемонстрировал высокую производительность, достигая SOTA-показателей при меньших вычислительных затратах. ARP был протестирован в реальном эксперименте с роботом, где он успешно выполнил сложную задачу по затягиванию гаек. В репозитории проекта доступен код для обучения, тестирования в средах Push-T, ALOHA, RLBench и подробные инструкции по настройке окружения под каждую из этих задач. ⚠️ В зависимости от задачи (Push-T, ALOHA или RLBench) необходимо выбрать соответствующий файл конфигурации. Примеры конфигурационных файлов приведены в файле Experiments.md ⚠️ Форматы данных для каждой задачи разные: 🟠Push-T: RGB-изображения 96x96 px; 🟠ALOHA - RGB-изображения 480x640 px; 🟠RLBench - RGBD (RGB+канал Depth) 128 × 128px. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Robotics #ARP