Machinelearning

前往频道在 Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

显示更多

网络:Machinelearning 俄罗斯1 273 技术与应用332...

📈 Telegram 频道 Machinelearning 的分析概览

频道 Machinelearning (@ai_machinelearning_big_data) 俄语语言赛道中的是活跃参与者。目前社区聚集了 295 549 名订阅者，在 技术与应用 类别中位列第 332，并在 俄罗斯 地区排名第 1 273 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 295 549 名订阅者。

根据 23 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -6 330，过去 24 小时变化为 -217，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 7.94%。内容发布后 24 小时内通常能获得 5.68% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 23 490 次浏览，首日通常累积 16 791 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 190。
主题关注点： 内容集中在 openai, claude, api, gemini, контекст 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

凭借高频更新（最新数据采集于 24 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

295 549

订阅者

-21724 小时

-1 4607 天

-6 33030 天

23 490

帖子浏览量

~ 16 79124 小时

~ 18 91448 小时

7.94%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

295 449

⚡️ Ollama получила поддержку запуска моделей GGUF с Huggingface. Ollama, приложение, основанное на llama.cpp, для локального взаимодействия с LLM получила возможность запускать одной командой любую GGUF модель, размещенную на Huggingface без создания нового Modelfile. На сегодняшний день на HF около 45 тысяч моделей в формате GGUF, и теперь можно запустить любую из них одной командой ollama run. Также доступна настройка параметров запуска: выбор типа квантования и системного промпта. ▶️Быстрый запуск:

ollama run hf.co/{username}/{repository}

▶️Запуск с выбором типа квантования:

ollama run hf.co/{username}/{repository}:{quantization}

По умолчанию шаблон чата будет выбран автоматически из списка часто используемых шаблонов. Он создается на основе встроенных метаданных tokenizer.chat_template, хранящихся в файле GGUF. Если в GGUF нет встроенного шаблона или необходимо настроить свой шаблон чата, нужно создать новый файл с именем template. Шаблон должен быть шаблоном Go, а не шаблоном Jinja. Например:

{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>

📌 Список всех доступных параметров доступен в документации репозитория Ollama. ⚠️ В качестве доменного имени в команде запуска можно использовать доменные имена как hf.co, так и huggingface.co. 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Ollama #Huggingface

295 449

🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA. NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B: ▶️ Llama-3.1-Nemotron-70B-Instruct Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference. Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet. 🟠Llama-3.1-Nemotron-70B-Instruct-HF Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения. Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb). ▶️ Llama-3.1-Nemotron-70B-Reward Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество. Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling. Nemotron-70B-Reward занимает первое место в RewardBench. 🟠Llama-3.1-Nemotron-70B-Reward-HF Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения. Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb). Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM. HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность. ⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске. ⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM. 📌Лицензирование моделей: Llama 3.1 Community License. 📌Лицензирование датасета : CC-BY-4.0 🟡Коллекция моделей на HF 🟡Arxiv 🟡Датасет 🟡Demo @ai_machinelearning_big_data #AI #ML #LLM #Nemotron #NVIDIA

295 449

Erid: 2Vtzqwc6BjR Одно поколение считало на счетах. Дальше появились калькуляторы. Затем главным врагом самостоятельно выполненных домашек стал решебник «ГДЗ»🌝 На сегодняшний день помощник всех учащихся – это ИИ. Кто бы мог подумать, что из состояния «интернет – это что-то страшное и недоступное» мы пришли к истории, когда на рабочую почту падает приглашение на вебинар «Как оценивать компетенции, чтобы соискатели «не списывали» у ChatGPT”?🧬 К чему это всё: Мы запускаем первый в России масштабный ОПРОС о генеративных нейросетях Чтобы участие было приятнее (помимо мысли, что вы делаете большой вклад в развитие оных), мы разыгрываем вот такие плюшки: 🍩годовой доступ к Telegram Premium 🍩месяц премиум-подписки на ChatGPT 🍩подписку на два месяца в Альпина Digital Опрос займет всего 5 минут, и принесет пользу миру ИИ 👾 Скорей участвуй! Мы свяжемся с победителями до 31.10🎃

295 449

🌟 Возвращение RNN: LSTM и GRU — все, что нам было нужно? Архитектура Transformer доминирует в моделировании последовательностей уже несколько лет, демонстрируя отличные результаты в задачах NLP, машинного перевода и генерации текста. Главный недостаток Transformer — они долго считают длинные последовательности. А если вычислительных ресурсов мало, то реализация занимает либо много времени, либо требует их увеличения. Авторы исследования предлагают вернуться к RNN, ведь они быстрее считают и параллельно учитывают контекст. Чтобы отвязаться от обратного распространения ошибки (BPTT), которая требует линейного времени обучения, применяется алгоритм параллельного сканирования за счет устранения зависимости от срытых состояний из гейтов LSTM и GRU. В предлагаемом методе представлены "уменьшенные" LTSM и GRU - minLSTM и minGRU. Они не только обучаются параллельно, но и используют значительно меньше параметров, чем их старшие аналоги. Минимализм версий достигается следующим образом: 🟢Устранение зависимостей скрытых состояний из гейтов. В minLSTM и minGRU input, forget и update gate зависят только от входных данных, а не от предыдущих скрытых состояний. 🟢Отказ от ограничения диапазона candidate hidden state. В традиционных LSTM и GRU функция гиперболического тангенса используется для ограничения диапазона значений скрытых состояний. В minLSTM и minGRU это ограничение снимается. 🟢Неизменность масштаба выходных данных во времени (только для minLSTM). Для minLSTM выполняется нормализация forget и input гейтов, чтобы гарантировать, что масштаб состояния ячейки не зависит от времени. Результаты экспериментов: 🟠Время выполнения: minLSTM и minGRU скорость обучения по сравнению с LSTM и GRU, больше в 1361 раз для последовательности длиной 4096; 🟠Задача выборочного копирования: minLSTM и minGRU успешно справились, в отличие от S4, H3 и Hyena; 🟠Обучение с подкреплением на датасете D4RL: minLSTM и minGRU обошли Decision S4 и показали производительность, сопоставимую с Decision Transformer, Aaren и Mamba; 🟠Языковое моделирование: minLSTM, minGRU, Mamba и Transformer показывают одинаковые результаты, но Transformer требует значительно большего количества шагов обучения. Прикладная реализация численно-устойчивой в логарифмическом пространстве версии метода minGRU на Pytorch представлена в репозитории на Github. ▶️ Локальная установка и запуск minGRU в последовательном и параллельном режиме :

# Install miniGRU-pytorch
pip install minGRU-pytorch

# Usage
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(512)
x = torch.randn(2, 1024, 512)
out = min_gru(x)
assert x.shape == out.shape

# Sanity check
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(dim = 512, expansion_factor = 1.5)
x = torch.randn(1, 2048, 512)

# parallel

parallel_out = min_gru(x)[:, -1:]

# sequential

prev_hidden = None
for token in x.unbind(dim = 1):
    sequential_out, prev_hidden = min_gru(token[:, None, :], prev_hidden, return_next_prev_hidden = True)
assert torch.allclose(parallel_out, sequential_out, atol = 1e-4)

📌Лицензирование : MIT License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #RNN #miniGRU

295 449

Яндекс запустил Тренировки: го прокачиваться в алгоритмах и ML Новый сезонов Тренировок поможет подтянуть знания алгоритмов, ML и навык прохождения интервью в IT. Занятия бесплатные и проходят в формате онлайн-интенсивов: с лекциями и ежедневными разборами домашних заданий. Лучших учеников ждет пробное техническое собеседование в Яндекс и промокод 3000 ₽ на Яндекс Маркет. Участники, которые хорошо себя проявят, получат возможность пройти ускоренный отбор на стажировку или сразу в штат компании. Подать заявку на Тренировки можно здесь.

295 449

✔️ Google переключается на атомную энергию для питания своих дата-центров с ИИ. Google подписал соглашение с Kairos Power об использовании небольших ядерных реакторов для обеспечения энергией своих дата-центров, работающих на базе искусственного интеллекта. Первые реакторы планируется запустить в течение этого десятилетия, а к 2035 году их количество будет увеличено. Google и Kairos Power не раскрывают финансовые детали сделки и места строительства новых электростанций. Технологические компании все чаще обращаются к атомной энергии для обеспечения электропитанием огромных дата-центров, на которых основана работа ИИ. В прошлом месяце Microsoft заключила соглашение о возобновлении работы на ядерной электростанции Три-Майл-Айленд в США. bbc.com ✔️ США рассматривают возможность ограничения экспорта чипов для ИИ от Nvidia и AMD в страны Персидского залива. Цель - ограничить доступ к американским технологиям в интересах национальной безопасности США. Ограничения будут основаны на новой системе лицензирования экспорта чипов для центров обработки данных, которая была представлена в прошлом месяце. Власти США обеспокоены растущим спросом на ЦОДы, работающие на основе ИИ, в странах Персидского залива, и их финансовыми возможностями. Новые правила могут потребовать от компаний сокращения связей с Китаем и странами залива в обмен на доступ к американским технологиям. Nvidia пока не прокомментировала ситуацию. finance.yahoo.com ✔️ Вице-президент Microsoft по ИИ переходит в OpenAI для работы над AGI. Себастьян Бубек проработал в Microsoft десять лет, занимаясь разработкой малых языковых моделей. Несмотря на то, что Microsoft и OpenAI являются конкурентами в некоторых областях, Microsoft высоко оценила вклад Бубека и надеется на продолжение сотрудничества. В OpenAI Бубек будет работать над достижением AGI. Эксперты отрасли полагают, что опыт Бубека поможет OpenAI в исследованиях и разработке языковых моделей, которые, несмотря на меньший, чем у AGI, масштаб, могут играть значительную роль в достижении этой цели. bloomberg.com ✔️ Cognite выпускает отчет о сравнительном анализе языковых моделей для промышленных агентов. Cognite, лидер в области ИИ для промышленности, представила отчет "Cognite Atlas AI™ LLM & SLM Benchmark Report for Industrial Agents" на мероприятии IMPACT 2024. Это первый в своем роде отчет, который должен решить проблему несоответствия общих наборов данных для сравнительного анализа LLM и SLM в специфике промышленных задач. В отчете основное внимание уделено поиску на естественном языке в качестве ключевого инструмента извлечения данных для промышленных агентов ИИ. Отчет будет доступен для бесплатной загрузки 28 октября 2024 года на официальном сайте Cognite. businesswire.com ✔️ TSMC строит завод по производству чипов в Европе. Министр науки и технологий Тайваня Ву Чэн-вэнь сообщил Bloomberg TV, что TSMC уже начала строительство своего первого завода по производству полупроводников в Дрездене и планирует строительство следующих заводов для различных секторов рынка. Строительство завода в Дрездене началось в августе 2024 года, общая сумма инвестиций превысит 10 млрд евро, при этом проект получил 5 млрд евро государственных субсидий. Завод создается в партнерстве с Bosch, Infineon и NXP для удовлетворения потребностей европейской автомобильной и промышленной отрасли в полупроводниках. euronews.com @ai_machinelearning_big_data #news #ai #ml

295 449

🌟 Branch-Train-MiX: метод получения MoE-модели Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса. После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер. 🟡 Страница проекта 🟡 Разбор метода @ai_machinelearning_big_data #MoE #LLM

295 449

Как стать высокооплачиваемым специалистов в ML? Изучать тренды в Data Science с экспертами топовых компаний на продвинутом курсе «Machine Learning. Professional» от OTUS Приглашаем на открытый урок, где рассмотрим современную модель TSMixter от Google которая умеет автоматически раскладывать временной ряд на сложные компоненты и строить прогноз на их основе. ✅ Изучение и практика: научимся загружать и работать с моделью Сравним ее с более сложными трансформенными моделями, такими как NBEATS, NHITS, iTransformers, PatchTST и TimesNet. 👇 Регистрация на урок: https://otus.pw/h9fI/?erid=LjN8KKusy #реклама О рекламодателе

295 449

🌟 CogView-3Plus-3B: модель генерации Text-to-Image. CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3. CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели. Технические параметры: 🟢Архитектура: DiT; 🟢Количество параметров: 3 млрд.; 🟢Разрешение: от 512 до 2048, кратное 32; 🟢Разрядности: FP32, BF16 (рекомендуется); 🟢VRAM: 20Gb (1024x1024), 30Gb (2048x2048); 🟢СPU Offload: есть, при его использовании, VRAM для всех поддерживаемых разрешений - 11Gb; 🟢Язык промпта: English; 🟢Max. длина промпта: 244 токена. Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio. ⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY. ⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса. 📌Лицензирование : Apache 2.0 License. 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #T2I #CogView3

295 449

Как IT-технологии помогают следить за популяцией редких животных? Вопрос не из простых, но если поговорить со знающими людьми, можно найти ответ! Именно это и сделали блогер Тёма Пименов и комьюнити-менеджер Яндекс Образования Рина Родионова. В подкасте «Непрошеный просвет» они провели настоящее IT-расследование: пообщались с Эдуардом Аллахвердовым, сотрудником Yandex Cloud и выпускником МФТИ и ШАДа, и выяснили, как технологии Data Science помогают учёным следить за снежными барсами в национальных парках. А ещё расспросили гостей из ШАДа и Yandex Cloud, на какие программы стоит обратить внимание, чтобы заниматься подобными проектами. Включайте выпуск прямо сейчас и присоединяйтесь к IT-расследованию! Полная версия доступна по ссылке.

295 449

🌟 ARP: авторегрессионное обучение последовательности действий для задач роботизированного манипулирования. ARP - архитектура авторегрессионной политики, разработанная в Рутгерском университете, которая учится генерировать последовательности действий, используя Chunking Causal Transformer (CCT), предлагая универсальный подход, превосходящий специализированные решения для задач манипулирования. Политика предсказывает только будущую последовательность действий на основе текущего состояния (или наблюдения), не пытаясь предсказать всю траекторию. Этот метод обучения последовательности действий более достижим в приложениях робототехники и позволяет лучше использовать причинно-следственные связи. ARP состоит из трех основных компонентов: 🟢Chunking Causal Transformer: CCT лежит в основе АРП и отвечает за авторегрессивную генерацию последовательности действий. Он принимает на вход текущее наблюдение и последовательность прошлых действий и предсказывает следующий фрагмент (chunk) действий. 🟢Модуль эмбединга действий: преобразует действия (дискретные, непрерывные или координаты пикселей) в непрерывные векторные представления (эмбединги), которые могут быть обработаны CCT. 🟢Модуль декодирования действий: преобразует инференс от CCT обратно в соответствующие действия в формате, подходящем для управления роботом. ARP оценивался в 3 средах (Push-T, ALOHA, RLBench) и сравнивался с современными методами для каждой среды. Во всех случаях ARP продемонстрировал высокую производительность, достигая SOTA-показателей при меньших вычислительных затратах. ARP был протестирован в реальном эксперименте с роботом, где он успешно выполнил сложную задачу по затягиванию гаек. В репозитории проекта доступен код для обучения, тестирования в средах Push-T, ALOHA, RLBench и подробные инструкции по настройке окружения под каждую из этих задач. ⚠️ В зависимости от задачи (Push-T, ALOHA или RLBench) необходимо выбрать соответствующий файл конфигурации. Примеры конфигурационных файлов приведены в файле Experiments.md ⚠️ Форматы данных для каждой задачи разные: 🟠Push-T: RGB-изображения 96x96 px; 🟠ALOHA - RGB-изображения 480x640 px; 🟠RLBench - RGBD (RGB+канал Depth) 128 × 128px. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Robotics #ARP

295 449

⚡️ Labor Statistics прогнозирует рост занятости дата-сайентистов на 36% до 2033 года Средние зарплаты специалистов достигают 200 тыс. ₽ в России и 10 тыс. $ за рубежом. Станьте дата-сайентистом, пока сфера активно растет, на курсе "Data scientist с нуля до Pro" от Skillfactory. 🟡Учитесь с нуля: от основ математики до продвинутого ML. 🟡Знания от профи: автор курса — профессор МГУ и лауреат премии Юнеско в области. цифровых технологий и ПО для ИИ и суперкомпьютеров, Алексей Семенов. 🟡Много практики: решайте реальные задачи и собирайте проекты в портфолио. 🟡Карьера: пройдите стажировку в айти-компании "Моторика" еще во время курса. 🟡Помощь в трудоустройстве: получите помощь от Карьерного центра школы. Записывайтесь на курс с 45% скидкой по промокоду MACHINE: https://go.skillfactory.ru/N2kaLw Реклама. ООО "Скилфэктори", ИНН 9702009530, erid: LjN8Jz5QF

295 449

✔️ Adobe запустила генератор видео Firefly. Adobe представила Firefly, обновленную генеративную платформу, которая позволяет создавать видеоролики длительностью до 5 секунд с помощью текстовых или графических подсказок. Firefly может создавать анимационный и фотореалистичный контент, а веб-приложение Firefly включает в себя настройки для управления движением камеры, углом обзора и размером кадра. В бета-версии Premiere Pro доступна функция Generative Extend от Firefly, которая продлевает видеоклипы до двух секунд, генерируя дополнительный кадр в сцене, продолжая движение камеры и объекта, а также расширяя фоновый звук. techcrunch.com ✔️ Китай выдал первую лицензию на производство кухонных роботов с ИИ. В Пекине выдали первую коммерческую лицензию роботу со встроенным искусственным интеллектом для работы в сфере общественного питания. Новый тип робота, в отличие от традиционных роботов, выполняющих одну задачу, может готовить различные блюда, адаптироваться к рабочей среде и создавать новые меню благодаря своей способности к непрерывному обучению. Ожидается, что к концу года использование роботов расширится до сетей ресторанов, где они будут готовить все - от мороженого до салатов. fanabc.com ✔️ Уимблдонский турнир внедрит ИИ для замены судей. С 2025 года на Уимблдонском турнире, старейшем теннисном турнире Большого шлема, будет использоваться технология ИИ для определения попадания мяча в корт, заменяя 300 судей на линии. Английский клуб лаун-тенниса и крокета, организатор турнира, заявил, что эта технология прошла испытания в 2024 году и позволит минимизировать ошибки судейства, обеспечивая максимальную точность. Французский турнир Большого шлема остается единственным, где до сих пор не используются электронные системы определения аута. timesnownews.com ✔️ IBM выпустила Qiskit Code Assistant. IBM представила Qiskit Code Assistant, инструмент для упрощения и оптимизации процесса написания кода. Qiskit предлагает функции генерации кода на основе запросов на естественном языке, очистки чернового кода и практического обучения. Инструмент интегрируется Visual Studio Code и JupyterLab, и его производительность оценивается с помощью бенчмарка Qiskit HumanEval. IBM планирует сделать ключевые компоненты Qiskit Code Assistant, включая модель Qiskit Granite и набор данных HumanEval, общедоступными. thequantuminsider.com ✔️ Ученые из ОАЭ разработали модели машинного обучения для прогнозирования разрушения железобетона. Модели учитывают факторы: как возраст конструкции, осадки, температура и интенсивность движения. Исследователи выявили, что эти факторы являются основными причинами разрушения непрерывно армированных бетонных покрытий. Результаты исследования показывают, что модели машинного обучения могут эффективно прогнозировать разрушение бетона, предоставляя инженерам время для принятия мер по предотвращению разрушения. techxplore.com @ai_machinelearning_big_data #news #ai #ml

295 449

🌟 Arcee-SuperNova-Medius: модель с 14 млрд. параметрами на архитектуре Qwen2.5. Модель построена на архитектуре Qwen2.5-14B-Instruct и использует 14 млрд. параметров. В процессе создания использовалась дистилляция с перекрестной архитектурой, объединяющая знания моделей Qwen2.5-72B-Instruct и Llama-3.1-405B-Instruct. Для этого применялась дистилляция логитов из Llama 3.1 405B с использованием автономного подхода, адаптация к перекрестной архитектуре с использованием mergekit-tokensurgeon для создания версии Qwen2.5-14B, использующей словарь Llama 3.1 405B, а также дистилляция в архитектуру Qwen с использованием сохраненных логитов 405B в качестве цели. На заключительном этапе, словарь модели Qwen, дистиллированной из Llama, был возвращен к словарю Qwen, а затем был проведен заключительный этап слияния и тонкой настройки. В процессе обучения использовался набор данных EvolKit. Arcee-SuperNova-Medius обладает навыками для решения бизнес-задач: поддержка клиентов, техническая поддержка и генерация текстового контента. Тестирование в показало, что SuperNova-Medius превосходит Qwen2.5-14B и SuperNova-Lite по показателям, связанным с выполнением инструкций (IFEval) и сложным рассуждением (BBH). ▶️ Официальные квантованные версии Arcee-SuperNova-Medius в формате GGUF в разрядностях от 2-bit (5 Gb) до 16-bit (29.5 Gb) 📌Лицензирование : Apache 2.0 License. 🟡Страница проекта 🟡Набор GGUF 🟡Модель @ai_machinelearning_big_data #AI #ML #LLM #ArceeAI #SuperNova

295 449

Вечерний митап для ML-инженеров в Белграде и онлайн 📅 17 октября в 18:00 собираемся в хабе «Сербская Роза», чтобы обсудить тренды, новые подходы, решения и вызовы индустрии в неформальной обстановке. Спикеры и темы докладов: 🔸 Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассмотрит рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование 🔸 Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса. Покажет, как мы учим Алису откликаться без имени 🔸 Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске. Расскажет о развитии навыков распознавания текста в VLM 🔸 Пётр Вытовтов, руководитель группы в Яндекс Погоде. Рассмотрит трансформеры сервиса и расскажет, как начать прогнозировать до миллиметра осадков После докладов офлайн-участников ждёт нетворкинг с экспертами из разных компаний! 📎 Регистрация и подробности тут. Ждём вас на ML Party в Белграде! Реклама. ООО "Яндекс", ИНН 7736207543.

295 449

🌟 MaskLLM: Обучаемая полуструктурированная разреженность для LLM. MaskLLM - метод обучения полуструктурированной разреженности для LLM, с которым можно сократить количество используемых параметров без ущерба для качества. Суть - в моделировании паттернов N:M (где N - количество ненулевых значений в группе из M параметров) в виде обучаемого распределения. Для дифференцируемой выборки маски используется дискретизация Gumbel Softmax, которая дает возможность проводить сквозное обучение на больших датасетах и получать более точные маски по сравнению с традиционными методами, основанными на эвристических критериях важности параметров. Главное преимущество MaskLLM - метод может переносить паттерны разреженности между разными задачами и доменами. Это достигается путем обучения общего распределения масок, которое затем можно использовать для настройки на конкретные задачи без необходимости обучения с нуля. Эффективность MaskLLM оценивали сравнением с другими методами на моделях LLaMA-2, Nemotron-4 и GPT-3. Результаты показали, что MaskLLM достигает более низкой перплексии на наборе данных Wikitext при использовании 2:4 разреженности. Например, для LLaMA-2 7B MaskLLM достиг перплексии 6.72, в то время как SparseGPT показал результат 10.42. ▶️ Для использования MaskLLM на практике, NVlabs рекомендует использовать Docker. После установки, следуя инструкциям в репозитории, нужно скачать и сконвертировать целевую модель в формат Megatron-LM, подготовить данные для обучения и сгенерировать начальные маски. После этого можно приступать к обрезке целевой модели, и, по завершению, сделать экспорт обученных разреженных моделей в формат Huggingface для дальнейшего использования. ⚠️ Скрипты и инструкции репозитория ориентированы на запуск MaskLLM-LLaMA-2/3 на одном узле с 8 GPU с тензорным параллелизмом и потребует ~40 ГБ на GPU для сквозного обучения. 📌Лицензирование : NVIDIA Source Code License for MaskLLM (только некоммерческое использование, бесплатно) 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #MaskLLM

295 449

NLP Researchers, отметьте в календаре 26 октября🌟 Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер. Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM. В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed. Чем предстоит заниматься? ✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами. ✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов. ✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей. Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer! Будем делать важнейшие исследования вместе!💚

295 449

📎 ML: Медицинский дайджест за период 07.10 - 13.10 2024 г. ▶️ Модели машинного обучения и бенчмарки 🔘ONCOPILOT: Интерактивная модель для сегментации опухолей на основе КТ и измерения по RECIST 1.1. Цель модели - сгенерировать 3D-предсказание объема конкретной анатомической структуры на основе входного изображения и визуальной маркировки. 🔘RespLLM: MLLM для прогнозирования состояния дыхательной системы. RespLLM использует знания LLM и кросс-модальное внимание для объединения звука и текста чтобы оценить состояние дыхательной системы по аудио. 🔘GlucoBench: набор данных для прогнозирования уровня глюкозы. GlucoBench - комплексныq ресурс для исследований в области прогнозирования уровня глюкозы на основе данных непрерывного мониторинга глюкозы (CGM). 🔘DiffAbXL: Модель диффузии для оценки аффинности связывания антител. DiffAbXL - это масштабируемая модель диффузии, разработанная для прогнозирования и ранжирования аффинности связывания антител. ▶️ Фреймворки и методологии 🔘DALL-M: Система дополнения клинических данных с учетом контекста с помощью LLM. DALL-M - платформа, которая использует LLM для создания новых клинически значимых признаков, дополняя наборы данных рентгеновских снимков с учетом контекста. 🔘ClinicalLab: Платформа для оценки и разработки медицинских агентов, имитирующая реальный клинический диагностический процесс. ClinicalLab - набор инструментов и методологий, предназначенных для оценки и разработки медицинских агентов на основе LLM, которые могут эффективно имитировать процесс клинической диагностики. 🔘Синтез хирургических наборов данных с помощью диффузионных моделей. Метод, основанный на диффузионных моделях, который позволяет генерировать реалистичные хирургические изображения с полными аннотациями. ▶️Медицинские LLM-приложения 🔘MMedAgent: Мультимодальный медицинский агент. MMedAgent предназначен для обработки медицинских изображений разных модальностей и решения задач: grounding, сегментация, классификация, генерация медицинских отчетов (MRG), генерация с извлечением информации (RAG) и визуальные вопросы и ответы (VQA). 🔘Гибридная система для выявления редких заболеваний из неструктурированных клинических отчетов. Cистема предназначена для решения проблемы идентификации редких заболеваний, используя преимущества как NLP-инструментов, так и LLM. 🔘LLM-AMT: конвейер для повышения точности LLM в задачах QA. Конвейер, который улучшает работу LLM в медицинской области, добавляя к ним информацию из медицинских учебников. ▶️Исследования и обзоры 🔘Реконструкция изображений компьютерной томографии с малым числом ракурсов. Исследование, посвященное поиску эффективных методов реконструкции КТ-изображений с ограниченным числом проекций. 🔜 Читать полный дайджест @ai_machinelearning_big_data

295 449

⚡️ INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров. Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления. Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров. Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных. Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций. ▶️Детали проекта INTELLECT-1 INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн. В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения. ▶️Prime: фреймворк для децентрализованного обучения. Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности: 🟢ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи; 🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки; 🟢Восстановление чекпоинтов в реальном времени; 🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов; 🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN. 🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели. 🟢Выгрузка тензоров в CPU. Дорожная карта Prime: 🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода; 🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение; 🟠Создание фреймворка для инициации децентрализованного цикла обучения. Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU. Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке. ▶️Локальная установка и запуск фреймворка Prime:

# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env

# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive

# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml

# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml

📌Лицензирование кода : Apache 2.0 License. 🟡Страница проекта 🟡Документация 🟡Arxiv 🟡Датасет 🟡Сообщество в Discord 🟡Дашборд прогресса 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Decentralized #Training