Machinelearning

الذهاب إلى القناة على Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

إظهار المزيد

الشبكة:Machinelearning روسيا1 275 التكنولوجيات والتطبيقات333...

📈 نظرة تحليلية على قناة تيليجرام Machinelearning

تُعد قناة Machinelearning (@ai_machinelearning_big_data) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 295 417 مشتركاً، محتلاً المرتبة 333 في فئة التكنولوجيات والتطبيقات والمرتبة 1 275 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 295 417 مشتركاً.

بحسب آخر البيانات بتاريخ 24 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -6 346، وفي آخر 24 ساعة بمقدار -267، مع بقاء الوصول العام مرتفعاً.

حالة التحقق: غير موثّقة
معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 7.94‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 5.71‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
وصول المنشورات: يحصل كل منشور على متوسط 23 454 مشاهدة. وخلال اليوم الأول يجمع عادةً 16 873 مشاهدة.
التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 183.
الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل openai, claude, api, gemini, контекст.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 25 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

295 417

المشتركون

-26724 ساعات

-1 5017 أيام

-6 34630 أيام

23 454

عرض المشاهدات

~ 16 87324 ساعات

~ 18 97748 ساعات

7.94%

معدل المشاركة

~ 5

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

295 449

🌟 LongAlign: Улучшение согласованности text-2-image генерации в длинных промптах на диффузионных моделях. LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения. После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов ( <sot>, <eot>, <pad>) и добавлением нового токена <pad*>. Чтобы достичь точности согласования, в LongAlign используется 3 техники: 🟢классификация предпочтений на основе текстовой зависимости, оценивается не только следованию промпту, но и визуальные аспекты (фотореализм, эстетика); 🟢перевзвешивание градиентов, уменьшает влияние текстово-независимого компонента и улучшает согласованность между текстом и изображением; 🟢сегментной модели предпочтений, детально согласовывает отдельные части текста с изображением. По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image. ▶️ Подготовка к файнтюну с помощью LongAlign: 🟠Тестовый датасет на 2 млн. пар фомата "длинный промпт-изображение" 🟠Stable Diffusion v1.5 (загрузится автоматически) 🟠T5-адаптер (положить в ./model/LaVi-Bridge) 🟠Denscore (загрузится автоматически) 🟠longSD (положить в ./model/longSD) ▶️ Установка и запуск на примере трейна Stable Diffusion и LCM-версии Stable Diffusion

# Prepare environment
pip install -r requirements.txt

# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward test

# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test

📌Лицензирование : Apache 2.0 License. 🟡Arxiv 🖥Github #AI #ML #Diffusion #Text2Image #LongAlign

295 449

🔴 Как защитить данные, где бы они ни находились? 29 октября в 11:00 Positive Technologies проведет вебинар, посвященный защите данных. Эксперты расскажут, с какими проблемами сегодня сталкиваются компании в этой сфере и рассмотрят возможные пути решения. На вебинаре спикеры: ➡️ представят PT Data Security — новый продукт, который защищает данные независимо от их типа и места хранения; ➡️ покажут демо основных сценариев его использования; ➡️ расскажут важное о продуктовой фиче — автоматической классификации данных; ➡️ подскажут, как повлиять на развитие продукта. Хотите первыми увидеть PT Data Security — новый продукт Positive Technologies для защиты данных? Тогда скорее регистрируйтесь.

295 449

✔️ Microsoft запустит автономных AI-агентов. Microsoft готовится к выпуску в ноябре автономных агентов ИИ, которые должны стать «софтом для мира, управляемого ИИ». Эти агенты будут отличаться от чат-ботов тем, что требуют минимального вмешательства человека. Компания позиционирует их как инструменты, способные автоматизировать рутинные задачи, например, отвечать на запросы клиентов, находить потенциальных покупателей и управлять запасами. Microsoft использует для своих агентов как собственные модели ИИ, так и модели OpenAI. Создавать собственных агентов можно будет в Copilot Studio. С началом доступа будут представлены 10 готовых к использованию агентов для решения различных бизнес-задач. reuters.com ✔️ PROM-микросхема повысит эффективность обучения моделей ИИ. Xilinx XCF04SVOG20C, микросхема PROM обеспечит эффективное решение для хранения конфигураций FPGA, позволяя им быстро загружать и выполнять различные конфигурации моделей во время обучения ИИ, тем самым повышая общую вычислительную производительность и эффективность. XCF04SVOG20C, емкостью 4 Мбит, может хранить данные конфигурации, необходимые для сложных моделей ИИ. Эта емкость даст возможность FPGA гибко обрабатывать потребности в обучении различных моделей ИИ. Сотрудничество между FPGA и PROM не ограничивается крупномасштабными задачами обучения в ЦОДах и может применяться к периферийным вычислениям ИИ. Небольшой размер и высокая температурная устойчивость XCF04SVOG20C (диапазон рабочих температур от -40°C до 85°C) делают его идеальным для использования в ограниченных пространствах и изменчивых средах. electropages.com ✔️ Midjourney на следующей неделе планирует добавить новые инструменты обработки изображений. Обновление добавит две новые функции: редактирование загруженного изображения и возможность изменения текстуры объектов на изображениях. Пользователи смогут изменять цвета и детали объектов на основе текстовых описаний, сохраняя при этом исходную форму. Компания проводит опрос своего сообщества в Discord, чтобы определить, кто должен получить ранний доступ. Для предотвращения злоупотреблений компания планирует увеличить количество модераторов-людей и внедрить модераторов на основе ИИ. gagadget.com ✔️ ComfyUI выпустит первую версию своего приложения. ComfyUI V1 анонсирован в закрытой бета-версии с новым пользовательским интерфейсом, реестром пользовательских нод (CNR) и автономной версией для настольных компьютеров для Windows, MacOS и Linux. Версия для настольных ПК включает в себя функции безопасности, автоматические обновления, облегченную установку и рекомендуемую среду Python. Она поставляется с менеджером ComfyUI, который позволяет устанавливать ноды из реестра ComfyUI. Среди других особенностей - вкладки для рабочих процессов, настраиваемые сочетания клавиш, автоматический импорт из существующих установок ComfyUI, просмотрщик журналов. ComfyUI анонсировала новый пользовательский интерфейс с верхней строкой меню, библиотекой моделей, браузером рабочих процессов и функцией автоматической загрузки моделей, которая позволяет использовать URL-адрес/идентификатор модели в рабочих процессах. blog.comfy.org @ai_machinelearning_big_data #news #ai #ml

295 449

🌟 ColPali: комбайн для построения многовекторных эмбедингов из документов с помощью VLM. ColPali - это набор моделей, фреймворк и коллекция преднастроенных методов тонкой настройки для обработки документов разной модальности с учетом текстового и визуального содержания. ColPali позиционирует себя как замену сложных и хрупких конвейеров OCR. ▶️ Модель ColPali - файнтюн PaliGemma-3B с улучшенной архитектурой и уникальной стратегии обучения, которая генерирует многовекторные преставления текста и изображений в ColBERT-стиле. ▶️ Фреймворк ColPali - набор кода для инференса и обучения моделей ColPali. Поддерживаются версии 1.1, 1.2 и модель Сolqwen2-v0.1 (ретривер на базе Qwen2-VL-2B-Instruct, построенный по аналогии с ColPali). ▶️ColPali Cookbooks - репозиторий с набором блокнотов для изучения, файнтюна и адаптации ColPali к RAG-системам в задачах: 🟢Создание собственных карт сходства для интерпретации выборки ColPali; 🟢Генерации карт сходства для интерпретации ColQwen2; 🟢Файнтюн ColPali с помощью LoRA и опционального квантования 4-bit/8-bit. Для локального запуска ColPali Cookbooks понадобится поддержка Jupyter Notebook в IDE или их можно попробовать в Google Collab. 📌Лицензирование кода : MIT License. 📌Лицензирование моделей: MIT License. 🟡Набор моделей 🟡Arxiv 🟡Demo 🖥GitHub ColPali 🖥Github ColPali Cookbooks @ai_machinelearning_big_data #AI #ML #VLM #Vidore #Colpali #Cookbooks

295 449

Что такое эксперименты в ML и чем они отличаются от «фичей» в обычной разработке? 🔹Расскажем на открытом уроке «MLFlow и переобучение ML-моделей» почему важно переобучать (retrain) свои модели, чтобы держать их «в тонусе». Разберем какую роль инструменты, такие как MLFlow, играют в процессах регулярного переобучения ✅ Практика: Изучим как выбирать лучшие варианты для отправки в Prod / Staging среду и всегда знать, что у вас «на проде» Урок приурочен курсу «MLOps» от Otus. 👉 Регистрация и подробности: https://otus.pw/N5yE/?erid=LjN8KD84d #реклама О рекламодателе

295 449

📎 ML: Медицинский дайджест за 14 - 20 октября 2024 г. ▶️Модели машинного обучения и бенчмарки 🔘OLAPH: Повышение достоверности ответов на медицинские вопросы. Метод, который фокусируется на повышении достоверности ответов в формате лонгрида, используя итеративный процесс обучения с SFT и DPO. 🔘LLMD: LLM для интерпретации медицинских карт пациентов. Модель, разработанная для анализа истории болезни пациента на основе его медицинских карт. 🔘LifeGPT: агностическая генеративная модель клеточных автоматов. Первая модель, способная предсказывать переходы состояний в двумерной системе Cellular Automata. 🔘MedCare: Раздельное согласование в обучении медицинских LLM. Модель для решения проблемы снижения производительности LLM при адаптации к специализированным медицинским задачам. 🔘Y-Mol: LLM для разработки лекарственных средств. Инструктивная модель, основанная на LLaMA2 для решения задач разработки лекарственных средств. 🔘WorldMedQA-V: многоязычный мультимодальный корпус данных для оценки медицинских моделей. Мультимодальный датасет на разных языках для оценки моделей разной модальности в задачах здравоохранения. ▶️Фреймворки и методологии 🔘MedINST: набор медицинских инструкций для обучения LLM. Многозадачный мета-набор данных медицинских инструкций из 133 задач. 🔘MCQG-SRefine: автоматическая генерация медицинских вопросов. Система для автоматической генерации высококачественных вопросов множественного выбора в стиле экзамена USMLE. 🔘AgentClinic: повышение диагностической точности LLM в симулированной медицинской среде. Система, которая дает возможность агенту-врачу, основанному на LLM, итеративно совершенствовать свои рассуждения и действия после постановки неверного диагноза. 🔘MeNTi: использование инструментов в LLM для решения медицинских задач. Архитектура агента для LLM, разработанная специально для решения задач, связанных с медицинскими расчетами. ▶️Медицинские LLM-приложения 🔘AGENTiGraph: Интерактивная чатбот-платформа под управлением LLM. Платформа, которая объединяет LLM с графами знаний для решения задач в специфических медицинских областях. 🔘MMed-RAG: Мультимодальная медицинская RAG-система. Система повышения фактической точности, разработанная для борьбы с галлюцинациями, возникающими в медицинских VLM. 🔘Medical Graph RAG: Безопасная медицинская LLM c поиском по графу знаний. Метод использования LLM в медицине, основанный на RAG, дополненной поиском по графу знаний. 🔘MedAide: Многоагентная система для комплексных медицинских задач. Платформа для решения сложных медицинских задач, основанная на LLM и мульти-агентной архитектуре, где каждый агент специализируется на определенном аспекте здравоохранения. 🔘Генерация синтетических клинических испытаний на LLMs. Методика использования LLM для создания синтетических клинических испытаний. ▶️Исследования и обзоры *️⃣UniStruct: новая архитектура для представления структурированных медицинских данных. Метод адаптации техник субсловной токенизации для представления групп медицинских кодов как единые токены. *️⃣Адаптация медицинских LLM для 50 языков: подход с использованием MoE по языковым семьям. Исследовании проблемы адаптации медицинских LLM к локальным языкам, чтобы улучшить доступ к медицинским услугам. *️⃣ Можно ли добиться успеха в обучении медицинской VLM на чисто синтетических данных? В статье изучается возможность использования исключительно синтетических данных для обучения моделей MedVLM. Спойлер - да, можно 🔜 Читать полный дайджест @ai_machinelearning_big_data

295 449

🌟 Zamba2-Instruct: две гибридные SLM на 2.7 и 1.2 млрд. параметров. Zamba2-Instruct - семейство инструктивных моделей на архитектуре Mamba2+Transformers для NLP-задач. В семействе 2 модели: 🟢Zamba2-1.2B-instruct; 🟠Zamba2-2.7B-instruct. Высокая производительность семейства по сравнению с релевантными Transformers-only моделями достигается за счет конкатенации эмбедингов модели с входными данными для блока внимания и использование LoRA projection matrices к общему MLP-слою. Модели файнтюнились (SFT+DPO) на instruct-ориентированных наборах данных (ultrachat_200k, Infinity-Instruct, ultrafeedback_binarized, orca_dpo_pairs и OpenHermesPreferences). Тесты Zamba2-Instruct продемонстрировали внушительную скорость генерации текста и эффективное использование памяти, обходя MT-bench более крупные по количеству параметров модели/ (Zamba2-Instruct-2.7B превзошла Mistral-7B-Instruct-v0.1, а Zamba2-Instruct-1.2B - Gemma2-2B-Instruct) ⚠️ Для запуска на СPU укажите use_mamba_kernels=False при загрузке модели с помощью AutoModelForCausalLM.from_pretrained. ▶️Локальная установка и инференс Zamba2-2.7B-Instruct:

# Clone repo
git clone https://github.com/Zyphra/transformers_zamba2.git
cd transformers_zamba2

# Install the repository & accelerate:
pip install -e .
pip install accelerate

# Inference:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B-instruct")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B-instruct", device_map="cuda", torch_dtype=torch.bfloat16)

user_turn_1 = "user_prompt1."
assistant_turn_1 = "assistant_prompt."
user_turn_2 = "user_prompt2."
sample = [{'role': 'user', 'content': user_turn_1}, {'role': 'assistant', 'content': assistant_turn_1}, {'role': 'user', 'content': user_turn_2}]
chat_sample = tokenizer.apply_chat_template(sample, tokenize=False)

input_ids = tokenizer(chat_sample, return_tensors='pt', add_special_tokens=False).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=150, return_dict_in_generate=False, output_scores=False, use_cache=True, num_beams=1, do_sample=False)
print((tokenizer.decode(outputs[0])))

📌Лицензирование : Apache 2.0 License. 🟡Набор моделей на HF 🖥GitHub @ai_machinelearning_big_data #AI #ML #SLM #Zamba2 #Instruct

295 449

✔️ Google запускает NotebookLM Business для корпоративных задач. Google запускает платную версию NotebookLM, ориентированную на бизнес. Доступ к NotebookLM Business будет через пилотную программу раннего доступа. Участники пилотной программы NotebookLM Business получат более высокие лимиты использования и новые функции: кастомизация и совместное использование записных книжек. В NotebookLM Business также запланирована функция Audio Overview, которая позволяет пользователям создавать озвученное учебное пособие. Google объявит о всеобщей доступности и ценах на NotebookLM Business позднее в этом году. venturebeat.com ✔️ Anthropic выпустила обновление Claude: новые функции и приложение для iPad. Новые функции — возможность поиска по прошлым чатам и добавления контекста в проекты с помощью пользовательских инструкций. Например, можно попросить Claude AI создать список дел для детей, а затем указать, что у 7-летнего ребенка СДВГ, чтобы ИИ скорректировал ответ с учетом этой информации. Обновленный интерфейс мобильных приложений и дополнительная поддержка проектов упрощают переключение между устройствами, сохраняя при этом непрерывность рабочих процессов. Теперь и на нативном приложении для iPad. tomsguide.com ✔️ Google реструктуризирует команду руководителей продуктов и два подразделения разработки ИИ. Google назначил Прабакара Рагхавана, главу подразделения поиска и рекламы, на должность СTO. Ник Фокс, опытный руководитель Google, возглавит подразделение поиска и рекламы. Команды, работающие над Google Assistant и чат-ботом Gemini, будут переведены в другие бизнес-подразделения. Команды, сосредоточенные на "устройствах и домашнем опыте", перейдут в подразделение Platforms & Devices, отвечающее за разработку устройств для умного дома и смартфонов Pixel. Команда, ответственная за чат-бота Gemini, станет частью исследовательской лаборатории ИИ Google DeepMind под руководством Демиса Хассабиса, лауреата Нобелевской премии по химии за разработку системы прогнозирования структуры белка AlphaFold2. siliconangle.com ✔️ Microsoft разрабатывает ИИ-инструменты для анализа рабочих процессов. Microsoft подала заявки на два патента, описывающие ИИ-системы, способные анализировать деятельность пользователей и предлагать рекомендации по совместной работе. Первая система отслеживает документы, с которыми взаимодействует пользователь, а также вклад каждого автора, создавая ранжированный "рекорд авторства". Эти данные анализируются с помощью машинного обучения для формирования рекомендаций по совместным проектам. Вторая система использует нейронную сеть для обработки естественного языка, чтобы лучше понимать взаимосвязь между фразами в разных документах. Эта технология позволит ИИ выполнять анализ и отвечать на запросы, основываясь на более глубоком понимании контекста. thedailyupside.com ✔️ Samsung разрабатывает GDDR7 для центров обработки данных и ИИ. Samsung анонсировала разработку 24-гигабайтного чипа динамической памяти GDDR7 (DRAM) со скоростью 40 Гбит/с и выше. Новая память предназначена для использования в центрах обработки данных и приложениях искусственного интеллекта, и в ближайшее время не будет доступна для потребительских ПК. Samsung утверждает, что новый чип GDDR7 потребляет на 30% меньше энергии по сравнению с предыдущим поколением GDDR6. Это достигается за счет использования технологий управления тактовой частотой и двойного напряжения питания (VDD). Компания планирует начать производство 24-гигабайтной DRAM в начале 2025 года. uk.pcmag.com @ai_machinelearning_big_data #news #ai #ml

295 449

🌟 Janus: унифицированная MMLM от DeepSeek Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера. Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации. Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096. ▶️ Архитектура Janus состоит из 3 компонентов: 🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP; 🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора; 🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики. Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT. ▶️ Оценка производительности Janus выполнялась на бенчмарках: 🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet. 🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера. На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13. На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта. Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab. 📌Лицензирование кода : MIT License. 📌Лицензирование модели: DeepSeek Model License. 🟡Модель 🟡Arxiv 🟡Demo 🖥Github @ai_machinelearning_big_data #AI #ML #MMLM #GenAI #Janus #DeepSeek

295 449

🌟 Arch-Function: коллекция моделей для вызова функций. Модели Arch-Function понимают сложные сигнатуры функций, идентифицируют необходимые параметры и генерируют точные вызовы функций на основе промптов. Семейство основано на Qwen 2.5, его модели оптимизированы для низкой задержки инференса и высокой пропускной способности. Они отлично подходят для работы в режиме реального времени в производственной среде. ▶️Функциональные возможности моделей: 🟢Single Function Calling. Вызов одной функции для каждого запроса; 🟢Parallel Function Calling. Вызов одной и той же функции несколько раз, но с разным набором параметров; 🟢Multiple Function Calling. Вызов различных функций для каждого запроса; 🟢Parallel & Multiple. Выполнение параллельного и множественного вызова функций. ▶️Семейство Arch-Function: 🟢Arch-Function-7B; 🟢Arch-Function-3B; 🟢Arch-Function-1.5B. В репозитории на HF доступны квантованные версии всех моделей в формате GGUF: 🟠Arch-Function-7B в 4-bit разрядности; 🟠Arch-Function-3B в разрядностях от 2-bit до 6-bit; 🟠Arch-Function-1.5B в разрядностях от 2-bit до 6-bit. Модели семейства прошли оценку на Berkeley Function-Calling Leaderboard (BFCL). Результаты показывают, что Arch-Function-7B и Arch-Function-3B демонстрируют производительность, сопоставимую с GPT-4-turbo-2024-04-09 и xLAM-8x22b-r. Arch-Function можно запустить с помощью библиотеки Transformers или в промпт-шлюзе Arch. ⚠️ Для достижения наилучших результатов рекомендуется использовать конфигурацию промптов, указанных в примерах одиночного или многошагового вызова функций. 📌Лицензирование : Katanemo license. 🟡Коллекция моделей 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Katanemo #Arch-Function

295 449

Приглашаем вас посетить Очный семинар про эффективность ML моделей в бизнесе Поговорим о том, как машинное обучение позволяет трансформировать бизнес Присоединяйтесь, чтобы услышать реальные кейсы и узнать о стратегиях внедрения ML для повышения эффективности и роста прибыли ▫️ 23 октября (среда), 17:00 МСК ▫️ Место встречи: г. Москва, точный адрес отправим после заполнения формы регистрации Тема: Эффективность ML-моделей для бизнеса Приглашенные эксперты: ▫️Александр Ефимов (GlowByte) Эволюция целей и задач для ML команд ▫️ Виктор Кантор (МТС, ML Inside), ML Inside: топ-4 способа монетизации ML в B2C компании ▫️Роман Мизюрин (Альфа Банк), Опыт оценки финансовых эффектов для задач машинного обучения Модератор дискуссии: ▫️ Глеб Шуклин, директор Ассоциации больших данных Организаторы: Ассоциация Больших Данных, GlowByte Участие бесплатное, но необходима регистрация. Ждём вас! Erid: 2Vtzqv44pFm Рекламодатель: Ассоциация больших данных

295 449

✔️ Релиз PyTorch 2.5. Выпуск PyTorch® 2.5 представляет новый бэкэнд CuDNN для SDPA, обеспечивающий ускорение до 75% на GPU NVIDIA H100 и новее. Оно активировано по умолчанию. Сокращено время холодного запуска torch.compile благодаря региональной компиляции, которая позволяет собирать nn.Module без перекомпиляции. Бэкэнд TorchInductor CPP получил поддержку FP16, обертку CPP, режим AOT-Inductor и режим максимальной автонастройки. В режиме максимальной автонастройки для GEMM-операций используется шаблон C++ в качестве альтернативы ATen с библиотеками oneDNN и MKL. Поддержка Intel GPU расширена и теперь включает Intel® Data Center GPU Max Series и Intel® Client GPU. Релиз включает 4095 коммитов от 504 участников. pytorch.org ✔️ Anthropic обновила политику ответственного масштабирования ИИ, чтобы обеспечить безопасность по мере его развития. Обновленная политика включает Стандарты уровня безопасности ИИ - набор мер безопасности, строгость которых возрастает по мере роста возможностей модели. Пороговые значения возможностей - это конкретные способности ИИ, достижение которых требует усиленных мер безопасности. В новой версии определены два ключевых порога: автономные исследования в области ИИ и разработка оружия массового поражения. Для эффективного внедрения политики Anthropic разработала оценку возможностей, оценку мер безопасности, процессы документирования и принятия решений и меры для внутреннего управления и получения внешних заключений. anthropic.com ✔️ Perplexity запускает поиск по внутренней базе знаний и рабочие пространства. Perplexity запускает поиск по внутренней базе знаний и рабочие пространства. Perplexity представляет две новые функции: поиск по внутренней базе знаний, который позволяет пользователям Pro и Enterprise Pro искать как в Интернет-контенте, так и в своих собственных внутренних базах знаний, и Perplexity Spaces - хабы для совместной работы на базе ИИ, которые можно настраивать под конкретные задачи. Perplexity Spaces позволяют приглашать коллег, подключать внутренние файлы и настраивать ИИ-помощника. Функция поиска по внутренней базе знаний уже доступна клиентам Enterprise Pro. perplexity.ai ✔️ OpenAI выпустила бета-версию приложение ChatGPT для Windows. OpenAI представила предварительную версию приложения ChatGPT для Windows, предназначенного для пользователей ChatGPT Plus, Team, Enterprise и Edu. Это ранняя версия "полноценного приложения", которое выйдет позже в этом году. Пользователи могут загружать файлы и фотографии, резюмировать документы и создавать изображения с помощью DALL-E 3. Есть ограничения: отсутствие поддержки голоса, включая расширенный голосовой режим, и некоторые интеграции с GPT Store. Приложение предоставляет доступ ко всем моделям OpenAI, включая o1-preview. techcrunch.com ✔️ Boston Dynamics и Toyota Research Institute объявили о партнерстве для исследований в робототехнике. Boston Dynamics и Toyota Research Institute (TRI) объединят усилия, чтобы ускорить разработку роботов-гуманоидов общего назначения. Исследовательское партнерство будет использовать большие поведенческие модели TRI и робота Atlas от Boston Dynamics. TRI - мировой лидер в быстром развитии больших поведенческих моделей (LBM) для робототехники. Партнерство, базирующееся в Бостоне, будет совместно возглавляться Скоттом Кейндерсмой, старшим директором по исследованиям в области робототехники в Boston Dynamics, и Рассом Тедрейком, вице-президентом по исследованиям в области робототехники в TRI. pressroom.toyota.com ✔️ AMD сделает GPU NVIDIA "Эпичными". AMD и NVIDIA, два главных производителя чипов, объединили свои усилия в сфере ИИ. Несмотря на конкуренцию, они пришли к совместному заключению, что их технологии дополняют друг друга. Процессоры AMD EPYC отлично работают в паре с NVIDIA GPU, увеличивая производительность при работе с большими моделями машинного обучения. В результате сотрудничества, процессоры AMD EPYC будут интегрированы в системы NVIDIA HGX и MGX, чтобы оптимизировать производительность ИИ и ЦОДов. analyticsindiamag.com @ai_machinelearning_big_data #news #ai #ml

295 449

🌟 Mini-Omni2: MMLM с возможностью обработки изображений, речи и текста. Mini-Omni2 одна из первых MMLM с открытым исходным кодом, которая наиболее близко воспроизводит функциональность GPT-4o. Mini-Omni2 может понимать визуальные, аудио и текстовые модальности на входе и генерировать речевые ответы, интерактивно взаимодействуя с пользователями. Модель основана на архитектуре Qwen2 и использует предварительно обученные кодировщики CLIP и Whisper для обработки визуальных и аудио данных. Mini-Omni2 отличается от других моделей тем, что не требует отдельных моделей ASR или TTS. В Mini-Omni2 применяется алгоритм Text-Instruct Delay Parallel Decoding, который позволяет генерировать текстовые и аудио токены параллельно, используя синтез речи из текста для вывода аудио в режиме реального времени. ▶️ Архитектура Mini-Omni2: 🟢Визуальный кодировщик: ViT-B/32 из модели CLIP, он преобразует входные изображения в последовательность длиной до 50 токенов, которая подается в однослойный LlamaMLP. 🟢Аудио кодировщик: используется модель Whisper-small, с ее помощью извлекается семантика из входного аудио. 🟢Языковая модель: Qwen2-0.5B с расширенным словарем за счет добавления дополнительных 7 LM-голов. ⚠️ Mini-Omni2 обучена только на английском языке. Однако, поскольку в качестве аудиокодера используется whisper, модель может понимать и другие языки, которые поддерживает whisper, но инференс будет только на английском. ▶️ Локальная установка и запуск в Streamlit Ui:

# Create conda env
conda create -n omni python=3.10
conda activate omni

# Clone repo & install requirements
git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

# Start server first
sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

# Run streamlit UI
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

📌Лицензирование : MIT License. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #MLLM #MiniOmni2

295 449

❓Узнайте как построить модель финансового рынка, создать и обучить торгового агента с использованием специализированного фреймворка на открытом уроке в Otus Моделировать финансовый рынок непростая задача, а когда мы хотим обучить торгового агента для эффективной работы, она становится непосильной для одного человека На открытом уроке «Построение торгового агента на базе алгоритмов обучения с подкреплением» рассмотрим свободно распространяемые фреймворки для моделирования финансового рынка ✅ Сосредоточимся на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя Регистрация на урок 👇 https://otus.pw/mGOD/?erid=LjN8JxFYg #реклама О рекламодателе

295 449

Начался этап Квалификации на международный чемпионат по программированию Yandex Cup 2024 В этом году разработчики погрузятся в задачи, посвященные древним цивилизациям и попробуют решить их с точки зрения IT. На картинках — примеры таких ситуаций: разработать систему регулировки в средневековой Венеции, помочь роботам пройти лабиринт Майя или разработать систему оцифровки для бюллетеней из Древнего Рима. Всего шесть направлений: фронтенд, бэкенд, мобильная разработка, ML, аналитика и алгоритмы. Участвовать могут как опытные разработчики, так и начинающие — со всего мира. Также в этом году ввели отдельный зачет для юниоров 14-18 лет из России. Успейте зарегистрироваться на сайте и пройти первый этап до 20 октября! Самых лучших ждет финал в Ташкенте, где они смогут сразиться за звание абсолютного чемпиона каждого направления.

295 449

💡 Turbo Alignment: библиотека для обучения LLM под задачи бизнеса Помимо своей большой языковой модели T-lite, Т-Банк открыл доступ к библиотеке Turbo Alignment, которая позволяет даже небольшим командам без значительных ресурсов и глубокой экспертизы в LLM создавать LLM-based продукты. ✔️ В библиотеке доступны: ▶️No-code-запуск экспериментов, скрипты для обучения большого количества алгоритмов, модуль для быстрого тестирования моделей и инструменты для мониторинга метрик во время обучения. ▶️Инструменты для исследований и разработки. Turbo Alignment предоставляет все необходимые средства для добавления новых методов обучения и их сравнения с уже существующими решениями на конкретных задачах. Библиотека создана при участии лаборатории T-Bank AI Research и также дает доступ к последним исследованиям в области AI Alignment. ▶️Поддержка сложных процессов обучения. Turbo Alignment оптимизирован для распределенного обучения на нескольких видеокартах и серверах (Multi-GPU и Multi-Node). 🖥 GitHub @ai_machinelearning_big_data #LLM #news #ai

295 449

🌟 SegVLAD: метод визуального распознавания мест. SegVLAD - метод для решения задач визуального распознавания мест (VPR) в условиях значительных изменений ракурса. SegVLAD использует сегментацию изображений, разделяя их на значимые объекты ("вещи"). Вместо того, чтобы кодировать все изображение целиком, как это делают традиционные методы VPR, SegVLAD кодирует и ищет соответствия на уровне отдельных сегментов. Основа архитектуры SegVLAD - набор перекрывающихся подграфов сегментов SuperSegments. Подграфы создаются путем расширения окрестности каждого сегмента, учитывая информацию о соседних сегментах, полученную с помощью триангуляции Делоне. Для каждого SuperSegment вычисляется дескриптор с использованием метода VLAD (Vector of Locally Aggregated Descriptors). VLAD агрегирует локальные дескрипторы пикселей, полученные с помощью предварительно обученного DINOv2, который способен извлекать высокоуровневые признаки, инвариантные к различным условиям съемки. SegVLAD обучался на наборах данных, включающих как уличные, так и внутренние среды: Pitts30k, AmsterTime, Mapillary Street Level Sequences (MSLS), SF-XL, Revisted Oxford5K, Revisited Paris6k, Baidu Mall, 17Places, InsideOut и VPAir. Тесты SegVLAD показали, что метод превосходит современные VPR, особенно на датасетах с большими изменениями точки обзора. SegVLAD является универсальным и может быть использован с различными методами сегментации изображений и кодировщиками признаков. Проект программной реализации метода SegVLAD - Revisit Anything. ▶️Локальный запуск с набором данных 17 places из датасета AnyLock (~ 32GB) и моделями SAM+DINO: ⚠️ Перед запуском подготовьте данные датасета согласно структуре и укажите путь к данным в place_rec_global_config.py/

# Шаг1 - выбор метода (DINO/SAM):
python place_rec_SAM_DINO.py --dataset <> --method DINO/SAM

# Шаг2 - генерация VLAD cluster center (опционально):
python vlad_c_centers_pt_gen.py --dataset <>

# Шаг 3 - извлечение PCA:
place_rec_global_any_dataset_pca_extraction.py --dataset <> --experiment <> --vocab-vlad <domain/map>

# Шаг 4 - запуск SegVLAD: 
place_rec_main.py --dataset <> --experiment <> --vocab-vlad <domain/map> --save_results <True/False>

📌Лицензирование : BSD-3-Clause license. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #SAM #DINO #VPR #SegVLAD

295 449

✔️ Alibaba Group утверждает, что ее новый инструмент перевода на основе ИИ превосходит Google и ChatGPT. Alibaba выпустила обновленную версию инструмента перевода на базе ИИ, который, по ее словам, превосходит продукты Google, DeepL и ChatGPT. Продукт поддерживает 15 языков, включая русский, и основан на собственной LLM Qwen. Новый инструмент использует контекстуальные подсказки, культурные и отраслевые термины, что, по мнению Alibaba, поможет увеличить продажи их клиентов, которые используют их он-лайн маркетплейсы. Alibaba планирует активно продвигать инструмент в Европе, Америке и на развивающихся рынках. cnbc.com ✔️ Робот-художник Ai-Da войдет в историю: портрет Алана Тьюринга будет продан на аукционе. Ai-Da станет первым роботом-гуманоидом, чья работа будет выставлена на аукцион крупного аукционного дома Sotheby's. Созданная командой под руководством Эйдена Меллера, Ai-Da представляет собой ультрареалистичного робота-женщину, использующего ИИ для рисования, живописи и скульптуры. Картина Алана Тьюринга, как ожидается, будет продана за £100 000 - £150 000 на октябрьских торгах цифрового искусства Sotheby’s. Портрет под названием «AI God» имеет высоту 2,3 метра и был создан Ai-Da с использованием алгоритмов ИИ. Предстоящие торги Sotheby’s пройдут с 31 октября по 7 ноября и будут посвящены пересечению искусства и технологий, представляя спектр цифровых форм искусства, отражающих различные движения в современном цифровом художественном ландшафте. mirror.co.uk ✔️ Силовые министерства США увеличивают инвестиции в ИИ. Министерство обороны США увеличило расходы на проекты в области ИИ на 20% по сравнению с 2021 и 2022 годами. С момента запуска ChatGPT, ведомство заключило контракты на сумму 670 млн. долларов с 323 компаниями для разработки алгоритмов и инструментов ИИ. Министерство внутренней безопасности США также увеличило расходы на ИИ, выделив 22 миллиона долларов 20 компаниям в 2022 и 2023 годах. Среди подрядчиков - крупные компании (Palantir), так и молодые стартапы (Scale AI). В общей сложности, у Пентагона 83 активных контракта на разработку ИИ, превышающих 1 млрд. долларов. fortune.com ✔️ Lenovo представила портфолио гибридных решений на базе ИИ на международной конференции Tech World. Lenovo представила Hybrid AI Advantage – новую платформу, объединяющую возможности частных и публичных облачных сервисов с решениями для индивидуальных пользователей и предприятий. В нее вошли: Lenovo AI Library – библиотека готовых шаблонов ИИ для различных отраслей и бизнес-функций. Lenovo AI Now – локальный ИИ-агент, превращающий ПК в персональных помощника. Lenovo Learning Zone – платформа для персонализированного обучения. В дополнение к этому Lenovo анонсировала новое поколение систем жидкостного охлаждения Neptune для серверов, обеспечивающих до 40% экономии энергии в ЦОД. news.lenovo.com ✔️ Xscape создает многоцветные лазеры для соединения чипов в ЦОДах. Стартап Xscape Photonics привлек $44 млн в рамках раунда финансирования серии A на разработку программируемых лазеров на основе кремниевой фотоники для ЦОДов. Лазеры Xscape используют различные цвета света для передачи нескольких потоков данных по одному каналу без помех, повышая пропускную способность соединений между графическими процессорами, ИИ-чипами и памятью. В отличие от традиционных металлических соединений, кремниевая фотоника потребляет меньше энергии, выделяет меньше тепла и обеспечивает более высокую пропускную способность. Xscape уже сотрудничает с 10 клиентами и получила инвестиции от Cisco и Nvidia. Компания планирует использовать полученные средства для расширения своей команды и увеличения производства лазеров. techcrunch.com @ai_machinelearning_big_data #news #ai #ml

295 449

⚡️ Mistral AI представила новые модели 3B и 8B. Mistral AI, отмечая годовщину выпуска Mistral 7B, представила две новые модели: Ministral 3B и Ministral 8B. Семейство этих моделей получило название «Ministraux», они отличаются высокой производительностью в области знаний, рассуждений, вызова функций и эффективности среди аналогичных моделей категории менее 10 млрд. параметров. Обе модели Ministraux поддерживают контекстную длину до 128 тыс. токенов (32 тыс. токенов на vLLM), а Ministral 8B использует специальную схему чередующегося скользящего окна внимания для более быстрого и эффективного инференса. Модели предназначены для использования в различных сценариях, от робототехники до автономных интеллектуальных помощников без подключения к интернету. Обе модели в ближайшее время будут доступны в сервисе La Plateforme и в облачных сервисах партнеров MistalAI. Цены: 0.1$/M (input and output) для Ministral 8B и 0.04$ /M (input and output) для Ministral 3B. ▶️ Ministral 3B доступна для некоммерческого использования по запросу через форму. ▶️ Ministral 8B-Instruct опубликована в отрытом доступе: 🟢Architecture: Transformer 🟢Parameters: 8B 🟢Layers: 36 🟢Heads: 32 🟢Dim: 4096 🟢Hidden Dim: 12288 🟢Vocab Size: 131K 🟢Context Length: 128K 🟢Tokenizer: V3-Tekken 🟢Language: multilingual Локальный запуск рекомендуется выполнять в среде vLLM, воспользоваться docker или библиотекой Mistral Inference. ⚠️ vLLM имеет ограничение на размер контекста 32k, поскольку поддержка interleaved attention kernels for paged attention в нем пока еще не реализована. ⚠️ Для локального запуска Ministral 8B-Instruct понадобится 24 Gb VRAM 📌Лицензирование : MRL-0.1 🟡Страница проекта 🟡Модель 🟡Demo Ministral 8B-Instruct @ai_machinelearning_big_data #AI #ML #LLM #Ministraux #MistralAI