Machinelearning

Kanalga Telegram’da o‘tish

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya1 275 Texnologiyalar & Aralashmalar329...

📈 Telegram kanali Machinelearning analitikasi

Machinelearning (@ai_machinelearning_big_data) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 296 260 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 329-o'rinni va Rossiya mintaqasida 1 275-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 296 260 obunachiga ega bo‘ldi.

20 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -6 181 ga, so‘nggi 24 soatda esa -161 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.10% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.73% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 24 014 marta ko‘riladi; birinchi sutkada odatda 16 967 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 187 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent openai, claude, api, gemini, контекст kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 21 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

296 260

Obunachilar

-16124 soatlar

-1 4287 kunlar

-6 18130 kunlar

24 014

Post ko'rishlar

~ 16 96724 soatlar

~ 19 11248 soatlar

8.10%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

296 308

✔️ Transformers & LLMs cheatsheet for Stanford's CME 295 Это репозиторий с набором визуальных шпаргалок, посвященных трансформерам и большим языковым моделям (LLM). 🌟 Материалы основаны на курсе CME 295 "Трансформеры и большие языковые модели", читаемом в Стэнфордском университете. Это не книга или подробный туториал, а именно сжатые, наглядные обзоры ключевых концепций. Используются диаграммы, краткие пояснения, основные формулы и определения. ✔️Содержание: Охватывает фундаментальные темы, необходимые для понимания LLM: ✔️Механизм внимания (Attention Mechanism) ✔️Архитектура Трансформера (Transformer Architecture) ✔️Позиционное кодирование (Positional Encoding) ✔️Предобучение (Pre-training) и его цели (например, Masked Language Modeling, Next Sentence Prediction) ✔️Дообучение (Fine-tuning) для конкретных задач ✔️Промптинг (Prompting) и различные его техники ✔️Оценка (Evaluation) LLM ✔️Другие важные концепции в этой области. Идеально подходит для повторения материала или для того, чтобы быстро схватить суть той или иной концепции. 🟡Github #ml #cheatsheets #transformers

296 308

🔥 GemmaCoder3-12B — это дообученная версию Gemma-3 на датасете codeforces-cots. После файнтюнинга демонстрирует значительное улучшение результатов на бенчмарке LiveCodeBench, увеличивая точность с 21,9% до 32,9% по сравнению с базовой моделью. GemmaCoder3-12B принимает текстовые запросы, связанные с программированием, и генерирует готовый код. ▪ В 8 бит отлично работает на 32 ГБ ОЗУ ▪Длина контекста 128k В целом, проект подчёркивает простую истин - дообучение моделей на специализированных датасетах может значительно повысить их эффективность в узкоспециализированных задачах. Подхходит для: 😶Генерации кода: Написание фрагментов кода или целых функций по текстовому описанию. 😶Автодополнения кода: Предложение вариантов завершения строки или блока кода (по аналогии с IntelliSense или GitHub Copilot, но на базе этой модели). 😶Объяснения кода: Генерация описания того, что делает заданный фрагмент кода, на естественном языке. 😶Перевода кода: Конвертация кода с одного языка программирования на другой (с переменным успехом в зависимости от сложности и языков). 😶Дебагинга: Помощь в поиске багов или предложение вариантов их исправления. 😶Ответов на вопросы по коду: Предоставление информации по синтаксису, библиотекам, алгоритмам. 🟡HF 🟡Статья @ai_machinelearning_big_data #codegeneration #ml #gemma

296 308

🦾 Курс искусственный интеллект (ML) в медицине Научитесь создавать качественные мультимодальные медицинские датасеты и осуществлять техническую поддержку разметки данных Ориентирйтесь в зоопарке современных подходов к машинному обучению и умейте анализировать результаты машинного обучения ✅ Выпускной проект: Разработка и внедрение модели от появления данных и размеченных датасетов до машинного обучения, анализа результатов и выбора моделей. 👇 Проверить свой уровень и пройти тест на курс: https://otus.pw/jyGb/?erid=2W5zFJgK1zx #реклама О рекламодателе

296 308

🔥 BPT - это новый способ токенизации данных для создания 3D-моделей. Ключевое достижение: Метод обладает рекордно высоким (State-of-the-Art) коэффициентом сжатия данных - 75%! BPT использует блочную индексацию и агрегацию патчей, что позволяет уменьшить длину последовательностей мэшей примерно на 75% по сравнению с исходными данными. Это значительно повышает эффективность обработки и генерации высокодетализированных 3D-моделей. Преимущество: Такое сжатие позволяет эффективно генерировать высокодетализированные 3D-модели, содержащие более 8000 граней (полигонов). BPT - очень перспективный подходя для 3D-моделирования. Он позволяет создавать детализированные и топологически точные модели с использованием компактных и эффективных представлений данных. 🟡Подробнее 🟡Github @ai_machinelearning_big_data #ml #ai #machinelearning #3d

296 308

✔️ Qwen3, по слухам, будет представлена на следующей неделе. Китайский медиапортал Sina.com.cn сообщил, что в его распоряжении есть информация, указывающая на то, что Alibaba Group планирует выпуск новой модели Qwen3 следующей неделе (7- 11 апреля). По словам экспертов медиаресурса Huxiu.com , это будет самый важный модельный продукт Alibaba в первой половине 2025 года, после выпуска DeepSeek-R1 команда Alibaba Cloud Basic Model Team еще больше сместила вектор разработки в сторону способности модели к рассуждениям. Sina Technology обратилась за подтверждением к Alibaba Cloud, но на момент публикации официального ответа не последовало. sina.com.cn ✔️ Microsoft закрывает ИИ-лабораторию в Шанхае. Microsoft свернула работу своей лаборатории IoT и ИИ в технологическом кластере Чжанцзян (Шанхай), следуя стратегии сокращения присутствия в Китае. Объект, открытый в 2019 году для поддержки местных стартапов уже опустел: логотип демонтирован, оборудование вывезено. За 5 лет лаборатория помогла реализовать 258 проектов, привлекла 9,4 млрд юаней инвестиций и обучила около 10 тыс. специалистов. Решение закрыть центр стало частью плана ухода Microsoft с китайского рынка. В 2023 году компания предложила сотрудникам, работающим над ИИ, переехать за рубеж, а также закрыла все розничные магазины в стране. По словам президента Microsoft Брэда Смита, на Китай приходится всего 1,5% глобальной выручки. scmp.com ✔️ Руководитель отдела исследований FAIR Жоэль Пино покинет свой пост в мае. Жоэль Пино, вице-президент по исследованиям в области ИИ компании Марка Цукерберга и глава группы FAIR, объявила о своих планах покинуть компанию в мае после почти 8 лет работы. Пино возглавляла FAIR с начала 2023 года и курировала разработку моделей Llama. Ожидается, что уход Пино приведет к появлению вакансии высокого уровня в подразделении ИИ компании, но непосредственный преемник пока не назван. wsj.com ✔️ Все SOTA-модели провалились на матолимпиаде-2025. Тесты топовых LLM, проведенные matharena.ai на сложных задачах математической олимпиады США (USAMO-2025) показали печальные результаты. Модели решали 6 доказательных задач — каждая оценивалась в 7 баллов, высший балл - 42. Лидеры теста (DeepSeek-R1 и Gemini-2.0-flash-thinking) набрали меньше 5%, что ставит под сомнение их способность к глубокому математическому анализу. Несмотря на провал, часть специалистов уверена — прогресс LLM в математике всё же есть, и он не сводится к «загрязнению» данных. Исследование, в рамка которого проводилось тестирование - «Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad» подытоживает: LLM, даже лучшим, пока далеко до уровня человека в соревновательных дисциплинах. matharena.ai ✔️ OpenAI представила новый голос ChatGPT "Shade". OpenAI добавила новую голосовую опцию для ChatGPT под кодовым названием "Shade". Этот голос, описанный как "Поговори с понедельником", имеет характерную визуализацию "угрюмого черного" в расширенном голосовом режиме. Новая опция доступна в приложении для iOS, и пользователи отмечают его уникальное звучание и эстетику "тяжелого понедельника". OpenAI в X (ex-Twitter) @ai_machinelearning_big_data #news #ai #ml

296 308

✔️ "Speech and Language Processing": 3-е издания книги Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи. 🌟 Авторы: Дэн Джурафски и Джеймс Х. Мартин - известные фигуры в области NLP и вычислительной лингвистики. Книга считается классическим текстом, обновленным для включения современных методов, таких как трансформеры, которые доминируют в области NLP. Книга разделена на три части, включающие 24 основные главы и 8 приложений. Темы охватывают широкий спектр, включая: 😶Фундаментальные алгоритмы 😶Приложения NLP (Обработки Естественного Языка) 😶Регулярные выражения 😶Нейронные сети и трансформеры, 😶Машинный перевод и другие аспекты NLP 😶Аннотирование (или Разметка) лингвистической структуры. Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей. Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс. 🟡Книга в PDF 🟡Все Главы 🟡Еще книги по NLP @ai_machinelearning_big_data #freebook #opensource #nlp

296 308

Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными. Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью. Всё о программе — на дне открытых дверей: — Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer. — Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей. — Поговорим про поступление: сроки, экзамены, документы, оплата. Спикеры: Станислав Павлов, директор по AI, Positive Technologies. Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ. Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум. Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум. Ждём вас 9 апреля в 19:00 мск. → Зарегистрироваться на встречу

296 308

✔️ Новый нейропротез 'мозг-голос' для восстановления естественной коммуникации. Женщина, которая потеряла способность говорить 18 лет назад, теперь общается через свой мозг, в режиме реального времени, своим собственным голосом. Исследование, опубликованное вчера в журнале Nature Neuroscience, описывает прорыв в области интерфейсов мозг-компьютер (BCI), позволяющий женщине, потерявшей способность говорить из-за инсульта, вновь общаться в реальном времени с использованием ее собственного голоса. Этот инновационный подход преобразует нейронные сигналы, связанные с намерением говорить, непосредственно в синтезированную речь без необходимости в наборе текста или звуковых попытках. 🔥 Ключевые аспекты исследования: - Участница исследования: 47-летняя женщина, потерявшая способность двигаться и говорить после инсульта 18 лет назад. - Технология: Имплантация массива из 253 электродов (ECoG) на моторную кору головного мозга, отвечающую за речь. - Процесс: Запись нейронной активности во время мысленного произнесения предложений, последующая обработка с использованием глубоких нейронных сетей для декодирования намерения речи и синтеза звуков, основанных на ее голосе до травмы. - Скорость и точность: Система позволяет достигать скорости речи до 90 слов в минуту с задержкой менее секунды, что значительно превосходит предыдущие методы, обеспечивавшие скорость 8–14 слов в минуту. - Результаты: Женщина смогла общаться, используя синтезированную речь, которая отражает ее собственный голос, что способствует восстановлению чувства идентичности и улучшению качества жизни. Это исследование демонстрирует потенциал BCI-технологий в восстановлении речи у людей с тяжелыми формами паралича и открывает новые перспективы для разработки нейропротезов, способных преобразовывать мыслительные процессы непосредственно в речь. 🟡Статья в Nature @ai_machinelearning_big_data #neural #science

296 308

🔥 Video-T1 — это метод в области машинного обучения, направленный на улучшение качества генерации видео посредством масштабирования вычислений на этапе инференса (Test-Time Scaling, TTS). Вместо увеличения размеров модели или объема обучающих данных, Video-T1 использует дополнительные вычислительные ресурсы во время инференса для повышения качества генерированных видео. 🌟 Как работает Video-T1: 😶Случайный Линейный Поиск (Random Linear Search): Процесс: Этот метод довольно прямолинейный. Берется несколько (N) разных случайных начальных "шумов" (Gaussian noise). Для каждого из этих шумов запускается стандартный процесс генерации видео (пошаговое "очищение" от шума, denoising) от начала до конца, создавая N полных видео-кандидатов. Специальные модели или алгоритмы, называемые "тестовыми верификаторами" (test verifiers), оценивают каждый из N сгенерированных видеороликов по разным критериям (например, соответствие тексту, качество изображения, правдоподобность движения). Выбирается то видео, которое получило наивысшую оценку от верификаторов. ➖ Недостаток: Требует генерации множества полных видео, что может быть очень затратно по времени и ресурсам, особенно для длинных видео. 😶Поиск "Дерево Кадров" (Tree of Frames - ToF): Процесс: Этот метод более хитрый и потенциально более эффективный. Он разбивает генерацию на этапы и строит "дерево" возможных вариантов, отсекая бесперспективные "ветви" на ранних стадиях. (a) Этап 1: Выравнивание на уровне изображений: Начинается генерация нескольких вариантов первых кадров или коротких начальных сегментов. Верификаторы оценивают, насколько хорошо эти начальные изображения соответствуют запросу. Этот этап важен, так как первые кадры сильно влияют на последующие. Отбираются лучшие "стартовые" ветви. (b) Этап 2: Поиск с динамической проверкой: Для перспективных "ветвей" генерация продолжается кадр за кадром (или короткими клипами). На этом этапе верификаторы (возможно, с динамическими подсказками, адаптирующимися к уже сгенерированному) фокусируются на стабильности движения и физической правдоподобности. Они дают обратную связь, которая направляет "эвристический поиск" — алгоритм решает, какие "ветви" дерева продолжать растить, а какие — "подрезать" (prune) как неперспективные. Это экономит ресурсы, не тратя их на заведомо плохие продолжения. (c) Этап 3: Финальная оценка: Когда несколько полных видео- "ветвей" сгенерированы, финальные верификаторы оценивают их общее качество и полное соответствие исходному текстовому запросу. Выбирается лучшее видео из финальных кандидатов. Преимущество: Позволяет более эффективно использовать вычислительный бюджет, концентрируясь на наиболее обещающих вариантах генерации на каждом этапе. Зачем нужен Video-T1: 1) Улучшение качества видео: Применение TTS позволяет существенно повысить качество сгенерированных видео и их соответствие заданным текстовым описаниям. 2) Экономия ресурсов: Вместо дорогостоящего увеличения размеров моделей или повторного обучения на больших объемах данных, Video-T1 использует дополнительные вычисления на этапе инференса, что более экономично. 3) Метод может быть адаптирован к различным моделям генерации видео, обеспечивая стабильное улучшение качества при увеличении вычислительных ресурсов во время инференса. TTS особенно хорошо работает для улучшения видео по параметрам, которые легко оценить: * Соответствие общим запросам (например, генерация определенной сцены или объекта). * Качество изображения (четкость, детализация). 🟡Github 🟡Paper 🟡Project @ai_machinelearning_big_data #ai #ml #videogenerator #video

296 308

🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей! Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области! Что тебя ждет: ☑️Денежный призовой фонд ☑️Автоматизированная оценка решений ☑️2 практические задачи: 1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию. 2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию. Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день. Регистрация уже открыта! Подробности и анкета по ссылкам выше.

296 308

По Avito ML cup 2025 , документы еще не подписали. Текст согласовали: 🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей! Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области! Что тебя ждет: ☑️Денежный призовой фонд ☑️Автоматизированная оценка решений ☑️2 практические задачи: 1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию. 2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию. Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день. Регистрация уже открыта! Подробности и анкета по ссылкам выше.

296 308

✔️ В Китае появились цены на медицинские услуги с использованием интерфейсов "мозг-компьютер". Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $). ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды. ybj.hubei.gov.cn ✔️ OpenAI анонсировала открытую модель: релиз через несколько месяцев. OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР. Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы. Sam Altman в X (ex-Twitter) ✔️ Runway выпустила Gen-4. Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения. runwayml.com ✔️ SANA-Sprint: SOTA в реалтайм-диффузии. MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов. SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды. nvlabs.github.io ✔️ Microsoft расширяет функционал Copilot+ для устройств на AMD, Intel и Snapdragon. Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом. Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update. blogs.windows.com ✔️ Apple разрабатывает ИИ-агента для здоровья. Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года. Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom. pymnts.com @ai_machinelearning_big_data #news #ai #ml

296 308

🏥 Что MedAgentSim - Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках. Всё происходит автоматически, как в игре или симуляторе. 🌟 Чем отличается от обычных ИИ-медицинских систем? 1. Реализм (а не просто ответы на вопросы): Обычные датасеты типа "вопрос — ответ" (QA) статичны. А тут врач-агент: ведёт многоголовую консультацию, сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз. 2. Самообучение через память и размышления: Система запоминает успешные и неудачные случаи. При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках. Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей). 3. Можно управлять вручную: По желанию вы можете взять на себя роль врача или пациента. Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают. 4. Работает лучше аналогов: Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения). 5. Фокус на анализ предвзятости: Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений. GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral. Если коротко: Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки. 🟡Paper 🟡Project 🟡Github @ai_machinelearning_big_data #ml #ai #aiagents #simulation #MedAgent

296 308

⚡️ Авито развивает собственные генеративные модели: A-Vibe и A-Vision Авито представил уникальное семейство генеративных моделей — A-Vibe и A-Vision, созданные на базе нейросети Qwen2.5 с 7 миллиардами параметров. Их разработали специально для задач, связанных с покупкой и продажей товаров, что делает их особенно полезными для классифайдов. 📋 Что умеют эти модели? 🟡A-Vibe — текстовая модель, которая создает продающие описания товаров и помогает в общении между пользователями. 🟡A-Vision — мультимодальная нейросеть, работающая с изображениями и текстом. Она анализирует визуальные характеристики товаров, распознает текст на фотографиях и улучшает качество изображений. Компания представила генеративные модели в рамках новой стратегии, посвященной внедрению искусственного интеллекта. В соответствии с ней до 2028 года Авито собирается инвестировать порядка 12 млрд рублей в технологии GenAI и получить более 21 млрд рублей прибыли. @ai_machinelearning_big_data #ai #ml #avito

296 308

🔥 Сегодня Amazon расширила доступ к своим новым генеративным ИИ моделям. Nova Micro, Lite и Pro, предоставляют быстрые и экономически эффективные решения для различных приложений. Особо интересен агент Amazon Nova Act, обученный выполнять комплексные действия в браузере. 🌟Вот ключевые особенности: 1) Агент может автономно управлять -браузером для выполнения задач, имитируя действия человека. 🌐 2) SDK для разработчиков: Поставляется с набором для разработки ПО (SDK), который позволит разработчикам создавать и тестировать собственные прототипы ИИ-агентов. 🧑‍💻 3) Интеграция с Alexa+: Эта технология станет основой для будущих продвинутых функций в улучшенном ИИ-ассистенте Amazon - Alexa+. 🗣️ 4) Автоматизация задач: Nova Act способен выполнять реальные задачи, такие как заказ еды , бронирование столиков , покупки и многое другое. 5) Поддержка контроля человеком: Предусмотрена возможность вмешательства человека, когда это необходимо, для повышения надежности и управляемости. 🧑‍💼 6) Оптимизация производительности: Amazon утверждает, что во внутренних тестах Nova Act превосходит все конкурирующие решения, такие как Operator от OpenAI и Computer Use от Anthropic. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %). Верим?) SDK Nova Act доступен в превью режиме здесь. 🟡Новость #Amazon #NovaAct #AIAgent #Alexa #TechNews #Automation #SDK

296 308

🔥 Awesome MCP Servers Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers). ✔️ Что такое MCP серверы? MCP — это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд. Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.! Здесь можно найти платины на все случаи жизни: •Автоматизация Браузера • Облачные Платформы • Командная Строка • Коммуникации • Базы данных • Инструменты Разработчика • Файловые Системы • Финансы • Игры • Службы определения местоположения • Маркетинг • Мониторинг • Поиск • Спорт • Путешествия И Транспорт • Другие инструменты и интеграций 🟡Github @ai_machinelearning_big_data #mcp #ai #agents #awesome

296 308

Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite — компактную языковую модель с 8 млрд параметров и контекстом до 32 к токенов, которую сразу можно внедрять в свои проекты Модель совместима с llama.cpp и дополнительно представлена в GGUF-формате — можно протестировать локально. ✔️ Главное: 🟡 Согласно тестам, модель в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct (бенчмарк (MMLU, IFEval, RuFacts и других) и сопоставима с GPT-4o Mini в стандартных задачах сервисов компании. 🟡 Расширенный контекст: Поддержка увеличена с 8 тыс. до 32 тыс. токенов, что улучшает обработку длинных текстов. 🟡 Поддерживает вызов функций 🟡 Модель стала значительно лучше в математике и генерации кода по сравнению с версией предыдущего поколения 🟡 Обновлена лицензия — теперь она позволяет коммерческое использование при объёме входящих токенов до 10 млн в месяц. 🟡 Модель доступна на Hugging Face для разработчиков и исследователей.Бизнес-клиенты могут интегрировать её через API в Yandex Cloud, с возможностью дообучения под специфические задачи. В феврале была опубликована Pretrain-версия YandexGPT 5 Lite, на основе которой в комьюнити создали свои версии инстракт- и квантизованных моделей, менее требовательных к вычислительным ресурсам. Посмотреть и сверить с моделью Яндекса — тут. @ai_machinelearning_big_data #ai #ml #YandexGPT #yandex #opensource

296 308

🔥 Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года! Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов. ✔️Основные нововведения: Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS. В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами. Для интеграции с Python используется пакет xet-core, написанный на Rust, который обрабатывает все низкоуровневые детали. Чтобы начать использовать Xet, установите дополнительную зависимость: pip install -U huggingface_hub[hf_xet] После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet. Доплнительно: 😶 Расширен InferenceClient: 😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere. 😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы. 😶 Улучшен CLI 😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include). 😶 Команда huggingface-cli delete-cache получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size). ✔️ Полный список обновлений ✔️Блог ✔️Документация по Xet @ai_machinelearning_big_data #huggingface #release #xet

296 308

🌟 VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени. Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей. Как работает: 🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа. 🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью. ✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA). 🟡Github 🟡Demo 🟡Paper 🟡Dataset 🟡Checkpoints @ai_machinelearning_big_data #agent #ai #ml #video