ch
Feedback
Machinelearning

Machinelearning

前往频道在 Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

显示更多

📈 Telegram 频道 Machinelearning 的分析概览

频道 Machinelearning (@ai_machinelearning_big_data) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 296 260 名订阅者,在 技术与应用 类别中位列第 329,并在 俄罗斯 地区排名第 1 275

📊 受众指标与增长动态

невідомо 创建以来,项目保持高速增长,吸引了 296 260 名订阅者。

根据 20 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -6 181,过去 24 小时变化为 -161,整体触达仍然可观。

  • 认证状态: 未认证
  • 互动率 (ER): 平均受众互动率为 8.10%。内容发布后 24 小时内通常能获得 5.73% 的反应,占订阅者总量。
  • 帖子覆盖: 每篇帖子平均可获得 24 014 次浏览,首日通常累积 16 967 次浏览。
  • 互动与反馈: 受众积极参与,单帖平均反应数为 187
  • 主题关注点: 内容集中在 openai, claude, api, gemini, контекст 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台:
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

凭借高频更新(最新数据采集于 21 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。

296 260
订阅者
-16124 小时
-1 4287
-6 18130
帖子存档
⭐️ «Open-Source Handwritten Signature Detection Model» - отличная статья, в которой подробно показно решение прикладной ML за
+3
⭐️ «Open-Source Handwritten Signature Detection Model» - отличная статья, в которой подробно показно решение прикладной ML задачи. Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах. ▶️ Автор протестировал все доступные модели YOLO и показал как их развертывать. В итоге получился очень годный гайд, со множеством технических деталей. 🟡Подготовка данных: использование двух публичных датасетов (Tobacco800 и Signatures-XC8UP) с последующей предобработкой и аугментацией изображений. 🟡Архитектурное сравнение: в статье приводится детальный анализ современных алгоритмов обнаружения объектов – от семейства YOLO до трансформерных моделей (DETR, RT-DETR, YOLOS). 🟡Оптимизация гиперпараметров: Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna. 🟡Развёртывание: модель оптимизирована для работы с Triton Inference Server и OpenVINO, что обеспечивает быстрый инференс на CPU и GPU (до 7.657 мс на T4) 🟡 Результаты экспериментов: Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%. Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов. Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью. А здесь можно почитать описание семейства моделей Yolo. 🟡 Читать: https://huggingface.co/blog/samuellimabraz/signature-detection-model #yolo #guide #detection #ml

+2
🔥 Stable Virtual Camera – релиз от Stability AI: модель генерации 3D видео из 2D изображений. Эта разработка, представленная в исследовательском превью, позволяет создавать реалистичные 3D видео без сложной реконструкции сцены или специализированной оптимизации. С помощью одного или нескольких изображений модель позволяет создать видео с плавной траекторией с любой перспективы, которой вы пожелаете. 🌟 Основные моменты: ▶️ Модель использует мультивью диффузию для преобразования обычных 2D изображений в объемные 3D видео с достоверной глубиной и перспективой. ▶️ Динамическое управление камерой: поддерживаются не только стандартные движения, но и 14 различных траекторий, включая 360°, Лемнискату, Спираль, Dolly Zoom и другие, что позволяет создавать уникальные кинематографические эффекты. ▶️ Гибкость входных данных: возможность генерировать 3D видео, используя как одно изображение, так и до 32 изображений. ▶️ Продвинутая архитектура: применение двухпроходного процедурного сэмплинга обеспечивает плавные переходы даже в видео длиной до 1000 кадров, гарантируя непрерывное и стабильное отображение движения. ▶️ Преимущество перед конкурентами: в тестах на синтез новых точек обзора (NVS) модель показывает хорошие результаты, превосходя такие инструменты, как ViewCrafter и CAT3D, благодаря оптимальному соотношению генеративного потенциала и плавности временных переходов. Релиз доступен для исследовательского использования под некоммерческой лицензией. 🟡Релиз: https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control 🟡Статья: https://stability.ai/s/stable-virtual-camera.pdf Веса: https://huggingface.co/stabilityai/stable-virtual-camera 🖥 Github: https://github.com/Stability-AI/stable-virtual-camera @ai_machinelearning_big_data #stability #ai #ml #release

✔️ "EXAONE Deep Released ━ Setting a New Standard for Reasoning AI" от LG AI Research Мы уже писали про довольно интересное с
✔️ "EXAONE Deep Released ━ Setting a New Standard for Reasoning AI" от LG AI Research Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели. 1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера, 2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini, 3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями. Модель 32B, которая по размеру равна примерно 5% от размера DeepSeek r1, превосходит ее почти на всех бенчмарках. Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений. 🟡Релиз: https://www.lgresearch.ai/blog/view?seq=543 🟡Статья: https://arxiv.org/abs/2503.12524 🟡HF: https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-32B 🟡Github: https://github.com/LG-AI-EXAONE/EXAONE-Deep @ai_machinelearning_big_data #AI #ML #LLM #EXAONE #LG #reasoning

✔️ Factorio стала новым бенчмарком для ИИ. Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможнос
✔️ Factorio стала новым бенчмарком для ИИ. Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек. Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех". Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play". jackhopkins.github.io ✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект. Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд. Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми. imaginingthedigitalfuture.org ✔️ ReasonGraph: инструмент для анализа ризонинга LLM. ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями. Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации. ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений. Репозиторий проекта на Github. Демо на HuggingFace. arxiv.org ✔️ MEGA mini: концепт архитектуры для универсальных NPU. На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ. MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем. techradar.com ✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3. YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал. Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества. macrumors.com @ai_machinelearning_big_data #news #ai #ml

🔥 Mistral Small 3.1 Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекст
+4
🔥 Mistral Small 3.1 Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 Модель превосходит аналогичные модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость инференса 150 токенов в секунду. Это новая версия компактной языковой модели от Mistral.ai, разработанная для обеспечения высокой производительности при минимальных вычислительных затратах. ▪ Оптимизированная архитектура: Улучшения в конструкции модели позволяют снизить задержки инференса и повысить точность генерации, что особенно важно для приложений в реальном времени. Mistral Small 3.1 может работать на одном RTX 4090 или Mac с 32 ГБ оперативной памяти. ▪ Эффективное использование ресурсов: Благодаря сниженным вычислительным требованиям, модель идеально подходит для работы на устройствах с ограниченными ресурсами — от мобильных телефонов до облачных серверов. ▪ Широкий спектр применения: Mistral Small 3.1 сохраняет баланс между компактностью и качеством, что делает её универсальным инструментом для задач обработки естественного языка: от чат-ботов и виртуальных помощников до систем анализа текстов. ▪ Стабильность и надёжность: Новая версия демонстрирует улучшенную устойчивость и предсказуемость работы, что помогает разработчикам создавать более качественные и надежные приложения. 🟡HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503 🟡Post: https://mistral.ai/news/mistral-small-3-1/ @ai_machinelearning_big_data #mistral #llm #mistralsmall

🚀 TrajectoryCrafter (Moving-Camera Diffusion) — свежий инструмент от Tencent, который предлагает новый подход к перенаправлению траекторий камеры в монохромных видео. Как работает модель: 🌟 Инициализация: начинается с существующей траектории движения камеры или даже с чистого шума. Так задаётся исходное состояние, которое модель будет постепенно улучшать. Модель использует одновременно два типа входных данных – рендеры точечных облаков (3D-представления сцен) и исходные видео. 🌟 Диффузионный процесс: Модель обучается шаг за шагом «очищать» случайный шум, превращая его в последовательность траекторий. На каждом шаге происходит итеративное уточнение — модель предсказывает, как должна выглядеть более реалистичная траектория, исходя из заданных условий (например, плавности движения, и согласованности сцены). Вместо того чтобы использовать только видео снятые с разных ракурсов, авторы создали обучающий набор, комбинируя обширные монокулярные видео (с обычной камерой) с ограниченными, но качественными многоплановыми видео. Такую стратегию достигается с помощью назвали - «двойная репроекция», она помогает модели лучше адаптироваться к различным сценам. 🌟 Генерация итоговой траектории: После серии итераций, когда шум устранен, генерируется новая траектория камеры, которая соответствует заданным условиям и обладает высоким качеством визуальной динамики. Установка: git clone --recursive https://github.com/TrajectoryCrafter/TrajectoryCrafter.git cd TrajectoryCrafter 🖥 Github 🟡Статья 🟡Проект 🟡Demo 🟡Video @ai_machinelearning_big_data #opensource #ml #ai #cameracontrol #tencent

Приглашаем аналитиков на дружескую встречу в Яндексе! 22 марта в штаб-квартире Яндекса «Красная Роза» команда Рекламных техно
Приглашаем аналитиков на дружескую встречу в Яндексе!  22 марта в штаб-квартире Яндекса «Красная Роза» команда Рекламных технологий поделятся своим опытом и расскажут:  — Как работает аналитика в Коммерческом департаменте и Рекламных технологиях  — Как устроена аналитика антифрода рекламных систем После основной части можно будет пройти диагностику навыков, поучаствовать в нетворкинге и задать все интересующие вопросы. Ждут аналитиков с опытом на Python от 3 лет. Успейте зарегистрироваться — сбор заявок завершается 20 марта! До встречи!

🌟 YOLOE — это усовершенствованная версия алгоритма обнаружения объектов, вдохновлённая классической архитектурой YOLO и разр
+6
🌟 YOLOE — это усовершенствованная версия алгоритма обнаружения объектов, вдохновлённая классической архитектурой YOLO и разработанная командой THU-MIG. Архитектура YOLO (You Only Look Once) получила своё название благодаря подходу, при котором нейронная сеть анализирует всё изображение целиком за один проход, чтобы определить присутствие и расположение объектов. Это отличается от других методов, которые сначала выделяют потенциальные области с объектами, а затем отдельно классифицируют их, что требует нескольких обработок одного изображения YOLOE сохраняет принцип однократного взгляда на изображение для детекции объектов, но вносит архитектурные улучшения, направленные на повышение точности и эффективности модели. ▪ Ключевые отличия от классического YOLO: - Оптимизированная архитектура: В YOLOE внедрены новые подходы для более эффективной обработки признаков, что позволяет улучшить качество детекции без значительного увеличения вычислительных затрат. - Повышенная точность: Улучшенные модули и методы, такие как ре-параметризация отдельных блоков, способствуют более точному обнаружению объектов, включая мелкие и сложно различимые элементы. - Скорость и эффективность: YOLOE сохраняет высокую скорость инференса, делая его пригодным для задач в реальном времени, при этом обеспечивая конкурентоспособное соотношение производительности и точности. ▶️YOLOE требует в 3 раза меньших затрат на обучение по сравнению с YOLO-Worldv2, что делает процесс обучения более экономичным YOLOE представляет собой современное и улучшенное решение для задач детекции объектов, совмещающее лучшие стороны классического YOLO с новыми архитектурными подходами. 🖥Github 🟡Статья 🟡HF 🟡Colab #yoloe #opensource #ml #ai #yolo #objectdetection

✔️ Thera: Aliasing-Free Arbitrary-Scale Super-Resolution with Neural Heat Fields Новая SOTA для апскейлинга изображений, в которой используются нейронные тепловые поля (Neural Heat Fields) для произвольного масштабирования изображений без наложения спектров. Основная идея заключается в том, что вместо обычного подхода, где каждый пиксель обрабатывается отдельно, этот метод учитывает влияние соседних пикселей. Это позволяет избежать искажений и сохранить плавность изображения при увеличении. Предложенный метод достигает нового уровня качества в задаче arbitrary-scale super-resolution, оставаясь при этом существенно более параметрически эффективным по сравнению с предыдущими решениями. 🟢 Универсальность: Возможность масштабирования с практически любым разрешением делает инструмент гибким для различных задач в компьютерном зрении и обработке изображений. 🟢Простота интеграции: Доступны чекпоинты, понятная документация и готовые скрипты для суперразрешения позволяют легко внедрить инструмент в проекты. 🟡Проект: therasr.github.io 🟡Статья: arxiv.org/abs/2311.17643 🟡Github: github.com/prs-eth/thera 🟡Demo: https://huggingface.co/spaces/prs-eth/thera @ai_machinelearning_big_data #upscaling #neuralheatfields #opensource #ml

✔️ ttt-rl (Tic-Tac-Toe Reinforcement Learning) 🎯 Суть проекта Это эксперимент по обучению с подкреплением (Reinforcement Lea
✔️ ttt-rl (Tic-Tac-Toe Reinforcement Learning) 🎯 Суть проекта Это эксперимент по обучению с подкреплением (Reinforcement Learning, RL), где агент учится играть в крестики-нолики (Tic-Tac-Toe) без использования сложных алгоритмов на чистом С. Основная цель — продемонстрировать, как классические методы RL справляются с простыми играми. 🔥 Чем интересен? Минимализм и простота ▪ Весь код написан на чистом C (~400 строк). ▪ Нет зависимостей — только стандартная библиотека. ▪ Идеален для изучения основ RL «с нуля». Классический подход к RL ▪ Используется метод Temporal Difference (TD) Learnin ▪ Агент обучается через игру (self-play) и обновляет стратегию на основе наград. Образовательная ценность ▪ Понятная визуализация процесса обучения (таблицы Q-значений). ▪ Пример того, как простая задача помогает понять фундамент RL. Эффективность ▪ После обучения агент играет почти оптимально, избегая поражений. ▪ Код легко модифицировать для экспериментов (например, изменить размер доски). 📊 Как это работает? Q-таблица хранит «ценность» каждого действия в конкретном состоянии. Агент выбирает ход на основе текущих Q-значений (с добавлением случайности для исследования). P.S. Если вы думаете, что RL — это только про AlphaGo и Dota 2, этот проект покажет, что даже в простых задачах есть глубина! 🧠 ▪ Github @ai_machinelearning_big_data #rl #ml #ai #tutorial

✔️ Еще одна из лучших отечественных LLM это GigaChat 2 MAX — обновленная версия искусственного интеллекта от Сбера, которая о
✔️ Еще одна из лучших отечественных LLM это GigaChat 2 MAX — обновленная версия искусственного интеллекта от Сбера, которая обогнала ведущие мировые предложения по данным бенчмарка MERA. Нейросеть точнее пишет код и создает ботов. GigaChat 2 MAX может генерировать точные сигнатуры функций, предлагать предварительные решения, автоматически разрабатывать и запускать тесты, а также оптимизировать и отлаживать код на основе их результатов. Вместе с этим улучшилось качество ведения диалога. GigaChat 2 MAX стал полноценным собеседником с настраиваемым стилем общения. Другие детали: 1️⃣ Контекстный интеллект улучшен в 4 раза, оставляя позади всех конкурентов; 2️⃣ GigaChat 2 MAX обходит GPT-4o и LLaMA 70B на MERA, и превосходит DeepSeek и Qwen в ключевых задачах; 3️⃣ Бесплатный API для тестирования — мощный инструмент для бизнеса без ограничений VPN и локализованный в России. GigaChat 2 MAX также улучшил метрики и расширил контекст до 128 тыс. токенов. Разработчики также заявляют, что качество новых моделей значительно опережает предыдущие версии, что позволяет уверенно конкурировать с популярными open-source моделями на всех ключевых метриках. 🟡Habr #AI #ML #LLM

+3
🔥 Китайцы снова жгут: Baidu выпустили ERNIE 4.5 и ERNIE X1, мощные модели по невероятно низкой цене! Вот все, что вам нужно знать. ⚡️ERNIE 4.5 - Мулльтимодальная модель, превосходит GPT 4.5 в нескольких бенчмарках всего за 1% от цены GPT 4.5 - OpenAI GPT 4.5 - Input: $75 / 1M токенов, Output: $150 / 1M токенов; - ERNIE 4.5 - Input: $0.55 / 1M токенов, Output: $2,20 / 1M токенов ⚡️ERNIE X1 - Ризонинг модель с мультимодальными возможностями, спроизводительностью на уровне с DeepSeek R1, но в два раза дешевле. Чатбот с искусственным интеллектом ERNIE Bot доступен бесплатно для всех пользователей. Обе модели доступны в свободном доступе ERNIE Bot на его официальном сайте: https://yiyan.baidu.com. #ernie #ai #llm #Baidu

✔️ PORTAL: ИИ-агенты, которые способны играть в тысячи игр. Tencent опубликовала техотчет проекта PORTAL, платформы для созда
✔️ PORTAL: ИИ-агенты, которые способны играть в тысячи игр. Tencent опубликовала техотчет проекта PORTAL, платформы для создания ИИ-агентов, способных играть в тысячи 3D видеоигр благодаря генерации политик, управляемой языком разработки поведенческих стратегий. PORTAL трансформирует задачи принятия решений в задачи языкового моделирования, используя LLM для генерации деревьев поведения, представленных на специализированном языке DSL. Разработка устраняет вычислительные затраты на RL, сохраняя при этом стратегическую глубину и быструю адаптивность. Политики, созданные в PORTAL могут мгновенно развертываться, понятны человеку и способны обобщаться в различных игровых средах. Эксперименты показали эффективность PORTAL в тысячах шутеров от первого лица, показывая значительные улучшения в эффективности разработки, обобщении политик и разнообразии поведения по сравнению с традиционными подходами. zhongwen.one ✔️ Deepseek ужесточает контроль за поездками сотрудников. По данным инсайдеров, Deepseek ввела ограничения на зарубежные поездки для сотрудников, занятых разработкой ИИ-моделей, фактически потребовав сдать паспорта. Неясно, исходят ли эти ограничения от руководства компании или от китайских властей, но очевидно, что они направлены на предотвращение утечки данных и нежелательных контактов. Эта мера резко контрастирует с публичным образом Deepseek как сторонника открытого исходного кода и компании, пропагандирующей свободный доступ к технологиям. В начале марта The Wall Street Journal сообщила, что китайские власти предупредили ведущих ИИ-предпринимателей и исследователей о нежелательности поездок в США, ссылаясь на опасения в области национальной безопасности и экономики. Официальные лица опасаются, что эксперты могут передать конфиденциальную информацию за границу, американские компании могут приобрести ценные технологии, или власти могут задержать руководителей в качестве инструмента дипломатического давления. theinformation.com ✔️ Command A: релиз новой модели от Cohere. Cohere представила Command A, новую модель в семействе высокопроизводительных и масштабируемых LLM. Как утверждается, Command A не уступает и даже превосходит GPT-4o и DeepSeek-V3 в решении задач, ориентированных на корпоративное использование, при этом демонстрируя значительно более высокую эффективность. Стоимость API для коммерческого использования Command A составляет 2.50 доллара за 1 млн. input- и 10 долларов за 1 млн. output-токенов. Попробовать бесплатно модель можно в веб-доступе или развернуть локально для академических целей. cohere.com ✔️ Nvidia и Microsoft объединяют усилия в технологии DirectX. Nvidia совместно с Microsoft анонсировала нейронное затенение в предварительной версии DirectX, которая станет доступна в апреле этого года. Технология позволит разработчикам использовать тензор-ядра Nvidia для ускорения рендеринга графики в играх, поддерживающих данную технологию.
Нейронное затенение - часть концепции нейронного рендеринга, для улучшения отображения материалов, освещения, теней и текстур за счет интеграции ИИ в процесс шейдинга.
Ключевым фактором является использование кооперативных векторов, которые позволяют небольшим нейронным сетям работать на различных стадиях шейдера, не монополизируя ресурсы GPU. Хотя на начальном этапе предварительная версия DirectX с поддержкой кооперативных векторов будет эксклюзивной для Nvidia, Microsoft планирует обеспечить кросс-вендорную поддержку в будущем, работая с AMD, Intel и Qualcomm. tomshardware.com ✔️ Nous Research открыла API к своим языковым моделям. Nous Research запустила Inference API, который обеспечит разработчикам программный доступ к 2 моделям: Hermes 3 Llama 70B на архитектуре Meta Llama 3.1 и DeepHermes-3 8B Preview, ризонинг-модель с возможностью переключения между стандартными ответами и развернутыми цепочками рассуждений. Запросить доступ можно через систему предварительной регистрации на портале, а опенсорсные превью-варианты моделей DeepHermes-3 (24B и 3B) можно найти на HuggingFace. NousResearch в Х (Twitter) @ai_machinelearning_big_data #news #ai #ml

🌟 AutoDidact — свежий инструмент с открытым исходным кодом, который позволяет автономно обучать исследовательских агентов на
🌟 AutoDidact — свежий инструмент с открытым исходным кодом, который позволяет автономно обучать исследовательских агентов на базе небольших LLM. Что внутри: ✔️Автономное обучение AutoDidact исследует, как небольшие языковые модели могут самостоятельно улучшать свои исследовательские и аналитические способности. Инструмент генерирует вопросы и ответы на основе предоставленных документов, после чего модель обучается искать информацию и верифицировать собственные ответы. ✔️ Использование reinforcement learning Ключевым элементом проекта является применение алгоритма Group Relative Policy Optimization (GRPO), который позволяет модели совершенствовать стратегию поиска и повышения точности ответов через цикл обратной связи. ✔️Все этапы — от генерации вопросов до создания эмбеддингов и проведения обучения — выполняются локально с использованием открытых моделей, что делает процесс полностью автономным и адаптируемым под различные наборы данных. ✔️ Self-Bootstrapping с Llama-8B: Модель автоматически генерирует значимые пары «вопрос-ответ» из предоставленного корпуса документов, что позволяет ей самостоятельно обучаться и улучшать навыки поиска информации. ✔️ Модель сама оценивает точность своих ответов, создавая замкнутый цикл обратной связи, который способствует постоянному улучшению результатов. ✔️ Оптимизация процесса обучения: Инструмент снижает необходимость ручного создания тестовых кейсов и настройки сложных систем верификации, автоматизируя процесс генерации данных для обучения. Это существенно экономит время и ресурсы на этапе разработки и тестирования. 🟡Github @ai_machinelearning_big_data #ml #ai #agents #python

Repost from .ml
Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!
Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.
Как развивалось позиционное кодирование: 📆 2017 год С появлением ванильного трансформера позиции токенов кодировались тригонометрической функцией, значение которой зависело от позиции и просто прибавлялось к эмбеддингу соответсутвующего слова. Плюсы — мы умеем кодировать любую позицию, в том числе превосходящую максимальную длину, на которой тренировались. Минусы — не очень работает на длинных последовательностях, да и вообще не очень хорошо работает. 📆 2018 год Потом появился гугловский BERT, а вместе с ним новый подход позиционного кодирования: авторы предложиди выкинуть тригонометрию и вместо этого добавить в модель ещё один обучаемый слой nn.Embedding — такой же, как для получения эмбеддингов слов. Он должен кодировать — то есть, превращать в вектор — позицию токена. Итоговый вектор токена, который будет передан следующим слоям модели — это сумма векторов токена и его позиции. Работает лучше, чем тригонометрия, но при этом никак не экстраполируется: так как векторы выучиваемые, то для позиций, превосходящих максимальную тренировочную длину, мы кодировать не умеем — она вне ключей нашего словаря эмбеддингов, так же, как мы не можем закодировать и незнакомый модели токен. В это же время впервые появилась идея о том, что нам важны не столько абсолютные позиции слов, сколько относительные. Авторы статьи решили кодировать не абсолютную позицию, а только относительную (Relative Position Encoding, или RPE), то есть близость каждой пары токенов. Здесь же появилась идея, что позицонное кодирование стоит добавлять не в момент создания эмбеддингов слов, а на этапе Attention, добавляя знание о позициии в queries и keys.

Коллеги из команды финтеха Точка подробно разобрали устройство RoPE и почему он играет ключевую роль в LLM. В серии из 3-х постов описано: ✔️ Зачем вообще нужны позиционные эмбеддинги и как они развивались до появления RoPE ✔️ Как возник RoPE и чем он превзошёл предыдущие методы ✔️ Различные вариации RoPE и что актуально сегодня ✔️ Практический аспект: как с помощью RoPE увеличить контекст модели ✔️…и почему вопросы про RoPE так часто встречаются на собеседованиях Здесь можно найти целую серию постов по этой теме. Помимо этого вы найдёте подробные разборы алгоритмов, обзор фреймворков и выжимки из статей — куча всего полезного в канале Точки .ml!

Repost from .ml
Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!
Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.
Как развивалось позиционное кодирование: 📆 2017 год С появлением ванильного трансформера позиции токенов кодировались тригонометрической функцией, значение которой зависело от позиции и просто прибавлялось к эмбеддингу соответсутвующего слова. Плюсы — мы умеем кодировать любую позицию, в том числе превосходящую максимальную длину, на которой тренировались. Минусы — не очень работает на длинных последовательностях, да и вообще не очень хорошо работает. 📆 2018 год Потом появился гугловский BERT, а вместе с ним новый подход позиционного кодирования: авторы предложиди выкинуть тригонометрию и вместо этого добавить в модель ещё один обучаемый слой nn.Embedding — такой же, как для получения эмбеддингов слов. Он должен кодировать — то есть, превращать в вектор — позицию токена. Итоговый вектор токена, который будет передан следующим слоям модели — это сумма векторов токена и его позиции. Работает лучше, чем тригонометрия, но при этом никак не экстраполируется: так как векторы выучиваемые, то для позиций, превосходящих максимальную тренировочную длину, мы кодировать не умеем — она вне ключей нашего словаря эмбеддингов, так же, как мы не можем закодировать и незнакомый модели токен. В это же время впервые появилась идея о том, что нам важны не столько абсолютные позиции слов, сколько относительные. Авторы статьи решили кодировать не абсолютную позицию, а только относительную (Relative Position Encoding, или RPE), то есть близость каждой пары токенов. Здесь же появилась идея, что позицонное кодирование стоит добавлять не в момент создания эмбеддингов слов, а на этапе Attention, добавляя знание о позициии в queries и keys.

ML-комьюнити о крупнейших запусках LLM начала 2025 года: ✔️ DeepSeek — революция или переоцененный запуск? Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений. ✔️ Grok 3 — Маск не дотянул ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением. ✔️ GPT-4.5 — не оправдал ожиданий экспертов Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода. ✔️ YandexGPT 5 — что в России? Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента. ✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество. ✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна. @ai_machinelearning_big_data #AI #ML #LLM

✔️ Alibaba представила ИИ-модель для анализа эмоций. Alibaba Group выпустила модель R1-Omni, способную распознавать эмоции лю
✔️ Alibaba представила ИИ-модель для анализа эмоций. Alibaba Group выпустила модель R1-Omni, способную распознавать эмоции людей на видео. Как заявили разработчики из лаборатории Tongyi, система не только определяет настроение — например, «радость» или «гнев» — но и анализирует одежду и окружение человека. Это улучшенная версия предыдущей открытой модели HumanOmni, созданной под руководством исследователя Цзясин Чжао. R1-Omni пока ограничена базовыми оценками, но ее способность «читать» визуальные подсказки — серьёзный шаг в развитии компьютерного зрения. Alibaba делает ставку на открытость: новинка доступна на Hugging Face. bloomberg.com ✔️ CSM 1B от Sesame — это 1B версия модели Conversational Speech Model, предназначенной для генерации речи. Модель преобразует текст и аудио в RVQ аудио коды с помощью архитектуры, основанной на Llama, и компактного аудио-декодера, генерирующего Mimi аудио коды. HF ✔️ Google открыла функцию ИИ-ресерча для всех пользователей. Google представила обновленную версию ризонинг-модели Flash Thinking 2.0, одновременно открыв бесплатный доступ к функции Deep Research для всех пользователей. Новая итерация Flash Thinking 2.0 быстрее обрабатывает данные и позволяет загружать файлы. Переработана функция Deep Research, которая теперь на базе Flash Thinking 2.0 анализирует информацию с нескольких сайтов и документов за считанные минуты, показывая пользователям пошаговую логику своих рассуждений. blog.google ✔️ Marey — первая ИИ-модель для видео, обученная на лицензированных данных. Moonvalley объявила о релизе своей модели Marey, созданной исключительно на лицензированных и этично собранных данных. Разработка велась совместно со студией Asteria, с целью изменить подход к производству фильмов и рекламы, предлагая инструменты, которые не заменяют, а помогают в творческом процессе. Особенности Marey: точный контроль над камерой и движением объектов, что позволяет режиссерам работать с ИИ как с виртуальной съёмочной группой. Инвесторы уже вложили $70 млн в проект, видя в нём потенциал для масштабного внедрения ИИ в индустрии. Как отметил CEO Asteria Брин Мозер, Marey не только решает юридические риски, но и сохраняет права творцов, чей труд лежит в основе технологического прогресса. businesswire.com ✔️ В Китае разработали транзистор на основе висмута. Ученые из Пекинского университета разработали транзистор на основе висмута, который, по их словам, на 40% быстрее и на 10% энергоэффективнее передовых разработок Intel и TSMC. Команда использовала висмут как в полупроводнике, так и в оксиде с высокой диэлектрической проницаемостью. В отличие от кремния, висмут относится к металлам, которые становятся полупроводником лишь в достаточно тонких слоях. pcgamer.com ✔️ Open-Sora 2.0: открытая модель генерации видео. Luchen Technology выпустила Open-Sora 2.0 — новую версию семейства моделей Open-Sora для создания видео, которая превосходит аналоги при рекордно низкой стоимости обучения. С бюджетом всего $200 000 разработчики обучили 11В модель, способную конкурировать с коммерческими HunyuanVideo и Step-Video. По данным тестов VBench, ее качество практически сравнялось с закрытой Sora от OpenAI. Модель использует архитектуру архитектуры MMDiT и генерирует видео с разрешением до 720p (24 кадра/с) с контролируемым движением объектов. Использование автоэнкодера со степенью сжатия 4×32×32 ускорило инференс в несколько раз: создание 5-секундного ролика 768x768 занимает менее 27 минут на одной H100. hpcaitech.github.io ✔️ OpenAI интегрировала в модели о1 и о3-mini расширенные возможности анализа данных на Python. 📈 Модель позволяет: ▪ Выполнить регрессионный анализ тестовых данных ▪ Построить визуализации для сложных бизнес-метрик ▪ Провести сценарное прогнозирование @ai_machinelearning_big_data #news #ai #ml

Бесплатный антимарафон «Вредные привычки, мешающие вашей карьере» В начале этого года мы в Стратоплане говорили о привычках,
Бесплатный антимарафон «Вредные привычки, мешающие вашей карьере» В начале этого года мы в Стратоплане говорили о привычках, которые помогут расти вам как специалисту. Но как и медаль имеет две стороны, так и привычки бывают полезными и вредными. Вот об этом «вредном», которое мешает вашей карьере, росту и в целом том, что мешает получить вам от работы то, чего хотите — поговорим теперь в рамках антимарафона. Когда? 17–28 марта, две недели в формате коротких вечерних эфиров и лонгов, бесплатно Регистрация Некоторые из «привычек», которые мы затронем: – софты нужны тем, у кого не все окей с хардами – делай всё сразу: кто сказал, что многозадачность неэффективна? – кому надо, тот поймет. Никогда не давайте обратную связь – планировать — это для средних умов, гении господствуют над хаосом А всего будет таких «привычек» будет 10. И в этот раз Стратоплан снова не один, а с авторами топовых телеграм-каналов про управление в IT и не только. Среди них: Дмитрий Болдырев, Евгений Антонов, Ольга Елисеева, Роман Ивлиев и еще множество тех, кого вы, возможно, читаете. Меняться сложно, но с кем-то — легче. Делайте это со Стратопланом 👉 https://stratoplan-school.com/habits/