Душа Питона

Искусственный интеллект. Для людей. Рассказываю о д̶л̶и̶н̶н̶о̶н̶о̶г̶и̶х моделях машинного обучения с иронией и юмором — но не упуская деталей!

Больше

Россия30 379Русский31 590Технологии и приложения4 427

Рекламные посты

19 882

Подписчики

-424 часа

+2697 дней

-20030 дней

951

Просмотры поста

~ 53724 часа

~ 62848 часов

4.83%

Коэффициент вовлеченности

2.7%24 часа

3.2%48 часов

164

Упоминания

37 дней

430 дней

~ 4

Постов в день

~ 10

Реакции

Нет данных

Комментарии

~ 14

Репосты

Подписчики
Просмотры постов
ER - коэффициент вовлеченности

Загрузка данных...

Фото недоступноПоказать в Telegram

Такое количество LLM (и ещё 7 нейронок для генерации визуала по промптам) рассмотрели с точки зрения их открытости 🤝 Чётких критериев опенсорса, касающегося ML, сейчас ещё нет, поэтому производители порой лукавят 😛 Вроде бы доступ есть, но код открыт не полностью или запрещено коммерческое использование 🤬 Рейтинг Университета Неймегена (Нидерланды) расставил все точки над i ℹ️ Самые открытые модели — BloomZ, AmberChat, OLMo, OpenAssistant и всеми любимая Stable Diffusion. Доступны лицензия, исходные данные, код и API 👑

Показать все...

👍 2

01:05

Видео недоступноПоказать в Telegram

Как-то рассказывала вам, что андроида Walker S учат работать в автопроизводстве. Теперь всё серьёзно! Разработчики робота Ubtech и легендарная компания FAW-Volkswagen договорились об использовании Walker S на отдельной производственной линии 🤓 И мы уже можем посмотреть, как он тренируется в цехах окончательной сборки автомобилей 👏 Это промышленная версия андроида, который, как мы видим, не только ремень безопасности в состоянии проверить или сигнализацией пикнуть, а ещё и выполняет более сложные и требующие максимальной точности операции 🥹

Показать все...

5.22 MB

👍 6🔥 2

Фото недоступноПоказать в Telegram

Способны ли LLM к вероятностному мышлению Проверим вместе с учёными Google. Этот аспект часто остаётся неохваченным современными бенчмарками. Исследователи изучали работу моделей как с идеализированными теоретическими распределениями, так и с данными из реального мира. Как проходил эксперимент: 📊 языковым моделям предлагалось решить задачи трёх типов: оценка перцентиля, генерация распределения и оценка вероятности события 📊 тесты проводились и в zero-shot режиме, и с учётом дополнительного контекста во few-shot варианте 📊 для работы были собраны два новых датасета: первый с данными из теоретических распределений (нормальное, логнормальное и другие), второй с примерами данных из областей финансов, здравоохранения и наблюдений за климатом, соответствующих различным распределениям Участвовали Gemini 1.0 Ultra, GPT4-Turbo, GPT3.5-Turbo и LLaMA 3-70B*. Перформанс оценивался с помощью метрики MAE и теста Колмогорова-Смирнова (им проверяют гипотезу о соответствии эмпирического распределения некоторому закону). Лучше всего модели справляются с вероятностными задачами во few-shot режиме при условии, что им предоставлен также дополнительный контекст. Абстрактные теоретико-вероятностные вопросы представляют сложности ⌛ Особенно трудными оказывались для моделей скошенные и неравномерные распределения. * продукт экстремистской организации, деятельность которой запрещена на территории РФ Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Показать все...

🔥 6

Фото недоступноПоказать в Telegram

Новый промптинг, локальный AI и суперкомпьютеры Усиленные инструменты, компании и функции. 🔔 Начав с выпуска собственных чипов MI300 в пику Nvidia, AMD делают новый ход. Компания покупает успешный стартап, чтобы усилить развитие за счёт внедрения технологий в свои LLM. Их и будет разрабатывать команда Silo AI. Сделку называют одним из крупнейших поглощений в Европе 💪 🔔 А вот Илон Маск спокойно пользуется продукцией Nvidia себе во благо. Собирается расширить кластер Gigafactory на 50 тысяч GPU для выполнения AI-операций. Это плюс к новому строящемуся суперкомпьютеру xAI на 300 тысяч GPU Nvidia B200. 🔔 У OpenAI перестановки в совете директоров. Apple только хотели туда войти, как вдруг из него вышли Microsoft 😨 В служебных записках оба бывших партнёра раскланялись и выразили благодарность, но есть мнение, что сделано это в качестве шага навстречу антимонопольным органам. Следим за событиями 😵‍💫 🔔 Тем временем в Microsoft не забывают и о своих AI-решениях. В Windows 11 24H2 на Copilot Plus ждём, к примеру, Microsoft Copilot Runtime, который позволит внедрять AI в свои приложения. Это и Phi Sillica (текст), и OCR (его распознавание), и DALL-E (картинки). 🔔 Anthropic предложили вообще простую и гениальную вещь: модель будет сама писать себе промпты. От пользователя требуется только пара слов по сути. В функцию Evaluate встроен генератор запросов на базе Claude 3.5 Sonnet, который усилит промпт, развернёт его смысл и сделает длиннее. Ищем опцию на панели управления Anthropic Console для разработчиков. Также можно протестировать промпты, сравнить результаты и выбрать лучший 😇

Показать все...

👍 7

Фото недоступноПоказать в Telegram

Модель XEUS, разработанная Университетом Карнеги-Меллона, обучена на таком огромном количестве языков. Они вошли в датасет объёмом 1 081 млн часов. Языковой корпус будет в открытом доступе 🙏 Обычно SSL-модели охватывают узкий диапазон языков. Возможности XEUS объясняются и тем, что её тренировали с использованием 64 процессоров Nvidia A100. Разработка бьёт современные модели в различных тестах (включая 1 место на бенчмарке ML-SUPERB)👍 Непонятно пока, как она по сравнению с Whisper от OpenAI, но заявка на победу вполне серьёзная.

Показать все...

👍 5❤ 1👏 1

Фото недоступноПоказать в Telegram

TSI-Bench: как оценить качество заполнения пропусков в данных Изучаем первый бенчмарк для важного этапа анализа временных рядов. Существует большое число способов заполнить пропуски, включая те, которые опираются на DL-алгоритмы. Time Series Imputation крайне необходим, так как многие алгоритмы требуют для своей работы наличие полных датасетов, содержащих информацию о поведении исследуемой величины на протяжении всего периода наблюдений 🤓 Что включает в себя TSI-Bench: 🚩 TSDB — базу датасетов, использующихся в бенчмаркинге. Их восемь из четырёх тематических доменов: качество воздуха, уровень трафика на дорогах, потребление электричества и клинические данные 🚩 PyGrinder — инструмент для симуляции различных паттернов, пропущенных в данных значений 🚩 BenchPOTS — пайплайн, используемый, чтобы добиться воспроизводимости результатов 🚩 PyPOTS — библиотеку различных алгоритмов заполнения пропусков Фреймворк также содержит 28 моделей, построенных на разнообразных архитектурах, включая трансформеры (iTransformer, SAITS, например), RNN (BRITS, MRNN, GRUD), генеративные модели (CSDI, US-GAN), традиционные методы заполнения (среднее, медиана). Перформанс алгоритмов оценивается с помощью различных метрик (MAE, MSE, MRE) с использованием оптимизации гиперпараметров (чтобы обеспечить сравнимость результатов между моделями и датасетами). Изображение TSI-Bench

Показать все...

👍 5

Фото недоступноПоказать в Telegram

Китайские истории: AI в Поднебесной Разработчики из ведущих университетов и компаний страны поставляют на AI-рынок огромное количество инструментов и решений. Но новости из Китая касаются не только работы, что называется, в полях. Вот, например. ➡️ По результатам опроса исследовательской компании Coleman Parkes Research, AI используют 83% китайских респондентов. Показатель Штатов — 65%, в среднем ~~по больнице~~ по миру — 54%. В итоге у Китая самый высокий уровень внедрения в работу передовых технологий, что делает его безусловным лидером 🤓 Было опрошено 1 600 участников — лиц, принимающих решения в отраслях промышленности. ➡️ Поэтому и неудивительно, что именно отсюда поступают предложения и к остальному миру 🌐 На днях Генеральная ассамблея ООН приняла резолюцию Китая по международному сотрудничеству в сфере AI (в подготовке участвовала и Россия). В ней уделяется внимание помощи развивающимся странам в получении доступа к полезным AI-разработкам. ➡️ Внутри самой страны сектор AI тоже активно регулируют. К 2026 году планируют установить более 50 национальных и промышленных стандартов для AI-технологий. В Китае ими занимаются более 4 500 компаний, а финансовый объём отрасли в прошлом году вырос на 13,9% 🔝 Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Показать все...

🔥 5👏 1

00:15
Видео недоступноПоказать в Telegram
00:28
Видео недоступноПоказать в Telegram
00:07
Видео недоступноПоказать в Telegram
00:28
Видео недоступноПоказать в Telegram
00:09
Видео недоступноПоказать в Telegram

Какая нейронка лучше генерит котиков 🥰 Вопрос важный, сами понимаете 😄 Но давайте без шуток. Сравнивая результаты работы нейросетей, появившихся с разницей в каких-то полгода, можно осознать темпы, с которым развиваются AI-технологии. Помните, как мы ахали, когда появилась Sora? И посмотрите сейчас ролики Kling (3 первых генерации). Ощущения уже другие. Плюс Sora работает не без огрехов 😏 (2 последних ролика). Поэтому я снова попрошу проголосовать. Чьим котам ставим лайк? ❤️ Kling 👍 Sora

Показать все...

кот клинг 2.mp49.78 KB

кот клинг1.mp42.31 MB

кот клинг.MP45.80 KB

3.mp434.64 MB

6.mp42.60 MB

❤ 13👍 7🔥 4😍 2

Фото недоступноПоказать в Telegram

Решаем главную проблему архитектуры трансформеров Исследователи Microsoft предлагают альтернативу. Я уже отмечала, что архитектура трансформеров имеет ряд проблем, в частности, квадратичный рост затрат на вычисления с ростом инпута. А вот новая архитектура Samba гарантирует линейную сложность вычислений на любой длине последовательностей 🔤 Состоит она из следующих элементов: ✖️ Mamba-слои: представляют собой слои на основе SSM, которые нужны, чтобы фиксировать повторяющиеся в последовательностях паттерны ✖️ SWA-слои (sliding window attention layers): позволяют модели хорошо запоминать информацию внутри скользящего окна фиксированной длины (это обеспечивает линейность сложности вычислений) ✖️ MLP-слои: отвечают за нелинейные трансформации и фактические знания модели Гибридная архитектура обеспечила линейную сложность вычислений на моделях до 3.8B параметров и последовательностях до 3,2 трлн тренировочных токенов. Samba была обучена на датасетах SlimPajama и Phi-2 с числом параметров от 421M до 3.8B. Бенчмарки ARC и WinoGrande использовались для оценки общих способностей модели, MMLU и SQuAD — для тестов на понимание языка, GSM8K — для тестов на математику. Архитектура показывает более высокие результаты, чем ведущие модели вроде LLaMA-2* 😎 Преимущество особенно заметно в сложных бенчмарках на код и математику (GSM8K, HumanEval). Более того, модель быстрее обрабатывает промпты в среднем в 3,73 раза и генерирует токены в 3,64 раза 🤾‍♂️ * продукт экстремистской организации, деятельность которой запрещена на территории РФ Изображение Microsoft

Показать все...

👍 6

00:06

Видео недоступноПоказать в Telegram

Снег, облака и задушевные разговоры 🌨❄️ Подборка мощных моделей для генерации, исследований и общения. 1️⃣ GPT-4o, держись! В Китае у тебя появился конкурент. SenseTime обновили свою SenseNova 5.5, в результате модернизации родилась первая в стране мультимодальная модель, взаимодействующая в режиме реального времени ⭐️ Пользователи могут разговаривать с ней, как с человеком: интерактивная модель распознаёт речь, обладает высокой степенью адаптации и может корректировать ответы в зависимости от контекста 💬 2️⃣ Ещё одна китайская разработка бросает вызов GPT-4V. LLM InternLM-XComposer-2.5 обучена на 24 тысячах контекстах image-text, но может расширяться до 96 тысяч. Улучшили скиллы понимания в сверхвысоком разрешении, детального распознавания видео и диалога по нескольким изображениям 🧑‍💻 3️⃣ Новые возможности визуальных моделей предложили разработчики tyFlow. Их инструмент tyDiffusion позволяет генерить картинки и анимацию с использованием ControlNets, LoRA, промптов и других методов прямо в окне просмотра 🏠 AI модели хорошо ориентируется в параметрах генерации (цвет, глубина), так что это, по сути, полноценный рендеринг 3D-сцены. Разработка tyDiffusion реализована на основе Stable Diffusion в 3ds Max. 4️⃣ Всё чаще конкурентоспособными становятся маленькие модели. У Arcee Spark всего 7 млрд параметров, при этом она опережает не только таких же “малышей” (Mixtral-8x7B, LLaMA-3-8B-Instruct*), но и крупные модели (GPT-3.5 и Claude 2.1 на бенчмарке MT-Bench). Модель основана на Qwen2. 5️⃣ Исследователи МГУ создали собственную нейросеть, умеющую отличать облака от снега 🧐 Модель сегментации облачности и снежного покрова делает это по снимкам спутника, что является более эффективным, чем статистические методы. Обучали её также на новом специально созданном датасете с разметкой. Модель в открытом доступе, так что её можно использовать и для других исследований. * продукт экстремистской организации, деятельность которой запрещена на территории РФ Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Показать все...

снег.mp41.03 MB

👍 7

Выберите другой тариф

Ваш текущий тарифный план позволяет посмотреть аналитику только 5 каналов. Чтобы получить больше, выберите другой план.