cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

эйай ньюз

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy

نمایش بیشتر
پست‌های تبلیغاتی
46 420
مشترکین
+2324 ساعت
+4947 روز
+2 60530 روز
توزیع زمان ارسال

در حال بارگیری داده...

Find out who reads your channel

This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.
Views Sources
تجزیه و تحلیل انتشار
پست هابازدید ها
به اشتراک گذاشته شده
ديناميک بازديد ها
01
А вот мои приколюхи. Не стал париться с автоматиком, но в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает. На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки. @ai_newz
8 992113Loading...
02
Сначала не обратил внимания на эту программулину. Но теперь очевидно, насколько это мощный инструмент. IC Light выкатили обновление, которое позволяет матчить освещение двух картинок. i.e. поместить предмет на фон и сделать так, чтобы свет на этот предмет падал в соответствии с освещением фоновой картинки. Можно долго рассказывать про то, как на протяжении веков фотошоперы мучились и страдали от того, что не могли скомпозить две картинки из-за не совпадающего освещения. Но теперь вот вопрос решился ;) Демо на обнимающем лице (пока без фоновой картинки) GitHub @ai_newz
10 059610Loading...
03
Сначала не обратил внимания на эту программулину. Но теперь очевидно, насколько это мощный инструмент. IC Light выкатили обновление, которое позволяет матчить освещение двух картинок. i.e. поместить предмет на фон и сделать так, чтобы свет на этот предмет падал в соответствии с освещением фоновой картинки. Можно долго рассказывать про то, как на протяжении веков фотошоперы мучились и страдали от того, что не могли скомпозить две картинки из-за не совпадающего освещения. Но теперь вот вопрос решился ;) Демо на обнимающем лице (пока без фоновой картинки) GitHub @ai_newz
10Loading...
04
ElevenLabs тизерит конкурента Suno Пока есть только пара демо-треков, по первым впечатлениям - выносят Suno по качеству. И не удивительно - ElevenLabs лучше всех умеют в клонирование голоса, что, надеюсь, они прикрутят и сюда. Главная проблема тут, как и со всей ИИ музыкой — копирайт. Если не понятно на чём модель тренировали, то при использовании в чём-либо серьёзном есть нехилые шансы нарваться на многомилионный иск, музыкальная индустрия их любит. Решается это лишь полным лицензированием трейнинг сета, что сделали пока что лишь для Stable Audio (которая не умеет генерить вокал). Как вы думаете, когда увидим первые судебные иски? @ai_newz
12 957268Loading...
05
Прикольный юзкейс видеомоделек. Оказывается, сгенерированные видео можно использовать для определения физических свойств объекта. Ситуация такая: У нас есть Gaussian Splatting какого-то нетвердого предмета. Мы хотим его потрогать (в VR, например), а для реализма добавить его, скажем так, колыхание. Значит, нужно как-то определить физические свойства этого предмета и включить его в физический движок. Но вот незадача. Неизвестно сплаты чего у нас есть, и как они вели бы себя, будь они физическим объектом т.е. нужна его упругость, масса и пр. В случае классической 3D модельки, физические свойства предмета указываются вручную, а мы хотим все автоматизировать. А парни из PhysDreamer нашли способ определить физические свойства и реалистично анимировать такие облака гауссиан. Внимание... они анимируют по сути скриншот этого нечто (в данном случае цветка) с какого-то из ракурсов в SD Video, а затем, используя данные о том, как двигался этот цветочек в сгенерированном референс видео, определяют упругость материала в каждой его части (стебель, бутон, горшок) в виде градиента упругости (в статье это называют "физическое материальное поле"), см. картинки. Таким образом определяется на сколько должна колыхаться каждая гаусианка. Это позволяет ну очень реалистично анимировать случайное колебание целого объекта под внешним  воздействием. Гауссовские сплаты легко натеренить. Но минус их в том, что как работать с ними не понятно (с нерфами, например, тоже нелегко работать, а тут вообще облака полупрозрачных точек). И вот потихоньку учимся. Мб скоро и 3D-моделирование канет в лету, как и рисование, потому что все можно сгенерить. 🙂 Еще раз. Качающийся цветок на видео — это анимация, а не реальная видеозапись. Пейпер Гитхаб @ai_newz
12 616208Loading...
06
Первая собственная большая модель Microsoft, MAI-1, судя по репорту от The Information, уже тренируется. Хотят достигнуть уровня GPT-4 с 500B MoE моделькой. Это, конечно, не модель на 1.8 трлн параметров, как у сильных мира сего, но тоже сойдёт.😼 В целом понятное желание перестать зависеть от OpenAI, особенно учитывая постоянный цирк с конями, который OpenAI устраивают: вот например, пока майки продают доступ к GPT на Azure, OpenAI напрямую работают с их конкурентами – Salesforces, в то время как бесплатно хостятся на Microsoft Azure. Взлетит план или нет, мы узнаем скоро: тренировка закончится в этом месяце. И это спустя всего месяц после того как Microsoft высосал кровь у стартапа Inflection AI и поставил его CEO, Мустафу Сулеймана, рулить Microsoft AI. С тех пор Мустафа, похоже, так хаслил, что даже перестал продвигать свою книжку. Зато начал косплеить Джобса. В принципе шансы догнать гэпэтэ у них есть. У Microsoft на порядок больше ресурсов чем у Inflection, плюс в тренировке кроме датасетов Inflection используются синтетические датасеты Microsoft, вроде того что использовали для Phi-3. Делайте ваши ставки, господа @ai_newz
13 55159Loading...
07
Deepseek V2: топ за свои деньги Что-то в опенсорс в последнее время попадает прям поток MoE моделей, вот и DeepSeek V2 из них. 236B параметров, из которых 21B - активных. По качеству - между Mixtral 8x22B и LLaMa 3 70B, но при этом в 2-4 раза дешевле этих моделей у самых дешёвых провайдеров, всего лишь 14 центов за млн токенов инпута и 28 за млн токенов на выход. Лицензия модели MIT, так что до конца недели будет штук пять разных провайдеров дешевле этого. Главная особенность - Multi-Head Latent Attention (MLA). От обычного Multi-Head Attention (MHA) он отличается механизмом сжатия KV Cache, где он хранится как низкоранговая матрица, откуда и куда проецируется когда его нужно использовать или обновить. Из экспериментов, по качеству это работает лучше MHA, при этом используя в 4 раза памяти чем обычные Grouped Query Attention конфиги. Из нюансов - авторам пришлось изобрести новый вариант RoPE чтобы это всё заработало, так как обычный RoPE такого количества линейных проекций туда и назад переживать решительно отказывается. Если честно, я не совсем понимаю почему это работает и почему нету абляций для dense моделей, но интересно как это будет сочетаться с квантизацией KV кэша. Размер контекста - 128k. Тренировали это всё на 8 триллионах токенов в течении 1.5 миллиона часов на H800 (китайская версия H100). Это уровень компьюта тренировки LLaMa 3 8B и примерно в 3 раза больше чем у Snowflake Arctic. У модели 162 эксперта, из которых 2 перманентно активные, а из остальных 160-ти на каждый токен выбирается 6. Хочу отметить что эксперты там крайне маленькие – у каждого размерность всего 1536. Соотношение цены и качества прекрасное, если все подтвердится на ChatBot Arena. Из минусов — размер. В BF16 для локального инференса нужно 8x A100 с 80GB VRAM. Вся надежда на квантизацию. Демка Пейпер Базовая модель Чат версия @ai_newz
15 254136Loading...
08
Заностальгировал на секунду. 🎮 Шок от осознания того, как сильно поменялись технологии за 25-30 лет. Теперь уже даже кажется, что магнитные кассеты — это инопланетная технология забытой цивилизации. @ai_newz
15 057209Loading...
09
Наконец-то дата аналитики проанализировали дату для дата аналитики. Artificial Analysis собрали топ 100 LLM в одной таблице, чтобы можно было удобно выбрать свою ту самую💍 под свои задачи. Выбираем по параметрам: - Бенчмарки: Chatbot Arena, MMLU, HumanEval, Index of evals, MT-Bench. - Стоимость: вход, выход, средняя - Скорость в токенах/сек: median, P5, P25, P75, P95 (кто понял, тот понял). - Задержка: median, P5, P25, P75, P95. - Размер контекстного окна. - Совместимость с библиотекой OpenAI. Топ-1 из каждой категории: - Бенчмарки: Claude 3 Opus, GPT-4 Turbo - Стоимость: $0.06/1M токенов Llama 3 (8B) через API groq - Скорость: 912.9 токенов/сек Llama 3 (8B) через API groq - Задержка: 0.13s Mistral 7B через API baseten - Размер контекстного окна: 1m Gemini 1.5 Pro Сделали красиво. Табличка на HF Есть еще всякие графики @ai_newz
22 062610Loading...
10
🔥 Это база с 1900 вопросами с собеседований по машинному обучению, анализу данных, ai, sql. Фишка в том, что вопросы  разбирают эксперты, которые сами проводят собесы и дают примеры правильных ответов. Вы легко получите оффер, изучив  популярные вопросы 💼
17 412829Loading...
11
Нейродайджест за неделю (#16) 1. Интересно знать — Провел сходку в долине. Спасибо вам, подписчики, что вы такие крутые:)    — Борьба за хайп: большие и маленькие команды в ML. Размышления о месте малых групп в большом мире AI.    — Ускоряем GPT-2 с llm.c. Треним ллм на рисоварке еще быстрее в новом релизе от Карпатого 2. LLM    — Snowflake Arctic: Непрофильная компания создала LLM. Огромный объём, странная архитектура и предсказуемо средние результаты.    — Новый бенчмарк Arena Hard v0.1 для LLM. Поиск альтернатив человеческим оценкам.    — Автоматизация ChatBot Arena: Kaggle конкурс на создание RLHF модели, которая могла бы предсказать выбор человека. 3. Посмотреть глазами — Прикольная визуализация изменений в рейтинге ChatBot Arena за год.    — Первый клип от Sora. Реальные возможности и ограничения детища Open AI.    — Самые чёткие Гауссовские сплаты, да в движении и в риалтайме. > Читать дайджест #15 #дайджест @ai_newz
15 64950Loading...
12
Вы только взгляните на эту красоту 🥹 Infinite Realities не только создают самые чёткие гаусианы (Gaussian Splats), но заставляют всё это в двигаться, да в реальном времени, да в 30 FPS. Конечно, снять такое выйдет в копеечку, ведь использовалось 176 камер. Но для Голливуда — это не страшно. Только подумайте, какие будут спецэффекты! Интересно, что теоретически такую штуку можно сделать и самостоятельно. Разработчики пишут (и, возможно, зря), что единственный кусок кода/пайплайна, которого нет в опенсорсе — это тот, что отвечает за компрессию и вывод картинки в реалтайме. Так что, если вы случайно ограбили фотомагазин, ничего не мешает попробовать повторить что-то подобное самостоятельно 😄👍 Подписчики, давайте на следующей сходке возьмём 100500 телефонов и заснимем такой приколдес! @ai_newz
15 189162Loading...
13
😗llm.c теперь быстрее PyTorch - запускаем GPT-2 на рисоварке экстра быстро! Андрей Карпатый и комьюнити показывают чудеса продуктивности - за 3 недели проект из игрушки (https://t.me/ai_newz/2557) превратился в настоящего зверя: добавили поддержку CUDA, FlashAttention, тренировку на нескольких видеокартах и кучу оптимизаций. Результат - llm.c тренирует GPT-2 на 46% быстрее чем текущий релиз PyTorch. Это возможно подстегнуло разрабов торча оптимизировать фреймворк и значительно сократить отставание - Nightly билды всего на 7% медленнее llm.c. С большим функционалом код стал комплекснее, теперь там 3 тысячи строк кода и компилируется он заметно дольше изначальной секунды. Не смотря на головокружительный прогресс нужно ещё много чего сделать: * сейчас использование нескольких видеокарт лишь ускоряет тренировку, но размер модели всё ещё ограничен памятью одной видяхи * подготовить кодбазу к полноценному воспроизведению GPT-2 (модели всех размеров на нормальном датасете) * добавить поддержку моделей кроме GPT-2. * ещё больше оптимизаций Всё это на самом деле сложные задачи, но после наблюдения за темпами разработки у меня возникло впечатление что всё это мы увидим ещё в этом месяце. https://github.com/karpathy/llm.c @ai_newz
18 470230Loading...
14
Короче, тут недавно вышел первый клип, созданный Sora, а потом интервью с Полом Трилло, который все это генерил. Он слил интересную инфу. Похоже, не просто так все видосы, которые нам показали, сделаны в ретро/lo-fi стиле. Пол пишет, что из коробки Sora выдает картинку, будто из самых дешевых видеостоков или вообще выдаёт всратую 3D-анимацию: Initially I kind of found that it had an almost like video game aesthetic. This 1990s kind of 3D animation slash stock video look. Судя по всему, Sora страдает похожими проблемами, что и Pika с Runway т.е. низкой динамикой в кадре и/или крашем картинки в какую-то кашу. Но с правильным промптом (и достаточным количеством рероллов) с этим хотябы можно бороться. Кстати о количестве и времени генераций. Челик нагенерил 700 клипов и взял из них ~55 (что даёт понять, сколько нужно крутить сору). При этом в клипе все равно попадаются странные галлюцинации. Я боюсь представить, сколько же видосов нагенерили для фильма air head. Сейчас тестировщикам разрешают выбирать разрешение и длину клипа, но это вряд ли останется в релизе. Ожидание может занять от 15 минут до часа! Даже у опытного кинодела процесс занял 6 недель, так что за один вечер такую штуку не склепаешь. А еще оказалось, что Сора не может в диалоги. Не знаю, как вам, но мне от таких новостей даже полегчало. Теперь ясно, что Sora реально существует, и она всё-таки не решила видео генерацию! И никакими world-моделями там не пахнет тоже. 😵 Опять видим, что черипики (cherry-picks) во время релиза — это зачастую не равно реальным результатам. Sora — реальный инструмент, возможно лучший из того что есть в паблике (вот китайская копия для сравнения), но со своими косяками, над которыми нам, ресерчерам, ещё предстоит работать. Vimeo YouTube Интервью @ai_newz
16 367292Loading...
15
Авторы ChatBot Arena, хотят её (частично) автоматизовать Кажется на бенчмарке Arena Hard v0.1 останавливаться не собираются, и поэтому авторы ChatBot Arena проводят Kaggle конкурс на reward модель для RLHF. Нужно обучить модель, которая будет предсказывать, какой ответ LLM будет предпочтен человеком. Такую модель можно будет использовать и для улучшения качества ответов существующих моделей и для оценки ответов моделей как альтернатива человеческим голосам. Автоматизация для обучения LLM сейчас есть лишь частичная потому что человеческие аннотации всё ещё нужны: (а) для генерации синтетических данных (б) для оценки их качества (в) на последних стадиях тюна синтетику используют поменьше. Участникам даётся датасет на 55к примеров. Каждый пример состоит из: запроса, ответа двух нейронок и предпочтения человека. Победителя будут определять на тестовом сете в 25к примеров. На конкурс выделили призовой фонд в $100k, который распределяют вот так: 🥇$25,000 за первое место 🥈$20,000 за 2-4 места 🥉$15,000 за 5 место Соревнования на Kaggle это очень хорошее место для развития и во многом повлияли на мою карьеру (я в своё время был топ-45 на платформе). Так что если хочешь участвовать - в комментах можно организоваться и найти себе команду @ai_newz
17 373105Loading...
16
​Раз уж в последнее время много говорим про ChatBot Arena, то грех было бы не упомянуть про новый бенчмарк от тех же авторов – Arena Hard v0.1. Суть в том, что хочется найти способ оценивать качество моделей без участия людей, вот и придумали новый бенчмарк, который аппроксимирует человеческую оценку – конечно не без предвзятости, т.к. используют GPT-4 для оценки моделей, но зато быстро! Я собирался написать более детальный разбор, но увидел, что это сделал Игорь @seeallochnaya. Можно начинать читать отсюда https://t.me/seeallochnaya/1345 и идти вниз по постам-картинкам. И вообще, у Игоря на канале качественные посты про LLM, от их влияния на бизнес и до разбора передовых исследовательских статей. Пользуясь случаем, рекомендую вам подписаться — в прошлый раз советовал лекцию с рамках DataFest 2023, а уже совсем скоро, в конце мая, будет DataFest 2024. Игорь организует там целую секцию, и выступит с открывающим докладом - так что не пропустите! @ai_newz
17 02532Loading...
17
Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее. И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом. В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет! C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад: - Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных. - Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени. - Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований. - Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное. - Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных. Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям. Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей. @ai_newz
16 170245Loading...
18
Привет, друзья! Я наконец вернулся из Кремниевой долины, и хочу поделиться своими впечатлениями. В прошлую пятницу вечером я организовал небольшую тусовку с подписчиками, которая прошла просто на ура! В моем канале действительно высока концентрация очень приятных и открытых людей, и на каждой новой встрече во время моих поездок в другую страну я обязательно знакомлюсь с новыми крутыми ребятам! Вот вам пример: я не знал, где и как устроить эту встречу, а тут в комментариях один из читателей предложил затусить у него. В итоге, Мы собрались недалеко от Сан-Франциско, в уютном доме с классным пространством для тусовок на заднем дворе (Игорь, респект!). Я немного опоздал из-за пробок - ну что поделаешь, час на машине из Пало-Альто. Собралась очень крутая компания, около 20 человек. Мы жарили мясо на гриле и говорили о насущном - от трендов в AI и стартапов до жизни в Кремниевой долине. Ребята оказались настоящими экспертами в самых разных областях - были и стартаперы, и VC-инвесторы, и инженеры из Bigtech, и PhD-студенты из Беркли. Даже был парень, который занимается развитием инфраструктуры для будущего AI, прокладывая сетевые коммуникации по всей долине, в том числе и по известному мосту Golden Gate в Сан-Франциско. Было очень весело, все травили байки и смешные истории. Такие моменты напоминают, что у меня в канале собралась действительно крутая аудитория - открытые, интересные и увлеченные люди. Короче, ребята, это была одна из лучших встреч, которые я когда-либо организовывал. Спасибо всем, кто пришел, и особенно Игорю и Оле за гостеприимство. Не терпится устроить следующую тусовку в другом интересном месте (ну, либо опять в Калифорнии)! -- А в следующем посте расскажу, как прошли мои рабочие встречи с коллегами и боссами, и как меня это еще сильнее замотивировало. #personal @ai_newz
18 42039Loading...
19
Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k. Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется. Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B. Модель Демка Блогпост Серия постов с деталями тренировки @ai_newz
18 19373Loading...
20
Умельцы из твиттера сделали инфографику о том как топ ChatBot Arena менялся за последний год. Чат-гпт все ещё держится, но ей дышать в затылок. Конкуренция идёт серьезная. Посмотрим, есть ли у ClosedAI ещё козыри в рукаве. @ai_newz
32 110395Loading...
А вот мои приколюхи. Не стал париться с автоматиком, но в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает. На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки. @ai_newz
نمایش همه...
60👍 34😍 9❤‍🔥 6🔥 6
Сначала не обратил внимания на эту программулину. Но теперь очевидно, насколько это мощный инструмент. IC Light выкатили обновление, которое позволяет матчить освещение двух картинок. i.e. поместить предмет на фон и сделать так, чтобы свет на этот предмет падал в соответствии с освещением фоновой картинки. Можно долго рассказывать про то, как на протяжении веков фотошоперы мучились и страдали от того, что не могли скомпозить две картинки из-за не совпадающего освещения. Но теперь вот вопрос решился ;) Демо на обнимающем лице (пока без фоновой картинки) GitHub @ai_newz
نمایش همه...
🔥 153👍 19 11🤯 4🦄 4
Photo unavailableShow in Telegram
Сначала не обратил внимания на эту программулину. Но теперь очевидно, насколько это мощный инструмент. IC Light выкатили обновление, которое позволяет матчить освещение двух картинок. i.e. поместить предмет на фон и сделать так, чтобы свет на этот предмет падал в соответствии с освещением фоновой картинки. Можно долго рассказывать про то, как на протяжении веков фотошоперы мучились и страдали от того, что не могли скомпозить две картинки из-за не совпадающего освещения. Но теперь вот вопрос решился ;) Демо на обнимающем лице (пока без фоновой картинки) GitHub @ai_newz
نمایش همه...
03:00
Video unavailableShow in Telegram
ElevenLabs тизерит конкурента Suno Пока есть только пара демо-треков, по первым впечатлениям - выносят Suno по качеству. И не удивительно - ElevenLabs лучше всех умеют в клонирование голоса, что, надеюсь, они прикрутят и сюда. Главная проблема тут, как и со всей ИИ музыкой — копирайт. Если не понятно на чём модель тренировали, то при использовании в чём-либо серьёзном есть нехилые шансы нарваться на многомилионный иск, музыкальная индустрия их любит. Решается это лишь полным лицензированием трейнинг сета, что сделали пока что лишь для Stable Audio (которая не умеет генерить вокал). Как вы думаете, когда увидим первые судебные иски? @ai_newz
نمایش همه...
75🔥 28👍 15❤‍🔥 6🤯 4
Прикольный юзкейс видеомоделек. Оказывается, сгенерированные видео можно использовать для определения физических свойств объекта. Ситуация такая: У нас есть Gaussian Splatting какого-то нетвердого предмета. Мы хотим его потрогать (в VR, например), а для реализма добавить его, скажем так, колыхание. Значит, нужно как-то определить физические свойства этого предмета и включить его в физический движок. Но вот незадача. Неизвестно сплаты чего у нас есть, и как они вели бы себя, будь они физическим объектом т.е. нужна его упругость, масса и пр. В случае классической 3D модельки, физические свойства предмета указываются вручную, а мы хотим все автоматизировать. А парни из PhysDreamer нашли способ определить физические свойства и реалистично анимировать такие облака гауссиан. Внимание... они анимируют по сути скриншот этого нечто (в данном случае цветка) с какого-то из ракурсов в SD Video, а затем, используя данные о том, как двигался этот цветочек в сгенерированном референс видео, определяют упругость материала в каждой его части (стебель, бутон, горшок) в виде градиента упругости (в статье это называют "физическое материальное поле"), см. картинки. Таким образом определяется на сколько должна колыхаться каждая гаусианка. Это позволяет ну очень реалистично анимировать случайное колебание целого объекта под внешним  воздействием. Гауссовские сплаты легко натеренить. Но минус их в том, что как работать с ними не понятно (с нерфами, например, тоже нелегко работать, а тут вообще облака полупрозрачных точек). И вот потихоньку учимся. Мб скоро и 3D-моделирование канет в лету, как и рисование, потому что все можно сгенерить. 🙂 Еще раз. Качающийся цветок на видео — это анимация, а не реальная видеозапись. Пейпер Гитхаб @ai_newz
نمایش همه...
🔥 138🤯 49👍 18 10
Photo unavailableShow in Telegram
Первая собственная большая модель Microsoft, MAI-1, судя по репорту от The Information, уже тренируется. Хотят достигнуть уровня GPT-4 с 500B MoE моделькой. Это, конечно, не модель на 1.8 трлн параметров, как у сильных мира сего, но тоже сойдёт.😼 В целом понятное желание перестать зависеть от OpenAI, особенно учитывая постоянный цирк с конями, который OpenAI устраивают: вот например, пока майки продают доступ к GPT на Azure, OpenAI напрямую работают с их конкурентами – Salesforces, в то время как бесплатно хостятся на Microsoft Azure. Взлетит план или нет, мы узнаем скоро: тренировка закончится в этом месяце. И это спустя всего месяц после того как Microsoft высосал кровь у стартапа Inflection AI и поставил его CEO, Мустафу Сулеймана, рулить Microsoft AI. С тех пор Мустафа, похоже, так хаслил, что даже перестал продвигать свою книжку. Зато начал косплеить Джобса. В принципе шансы догнать гэпэтэ у них есть. У Microsoft на порядок больше ресурсов чем у Inflection, плюс в тренировке кроме датасетов Inflection используются синтетические датасеты Microsoft, вроде того что использовали для Phi-3. Делайте ваши ставки, господа @ai_newz
نمایش همه...
😁 71👍 50🔥 18 14🦄 4❤‍🔥 1😱 1💯 1
Deepseek V2: топ за свои деньги Что-то в опенсорс в последнее время попадает прям поток MoE моделей, вот и DeepSeek V2 из них. 236B параметров, из которых 21B - активных. По качеству - между Mixtral 8x22B и LLaMa 3 70B, но при этом в 2-4 раза дешевле этих моделей у самых дешёвых провайдеров, всего лишь 14 центов за млн токенов инпута и 28 за млн токенов на выход. Лицензия модели MIT, так что до конца недели будет штук пять разных провайдеров дешевле этого. Главная особенность - Multi-Head Latent Attention (MLA). От обычного Multi-Head Attention (MHA) он отличается механизмом сжатия KV Cache, где он хранится как низкоранговая матрица, откуда и куда проецируется когда его нужно использовать или обновить. Из экспериментов, по качеству это работает лучше MHA, при этом используя в 4 раза памяти чем обычные Grouped Query Attention конфиги. Из нюансов - авторам пришлось изобрести новый вариант RoPE чтобы это всё заработало, так как обычный RoPE такого количества линейных проекций туда и назад переживать решительно отказывается. Если честно, я не совсем понимаю почему это работает и почему нету абляций для dense моделей, но интересно как это будет сочетаться с квантизацией KV кэша. Размер контекста - 128k. Тренировали это всё на 8 триллионах токенов в течении 1.5 миллиона часов на H800 (китайская версия H100). Это уровень компьюта тренировки LLaMa 3 8B и примерно в 3 раза больше чем у Snowflake Arctic. У модели 162 эксперта, из которых 2 перманентно активные, а из остальных 160-ти на каждый токен выбирается 6. Хочу отметить что эксперты там крайне маленькие – у каждого размерность всего 1536. Соотношение цены и качества прекрасное, если все подтвердится на ChatBot Arena. Из минусов — размер. В BF16 для локального инференса нужно 8x A100 с 80GB VRAM. Вся надежда на квантизацию. Демка Пейпер Базовая модель Чат версия @ai_newz
نمایش همه...
👍 50 14🔥 9🤩 3
00:33
Video unavailableShow in Telegram
Заностальгировал на секунду. 🎮 Шок от осознания того, как сильно поменялись технологии за 25-30 лет. Теперь уже даже кажется, что магнитные кассеты — это инопланетная технология забытой цивилизации. @ai_newz
نمایش همه...
140🫡 43😁 17❤‍🔥 16👍 8🦄 4😱 3🔥 2😍 2
Наконец-то дата аналитики проанализировали дату для дата аналитики. Artificial Analysis собрали топ 100 LLM в одной таблице, чтобы можно было удобно выбрать свою ту самую💍 под свои задачи. Выбираем по параметрам: - Бенчмарки: Chatbot Arena, MMLU, HumanEval, Index of evals, MT-Bench. - Стоимость: вход, выход, средняя - Скорость в токенах/сек: median, P5, P25, P75, P95 (кто понял, тот понял). - Задержка: median, P5, P25, P75, P95. - Размер контекстного окна. - Совместимость с библиотекой OpenAI. Топ-1 из каждой категории: - Бенчмарки: Claude 3 Opus, GPT-4 Turbo - Стоимость: $0.06/1M токенов Llama 3 (8B) через API groq - Скорость: 912.9 токенов/сек Llama 3 (8B) через API groq - Задержка: 0.13s Mistral 7B через API baseten - Размер контекстного окна: 1m Gemini 1.5 Pro Сделали красиво. Табличка на HF Есть еще всякие графики @ai_newz
نمایش همه...
🔥 105👍 22 13😍 6🤩 2🦄 1
🔥 Это база с 1900 вопросами с собеседований по машинному обучению, анализу данных, ai, sql. Фишка в том, что вопросы  разбирают эксперты, которые сами проводят собесы и дают примеры правильных ответов. Вы легко получите оффер, изучив  популярные вопросы 💼
نمایش همه...
Machinelearning

Разбираем лучшие open source новинки из мира ml, код, вопросы с собеседований, публикуем открытые курсы и гайды Первоисточник всего, что появляется в платных курсах и остальных ресурсах. По всем вопросам- @haarrp @itchannels_telegram -🔥best channels

🔥 123 19👍 8🤩 8🤯 5💯 1🦄 1