cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

эйай ньюз

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy

Show more
Advertising posts
47 328
Subscribers
+5424 hours
+6027 days
+1 78730 days
Posting time distributions

Data loading in progress...

Find out who reads your channel

This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.
Views Sources
Publication analysis
PostsViews
Shares
Views dynamics
01
Яндекс впервые проведет Young Con — фестиваль про карьеру в IT и современные технологии 6000 участников Более 10 часов нетворкинга и интерактивных активностей 9 тематических «миров», которые погрузят участников в разные сервисы компании 30 руководителей Яндекса, которые расскажут, как создаются технологии, а также поделятся опытом и советами, как начать карьеру в Яндексе Фестиваль в стиле гик-приключения понравится тем, кто интересуются технологиями и хочет узнать больше про работу и возможности для развития в крупных IT-компаниях. Young Con состоится 27 июня на Live Arena. На фестивале станет известен победитель масштабного студенческого турнира по спортивному программированию «Баттл вузов». Участники команды-победителя разделят между собой призовой фонд в 1 млн рублей. А в конце фестиваля выступят группы The Hatters и Хлеб. #промо
4 87846Loading...
02
Апдейт по слитым веcам: архитектурно это всё таки Stable Audio 2.0 с DiT трансформером, но в качестве текстового энкодера у неё T5, не CLAP, как у финальной модели. Конфиг модели для интересующихся: model_config.json. Может какая-то бета-версия? А Stable Audio 1.0 была основана на Unet, а не на DiT. @ai_newz
7 51830Loading...
03
На 4chan зачем-то слили Stable Audio 1.0 Я скачал, запустил и качество там не очень. И не удивительно: даже вторая версия модели отстаёт от конкурентов, а эта, по ощущениям, отстаёт даже от MusicGen годовой давности. Веса тут (как и со всеми утечками, ни в коем случае не трогайте ckpt, только safetensors) Код Лучше бы слили SD3 @ai_newz
9 46450Loading...
04
Ну че, парни, мы? @ai_newz
12 37876Loading...
05
У /r/LocalLlama новое развлечение В сабреддите начали байтить компании на релиз моделей. Началось всё с Phi-3 - очень скоро после поста на реддите о том что как-то долго не релизят веса вышли обещанные Small и Medium размеры. Но вдобавок к ним шли сюрпризы – Phi-3 Vision и подробнейший гайд, о том как пользоваться моделями семейства на любой кофеварке. Сразу за этим этого вышло развести Mistral на релиз Mistral-7B-0.3 вместе с Mixtral-8x22B-0.3 (base. instruct), после чего на Reddit почувствовали вкус крови и начали последовательно пинговать разные компании и просить релизы. Таким образом у Cohere, авторов Command R, выпросили Aya - многоязычные Instruct версии их моделей. Идут в размерах 8B (base версию, кстати, не релизили) и 35B, хорошо понимает 23 языка - бьёт на многоязычных бенчмарках Gemma и Mistral 7B/Mixtral 8x7B. Ждём Aya 104B, на базе Command R+ . Прямо сейчас сабреддит ещё раз байтит Microsoft, просят веса BitNet 1.58 Bit. Даже если это новый вид маркетинга, релиз новых моделей всё равно радует @ai_newz
13 289181Loading...
06
Yandex Cloud проводит конфу по ML в бизнесе 29 мая. Говорить будут прошаренные ребята из разных индустрий о применении AI в их работе/бизнесе. Если конкретно, то поделятся своими экспериментами, внедрением генеративок и других ML-моделей. В общем, если интересно посмотреть на реальные юзкейсы этих ваших ллм и прочих нейронок, то вам сюда. Все бесплатно, но билеты не бесконечные, так что регистрацию лучше пройти прямо сейчас. #промо
9 80598Loading...
07
Конечно же, первое, что пришло людям в голову, когда они получили в руки GPT-4o, это заставить их говорить друг с другом (даже OpenAI не удержались). Ну такое всегда с голосовыми ассистентами. Вот, пожалуй, мой любимый вариант 😂 Орнул с того, как в конце они, как настоящие кожаные, начали просто ругаться, вообще игнорируя друг друга... What a time to be alive! Ориг @ai_newz
28 1301 116Loading...
08
Мы наблюдаем невероятные гонки на ChatBot Arena в этом году. На графике показано, как менялся коэффициент Эло моделей от разных компаний. Коэффициент Эло - это метод для оценки рейтинга индивидуальных игроков, он изначально был использован в Шахматах, и его же применяют на Чатбот Арене. Интересно, что из традиционных Биг-Техов в топах рейтинга есть только Google и Мета. Никакими Майкрософтами, Эплами и прочими нетфликсами тут не пахнет – хотя каждый из них вытается обучать свои модели. Хоть недавняя преза у Гугла и была скучновата, нельзя отрицать, что они довольно быстро выбились в топ. И сейчас Gemini 1.5 Pro занимает второе место после GPT-4! А это прям классный результат, учитывая как сильно Гугл отставал все это время. Еще в этом месяце появился довольно сильный игрок из Китая - 01.ai со своей Yi-Large-preview (ее в open-source нет). Но об этой модели я напишу позже. @ai_newz
13 789158Loading...
09
Я с очередным гайдом — про Llama3 Вот шикарный гитхаб, на котором можно самому, словно Лего, собрать Llama 3. Причём там всё максимально пошагово и весь необходимый код прилагается, так что реально такое собрать даже если совсем не разбираешься. А если интересна теория, то можно спросить у нового чат GPT или Gemini. За основу берутся веса лламы с официального сайта, ну а потом вся вот эта дребедень: трансформеры, эмбединги, матрицы, токенайзеры — всё ручками. Так что, как известно, лучший способ что-то понять — построить самостоятельно. Ну а вишенка на торте — всё очень мило показывает аниме waifu. Делитесь потом результатами, если кто вдруг возьмётся. Пора бы уже самому новые гайды какие-нибудь написать. Подкиньте идеи для гайдов и ликбезов в комментарии😉 Гайд на гитхабе #туториал #ликбез @ai_newz
14 5751 228Loading...
10
Мистраль новую 7B модель выкатили: Mistral-7B-v0.3 Что нового, по сравнению с v0.2: - Расширеный словарь токенизатора с 32000 to 32768 - Поддержка вызова функий - Apache 2.0 лицензия Base Instruct @ai_newz
15 32997Loading...
11
Небольшой апдейт по истории: Vox получили доступ к договору, который вынуждали подписывать экс-сотрудников, и ряду других внутренних документов OpenAI. В этих документах есть чудесный пункт о возможностях компании обнулить акции любого экс-сотрудника вообще без повода. На всех этих прекрасных документах либо подписи CEO (Альтмана) либо COO и VP of People. Как после такого звучат заявления о том что "руководство ничего не знало" - решайте сами. not consistently candid in his communications with the board звучит всё понятнее и понятнее @ai_newz
16 732120Loading...
12
🚨Новый Калифорнийский законопроект может убить будущее опенсорс моделей Сенат Калифорнии принял законопроект SB-1047, сильно ограничивающий тренинг домашних моделей. Они хотят заставить разработчиков получать разрешение (как на строительство дома) на трейн моделей, плюс фактически сделать опенсорсинг моделей лучше GPT-4 нелегальным. Надеюсь этот бред не сумеет пройти через врата ассамблеи и губернатора. Против законопроекта выступает AI Alliance, в который входят такие компании как Meta, IBM, Intel и AMD, так что шансы есть. Я его прочитал, вот краткое содержание законопроекта: ➖Создаётся специальный отдел по надзору за продвинутым ИИ, который должен сертифицировать модели и которому должны отчитываться разработчики ➖Создаётся публичный кластер, CalCompute для исследования "безопасного деплоймента больших моделей" ➖Устанавливается контроль за моделями натренированным на 1e26 FLOP (чуть больше оценочного компьюта LLaMa 3 405B - по оценке Карпатого там 4e25 FLOP) или аналогичным к ним по мощности (аналогичность устанавливается на непонятных "стандартных бенчмарках") ➖Разработчики модели, попадающей под критерии, должны иметь возможность отключить все инстансы модели по требованию регулятора ➖Разработчики моделей, которые могут попасть под ограничения, должны отчитываться и получать добро от регулятора перед началом трейнинга ➖Разработчики моделей, которые подпадают под ограничения, ответственны не только за опасные действия самих моделей, но и за действия любых их файнтюнов (!) ➖Операторов компьют кластеров мощностью в 10^20 FLOPS или больше обязуют репортить когда кто-то тренирует ллмки и заниматься енфорсментом закона ➖Разработчики моделей, которые могут попасть под ограничение, обязаны ввести меры кибербезопасности которые защищают веса от утечки ➖Возможны исключения, которые может делать регулятор, но для них нужно доказать безопасность модели и её всех возможных файнтюнов Судя по тексту, авторы законопроекта плохо понимают, как работают LLM. В текущем виде он фактически запрещает калифорнийским стартапам и другим небольшим организациям проводить большие трейнинг раны (если лицензию на постройку дома можно получать годами, то что уж говорить о лицензии на трейнинг ран). Опенсорсу тоже будет несладко – из-за расплывчатости определений, потенциально, регулятор может наложить ограничения на любую модель, даже не 1e26 FLOP класса. Из-за этого, а также из-за сложности получения исключения, публиковать новые опенсорс модели может стать просто невозможно. Закону ещё нужно пройти сквозь ассамблею штата (нижнюю палату парламента), так что тут ещё возможны поправки. Подписчики канала из Калифорнии могут высказать мнение о законопроекте своему представителю. Вспоминаю ситуацию с криптографией в 90-х, надеюсь в этот раз отбиться от таких жёстких регуляций тоже выйдет. Хотя, в Европе отбиться пока не вышло. В Европе в прошлом году предложили похожий драконовски закон - European AI Act (я о нем писал в декабре), и вчера его окончательно принял Европарламмент. Он уже вступит в силу в 2025 году. Ох, как щемить будут нашу область 😭. Скоро появятся AI-офшоры, где все втихаря будут тренировать свои большие модели. @ai_newz
15 748396Loading...
13
Data Fest 2024 Приглашаем принять участие в Data Fest 2024, который состоится 25 мая в Москве, в гостях у VK. Событие обещает быть интересным и полезным для всех, кто работает с данными и аналитикой. Место проведения – БЦ «Скайлайт», расположенный по адресу: Ленинградский проспект, 39. Начало мероприятия запланировано на 11:00. В течение всего дня в трех залах будут выступать более 30 спикеров. Вы сможете выбрать интересующую вас секцию: RecSys, DS Career, NLP, Advanced LLM, CV, Speech, ML in Physics, Data Strategy или Open Source. Участие в конференции возможно в офлайн- и онлайн-формате. Для регистрации необходимо зарегистрироваться по ссылке: https://ods.ai/events/fest2024-vk #промо
12 27272Loading...
14
У Юргена вышла интересная статейка про ускорение диффузии с помощью кеширования результатов Cross-Attention слоев, где он процитировал нашу статью Cache Me if You Can. Теперь официально - меня процитировал сам мегачад Шмидхубер 💪 @ai_newz
15 01698Loading...
15
Что-то на OpenAI в последнее время посыпалась череда скандалов Введу вас в курс дела: ↪️Нашёлся (и сразу покинул компанию) Илья Суцкевер, с ним ушёл Ян Лейке, из-за этого тиму супералайнмента, которую возглавляли эти двое, расформировали. Ситуация предсказуемая, ведь именно Илья возглавлял прошлогодний переворот в OpenAI. Похоже на новый раскол а-ля Antropic, интересно сколько сотрудников уйдёт за ними. ↪️Вскрылась история с NDA, которые давали подписать сотрудникам OpenAI на выходе, а вместе с ними пожизненный запрет критиковать OpenAI. У неподписавших отбирали пакет акций заработанный за время работы, обычно речь шла о миллионах долларов. После публикации статьи Сэм пошёл в твиттер рассказывать что "не знал" об этой ситуации и пообещал всё исправить. Звучит сомнительно, но я, лично, не знаю какой вариант тут лучше: что он врёт или что он действительно не знал. ↪️ Вчера между Скарлетт Йоханссон и OpenAI разгорается конфликт: её пытались два раза нанять как голос ChatGPT, она оба раза отказала. После чего она услышала голос Sky, который звучал подозрительно похоже на её (путали как и обычные пользователи, так и близкие Йоханссон). Произошедшее "шокировало и разозлило" актрису, которая начала требовать объяснений у компании и параллельно готовить иск. Sky, после таких мувов, вчера всё таки убрали из ChatGPT "из уважения к ней", при этом сказав, что не хотели делать голос настолько похожим. Но от иска их это, видимо, уже не спасёт. Добавляет огоньку в ситуацию то, что Сэм активно проводил параллели между GPT-4o и фильмом Her, где у Йоханссон роль ИИ, в которую влюбляется протагонист. В прошлом Йоханссон успешно засудила Disney, так что у OpenAI есть неплохие шансы проиграть. ↪️Да, ещё к этому всему Сэм Альтман на днях начал ругать эстетику Google I/O, приправив это комментарием о том "как ему всё равно на конкурентов" (наверное из-за этого последние полтора года они ставили свой анонс перед каждым крупным анонсом гугла). Просто удивительные истории 👀 Что вы думаете, господа, про это? @ai_newz
48 689405Loading...
16
Наткнулся на часовой гайд по созданию RAG архитектуры на открытых LLM-ках. Все супер подробно. Можно брать и повторять каждый его шаг. Видео сделано специально для новичков максимально подробным, так что если вы когда-либо хотели скормить всю свою или личную (или вдруг корпоративную) базу, то вот самое время. RAG или Retrieval-Augmented Generation — это способ рассказать нейронке о ваших данных. Причем они могут быть не слишком хорошо отсортированы, так как часть, названная Retrieval, по сути, поисковик. Так можно без дополнительного дорогого тюнинга дополнить базу знаний LLM своими файлами, что позволяет использовать такую ллм в роли например консультанта продавца или техподдержки. Сам видос тут. Если интересно еще узнать про RAG, то можно ещё послушать интервью с моей знакомой, инженером из Cohere, которая пилит RAG для моделей Command-R+ – я писал об этом пост. И вот ещё в придачу пост на хабре про RAG. #ликбез @ai_newz
19 6941 931Loading...
17
Блокчейн TON ищет талантливых разработчиков! Стартует масштабный хакатон “The Open League Hackathon” с призовым пулом $2,000,000 от команды блокчейна TON. В поддержку хакатона все Web3-энтузиасты приглашаются на трёхдневные оффлайн встречи для нетворкинга в 13 городах мира: 📍Прага, Берлин, Киев, Варшава, Тбилиси, Белград, Сеул, Тайбэй (Тайвань), Гуруграм (Индия), Гонг-Конг, Минск, Москва и Санкт-Петербург. Первые встречи начнутся уже 24 мая. Ищи свой город и регистрируйся здесь 👈 тык Что вас ждет: — 3 дня нетворка, лекций, конкурсов и работы над собственными проектами с поддержкой представителей TON Foundation и команд экосистемы TON — Призовые $5.000 для трех лучших проектов в каждом городе + много мерча и других бонусов Не упусти возможность представить свое приложение 900 миллионам активных пользователей Telegram вместе с TON. Регистрируйся — https://society.ton.org/activities/open-league #промо
13 305185Loading...
18
Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов. Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час. Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической. Неплохо было бы иметь такую фичу в API GPT-4o и Claude. @ai_newz
15 294177Loading...
19
Нейродайджест за неделю (#18) 1. Презентации и релизы - OpenAI показали GPT-4o (omni). Новая модель GPT-4o понимает звук, видео, может петь и теперь с приложением для MacOS. Новый токенизатор снижает расходы на 3.5 раза для русского языка. - Прикольный юзкейс GPT-4o. GPT-4o можно использовать как переводчик в поездках по Азии, значительно превосходя Google Translate тут не соперник. - Google I/O. Моё мнение о презентации. Скукота, но гулг все-равно на коне. - Саммари Google I/O. Ссылки на все новинки, представленные на Google I/O, включая Gemini 1.5 Pro, Imagen 3 и новые аппаратные разработки. - Смешные токены в новом токенизаторе GPT-4o. Туда попали спам и что еще похуже, в дайджест писать не буду) 2. Гайды - Курс по квантизации. Эндрю Ын и Hugging Face дропнули курс по квантизации. Учимся сжимать модели до 2 бит без значительных потерь в качестве. - Как запустить LLM на ноутбуке. Пошаговый гайд по запуску LLAMA 3 8B на стареньком ноуте. 3. Разработки - ThunderKittens - GPUs Go Brrr. Стенфорд представил фреймворк упрощающий взаимодействие с тензорными ядрами. Тестили на FlashAttention и случайно обогнали его вторую версию. - CAT3D: Create Anything in 3D. Моделька для генерации 3D сцен из фотографий. Процесс на Latent Diffusion занимает около минуты. Здесь же о том, как оно работает. > Читать дайджест #17 #дайджест @ai_newz
17 259210Loading...
20
ох чего не сделаешь ради nsfw или Как запустить ЛЛМ на ноутбуке. Не знаю почему, но как-то по ощущениям ЛЛМ-ки народ меньше запускает локально, как, например, тот же стэйбл диффьюжн. Хотя я за локальные ллм очень топлю – не люблю свои данные в Клауд опенаи отправлять. То ли проблема в том, что нормальных открытых моделей до недавнего не было, то ли в том, что модельки эти просят 40 GB VRAM. Но ведь у нас теперь есть LLAMA 3 8B! Мне удалось запустить квантизированную версию на ноуте с GTX 1650 Ti c 4 GB VRAM без особой нагрузки. (Оно и неудивительно, ведь Ламу и на мобиле уже запускают.) Короче, вот вам гайд, как за пару тыков поставить эту кударявую лошадку себе на домашний компьютер: 1) Заходим на сайт LM Studio , качаем под свою систему сетап. 2) В поиске находим QuantFactory/Meta-Llama-3-8B-Instruct-GGUF, берем версию под себя. Там несколько квантизаций с разным уровнем сжатия. Ну или выбираем любую другую модель. 3) Заходим в окно чата, подгружаем модель и радуемся. После того как освоились с этим, можно и поизвращаться) Вот вам еще моя копипаста - небольшая подборка постов, про локальнные LLM: - LLaMa с text-retrieval плагином: тык-1, тык-2 - LLama-7B на на макбуке: тык - LLaMa-30B на макбуке (4-bit + mmap): тык - llama2.c или Карпатый запускает LLaMa-2-7B на рисоварке: тык; а вот реализация на часах: тык - Falcon 180B дома на маке M2 Ultra: тык LM Studio #туториал @ai_newz
20 0781 322Loading...
21
CAT3D: Как это работает? 1. Имея любое количество исходных изображений и набор целевых новых ракурсов, диффузия генерирует согласованные новые виды сцены. 2. Эти сгенерированные виды затем используются в качестве входных данных для тренирвоки NeRF. 3. В результате получается 3D-представление, которое можно рендерить с любого ракурса в реальном времени. В качестве диффузии, тут взяли Latent Diffusion и сперва натренили ее генерить 2d картинки в 512x512 по тексту. Все внутри Гугла, они не использовали публичные Stable Diffusion. А затем дотюнили модель на генерацию сразу серии консистентных видов по нескольких входным фото. Консистентность здесь - это ключ к хорошему результату. Весь процесс, включая генерацию новых видов и 3D-реконструкцию, занимает всего около минуты. Это значительно быстрее существующих методов создания 3D по одному изображению или небольшому набору ракурсов. @ai_newz
19 588190Loading...
22
CAT3D: Create Anything in 3D with Multi-View Diffusion Models Ухх! Кажется, диффузия все-таки доехала до полноценного 3D. Джон Барон из Гугла, монстр Нерфов (писал о нем тут), постарался. На вход одна или несколько фоток -> на выходе 3D сцена в виде NeRF. Заметьте, как хорошо он генерит объекты даже сзади, где не было фоток на входе. Кода нет, и не думаю, что будет. Сайт проекта Статья @ai_newz
19 603357Loading...
23
ThunderKittens - GPUs Go Brrr Парни из Стенфорда сделали фреймворк, упрощающий взаимодействие с тензорными ядрами. И показали его мощь на FlashAttention в сотне строк, который работает быстрее оригинального FlashAttention 2! Почему так быстро?🥵 ➖ Для ThunderKittens придумали новые абстракции поверх тензорных ядер, что дало удобный доступ к ~95% мощности H100 ➖ На полную задействуется новый ускоритель доступа к памяти (TMA) ➖ Подобрав незадокументированные лейауты памяти вышло задействовать новые асинхронные инструкции для работы с тензорными ядрами ➖ FlashAttention-1 оптимизировал доступ к HBM. FlashAttention-2 – использование тензорных ядер на A100. А тут пошли ещё дальше: начали оптимизировать доступ к разделяемой памяти (shared memory) ➖ Всё это полили соусом из мелких улучшений FlashAttention – всего лишь первая демка фреймворка, и другие кернелы на нём уже активно пишутся. А тем временем этот проект благословил Tri Dao – мега крутой мужик, автор FlashAttention. Если хотите, чтобы я рассказал как работает FlashAttention - ставьте 🦄 Блогпост Гитхаб @ai_newz
17 974150Loading...
24
Для всех, кто пропустил. Я собрал для вас саммари всего самого интересного, что было на Google I/O вчера, со ссылками на посты: 1️⃣Gemini 1.5 Pro https://t.me/ai_newz/2698 2️⃣Gemini 1.5 Flash https://t.me/ai_newz/2699 3️⃣Imagen 3 новая text2image модель https://t.me/ai_newz/2700 4️⃣Модель для генерации видо - Veo https://t.me/ai_newz/2703 5️⃣Gems - кастомные версии Gemini https://t.me/ai_newz/2707 6️⃣Gemini Nano - мультимодальная легковесная LLM для Android https://blog.google/products/android/google-ai-android-update-io-2024/ 7️⃣ Gemini Nano встраивают в Chrome - будет бегать прямо на клиенте https://t.me/ai_newz/2711 8️⃣Опенсорс Gemma 2 и PaliGemma (Vision-Language Model) https://t.me/ai_newz/2708 9️⃣Новое железо: Trillium TPU + Arm-based Axion CPU https://t.me/ai_newz/2702 1️⃣0️⃣Music AI Sandbox - music2music модель и тулза для музыкантов https://t.me/ai_newz/2709 И в заключение – мое мнение обо всей этой движухе (осторожно, пост-ирония). Пишите в комментах, если я что-то забыл. @ai_newz
19 308154Loading...
25
Gemini Nano встроят в следующую версию Chrome Кроме того, что зарелизили мультимодальную супер-легковесную Gemini Nano, предназначенную бегать на Edge девайсах, ее теперь еще и встраивают в Chrome! Запускаться будет прямо на девайсе (!), что даст очень хороший автокомплит всюду в браузере. Но главное - разработчикам сайтов дадут доступ к модельке, в том числе через специальные упрощенные API (пока обещают перевод, суммирование текста, транскрибирование аудио). Сайтам теперь не нужно будет платить за дорогие облачные LLM, всё будет на клиенте. Для этих целей и Кажется, это может стать киллер-фичей для Хрома. Работать это всё пока будет через WebGPU, но вроде обещают в будущем запускать модельку на NPU. Как и всё на Google I/O, эта фича ещё в превью. Но релиз будет уже в Chrome 126, который выходит 5 июня. Теперь Хром ещё больше полюбит оперативку Блогпост Податься на превью можно тут @ai_newz
18 776184Loading...
26
Провел гугл свою презентацию Google I/O Смотреть стало скучно спустя 0 секунд, начиная с речи ни о чем от Сундара Пичалька. Фото из зрительского зала прикрепляю. Показали свою новую Сору, а еще поржали сами над собой, посчитав, что сказали "AI" 121 раз. Ну это кроме Gemini 1.5 Pro, которую открыли для пользователей Advanced. Почти все презентованное будет доступно... когда-то... В целом, это был рассказ о том, как Google видит свое будущее в AI или AI будущее в себе. Gemini запихнули ну куда только можно, о чем директор каждого отдела с большой гордостью отчитался. Такое ощущение, что у них там устроили конкурс, кто больше придумает юзкейсов и интеграций в интерфейсы своих приложух. Ну а в итоге, все говорили об одном и том же. Акции GOOGL немножко приподнялись в моменте, думаю в этом и была цель — закинуть удочку на будущее для инвесторов. При всем при этом вот что я думаю: Gemini со всеми этими приколюхами может стать go-to нейронкой для обывателей, так как он торчит из всех щелей, бесплатный и бесшовно встраивается в существующие привычки пользователей. Я говорю о том, что в Chrome ты так и так зайдешь, а вот сайт OpenAI не каждый обыватель специально откроет. @ai_newz
19 08075Loading...
27
Тут, кажется, все пропустили Music Ai Sandbox. Первая music2music моделька! Это уже полноценный инструмент со своим интерфейсом, который дорабатывает готовые сэмплы, а еще делает style transfer и вариации. Короче, диванным-продюсерам наконец-то есть с чем поэкспериментировать. Хотя, если честно, я действительно вижу, как настоящие музыканты могли бы ее использовать в своем workflow (см пример на видео, как hip-hop исполнители ее используют для создания сэмплов). Гугл об этом инструменте писал еще в Ноябре 2023 года (модель Lyria). Его только переименовали в Music Ai Sandbox теперь, и, наверное, доработали. Но сейчас, как и тогда, инструмент доступен только узкому кругу музыкантов. 😢 Еще примеры работы тут. @ai_newz
19 254294Loading...
28
Gemma 2 релизнут уже в следующем месяце К существующим 2B и 7B (на самом деле 8B) добавится ещё 27B моделька. Ещё релизят PaliGemma, 3B визуальную LLM, веса тут. @ai_newz
16 57171Loading...
29
Gems - аналог GPTs для Gemini. Как всегда не релизят сразу, будет доступно через несколько месяцев. @ai_newz
15 56748Loading...
30
А вот примеры генерации с помощью Veo. Говорят, что могут сгенерит до 60 секунд в 1080p. Но почему-то все приметы в твиттере, кроме одного, по 8 сек. @ai_newz
18 723117Loading...
31
Новые TPU v6 Trillium, в 4.7 раз быстрее текущего поколения, будут доступны клиентам в конце 2024 года @ai_newz
14 73248Loading...
32
Veo - конкурент Sora от Google Понимает промпты в виде текста, видео и картинок, генерит в 1080p. @ai_newz
14 799129Loading...
33
Imagen 3 - новая моделька для генерации изображений. Лучше понимает длинные промпты и рендерит текст. @ai_newz
14 22662Loading...
34
На сцену выпустили Демиса Хассабиса, главу Google DeepMind Он показал Gemini 1.5 Flash оптимизированную для низкой задержки. Версия с 1 миллионом контекста доступна всем, для 2 миллионов нужно просить доступ. @ai_newz
14 15946Loading...
35
Улучшенная Gemini 1.5 Pro теперь доступна в Gemini Advanced и для разработчиков. В приватном превью будет доступна версия с контекстом в два ляма токенов. @ai_newz
14 66469Loading...
36
Google в 2018: Фантастическая технология Duplex, бронирует за тебя встречи, общается как реальный человек Google спустя 6 лет:
14 68169Loading...
00:30
Video unavailableShow in Telegram
Яндекс впервые проведет Young Con — фестиваль про карьеру в IT и современные технологии 6000 участников Более 10 часов нетворкинга и интерактивных активностей 9 тематических «миров», которые погрузят участников в разные сервисы компании 30 руководителей Яндекса, которые расскажут, как создаются технологии, а также поделятся опытом и советами, как начать карьеру в Яндексе Фестиваль в стиле гик-приключения понравится тем, кто интересуются технологиями и хочет узнать больше про работу и возможности для развития в крупных IT-компаниях. Young Con состоится 27 июня на Live Arena. На фестивале станет известен победитель масштабного студенческого турнира по спортивному программированию «Баттл вузов». Участники команды-победителя разделят между собой призовой фонд в 1 млн рублей. А в конце фестиваля выступят группы The Hatters и Хлеб. #промо
Show all...
😁 40 18🦄 10👍 7🫡 7🤯 4
Апдейт по слитым веcам: архитектурно это всё таки Stable Audio 2.0 с DiT трансформером, но в качестве текстового энкодера у неё T5, не CLAP, как у финальной модели. Конфиг модели для интересующихся: model_config.json. Может какая-то бета-версия? А Stable Audio 1.0 была основана на Unet, а не на DiT. @ai_newz
Show all...
model_config.json · vgdasfgadg/hi at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥 19 7👍 4❤‍🔥 2
Photo unavailableShow in Telegram
На 4chan зачем-то слили Stable Audio 1.0 Я скачал, запустил и качество там не очень. И не удивительно: даже вторая версия модели отстаёт от конкурентов, а эта, по ощущениям, отстаёт даже от MusicGen годовой давности. Веса тут (как и со всеми утечками, ни в коем случае не трогайте ckpt, только safetensors) Код Лучше бы слили SD3 @ai_newz
Show all...
44😁 31👍 10🫡 4🔥 2🤯 2
Photo unavailableShow in Telegram
Ну че, парни, мы? @ai_newz
Show all...
117😁 92💯 39🫡 14🔥 9🤯 1
У /r/LocalLlama новое развлечение В сабреддите начали байтить компании на релиз моделей. Началось всё с Phi-3 - очень скоро после поста на реддите о том что как-то долго не релизят веса вышли обещанные Small и Medium размеры. Но вдобавок к ним шли сюрпризы – Phi-3 Vision и подробнейший гайд, о том как пользоваться моделями семейства на любой кофеварке. Сразу за этим этого вышло развести Mistral на релиз Mistral-7B-0.3 вместе с Mixtral-8x22B-0.3 (base. instruct), после чего на Reddit почувствовали вкус крови и начали последовательно пинговать разные компании и просить релизы. Таким образом у Cohere, авторов Command R, выпросили Aya - многоязычные Instruct версии их моделей. Идут в размерах 8B (base версию, кстати, не релизили) и 35B, хорошо понимает 23 языка - бьёт на многоязычных бенчмарках Gemma и Mistral 7B/Mixtral 8x7B. Ждём Aya 104B, на базе Command R+ . Прямо сейчас сабреддит ещё раз байтит Microsoft, просят веса BitNet 1.58 Bit. Даже если это новый вид маркетинга, релиз новых моделей всё равно радует @ai_newz
Show all...
116😁 36🔥 25👍 11❤‍🔥 5
Photo unavailableShow in Telegram
Yandex Cloud проводит конфу по ML в бизнесе 29 мая. Говорить будут прошаренные ребята из разных индустрий о применении AI в их работе/бизнесе. Если конкретно, то поделятся своими экспериментами, внедрением генеративок и других ML-моделей. В общем, если интересно посмотреть на реальные юзкейсы этих ваших ллм и прочих нейронок, то вам сюда. Все бесплатно, но билеты не бесконечные, так что регистрацию лучше пройти прямо сейчас. #промо
Show all...
🦄 22😁 11 7🔥 4👍 1🤯 1
01:35
Video unavailableShow in Telegram
Конечно же, первое, что пришло людям в голову, когда они получили в руки GPT-4o, это заставить их говорить друг с другом (даже OpenAI не удержались). Ну такое всегда с голосовыми ассистентами. Вот, пожалуй, мой любимый вариант 😂 Орнул с того, как в конце они, как настоящие кожаные, начали просто ругаться, вообще игнорируя друг друга... What a time to be alive! Ориг @ai_newz
Show all...
😁 316🔥 29 22🤯 5🦄 3
00:28
Video unavailableShow in Telegram
Мы наблюдаем невероятные гонки на ChatBot Arena в этом году. На графике показано, как менялся коэффициент Эло моделей от разных компаний. Коэффициент Эло - это метод для оценки рейтинга индивидуальных игроков, он изначально был использован в Шахматах, и его же применяют на Чатбот Арене. Интересно, что из традиционных Биг-Техов в топах рейтинга есть только Google и Мета. Никакими Майкрософтами, Эплами и прочими нетфликсами тут не пахнет – хотя каждый из них вытается обучать свои модели. Хоть недавняя преза у Гугла и была скучновата, нельзя отрицать, что они довольно быстро выбились в топ. И сейчас Gemini 1.5 Pro занимает второе место после GPT-4! А это прям классный результат, учитывая как сильно Гугл отставал все это время. Еще в этом месяце появился довольно сильный игрок из Китая - 01.ai со своей Yi-Large-preview (ее в open-source нет). Но об этой модели я напишу позже. @ai_newz
Show all...
❤‍🔥 95🔥 39 16👍 14 2🦄 1
Photo unavailableShow in Telegram
Я с очередным гайдом — про Llama3 Вот шикарный гитхаб, на котором можно самому, словно Лего, собрать Llama 3. Причём там всё максимально пошагово и весь необходимый код прилагается, так что реально такое собрать даже если совсем не разбираешься. А если интересна теория, то можно спросить у нового чат GPT или Gemini. За основу берутся веса лламы с официального сайта, ну а потом вся вот эта дребедень: трансформеры, эмбединги, матрицы, токенайзеры — всё ручками. Так что, как известно, лучший способ что-то понять — построить самостоятельно. Ну а вишенка на торте — всё очень мило показывает аниме waifu. Делитесь потом результатами, если кто вдруг возьмётся. Пора бы уже самому новые гайды какие-нибудь написать. Подкиньте идеи для гайдов и ликбезов в комментарии😉 Гайд на гитхабе #туториал #ликбез @ai_newz
Show all...
🔥 200❤‍🔥 27 14👍 9🙏 4
Photo unavailableShow in Telegram
Мистраль новую 7B модель выкатили: Mistral-7B-v0.3 Что нового, по сравнению с v0.2: - Расширеный словарь токенизатора с 32000 to 32768 - Поддержка вызова функий - Apache 2.0 лицензия Base Instruct @ai_newz
Show all...
❤‍🔥 50👍 18🔥 11 10