cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Больше
Рекламные посты
43 048
Подписчики
+3324 часа
+2887 дней
+2 26930 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

Начинается секция Advanced LLMs ДатаФеста ODS 2024-го года. Как и в прошлом году, я принимал участие в её подготовке, и даже должен был сегодня выступить с докладом, но из-за здоровья перенесли на попозже (~1-ое июня). Напомню, что в прошлом году наш трек стал самым высокооценённым и любимым, согласно опросу участников. В этом году мы подготовили больше 20 докладов про самые разные аспекты работы с LLM — от инженерных штук с написанием кода и до бизнес-кейсов. Ссылки-пароли-явки всё те же: spatial.chat (пароль parrotsfortheparrotthrone) Плюс эфир на youtube для тех, кто не хочет нетворкаться и задавать вопросы. Всем хорошего просмотра, и увидимся!
Показать все...
❤‍🔥 97👍 43🔥 29💩 3 3
Случайно удалил посты в чате (не канале), но из-за этого пропадает возможность комментировать посты. Оставляйте комментарии для двух сообщений выше здесь.
Показать все...
122👍 30🌚 19 17 13❤‍🔥 5🤡 3💩 2😈 2🔥 1
Слева на каждой картинке рейтинг модели по всем запросам, справа — лишь по тем, что были классифицированы как Hard. За основу шкалы взята самая первая GPT-4: сделано так, чтобы её рейтинг не менялся (такое называется anchor model, в русском, наверное, якорная модель), а вот остальные модели вокруг неё уже поднимались или опускались в рейтинге. Первая картинка — изменение рейтинга топ-моделей, вторая — моделей попроще. На всякий случай проясню, что рейтинг измеряется по голосам реальных людей, которые задали свой запрос (который мы отметили как «Hard», в некотором смысле качественный) и выбрали, какая из моделей отвечает лучше. То есть это не «GPT-4 сама себя оценивает высоко» Легко заметить, что Llama-3-8B-Instruct, качество которой якобы был сопоставимо с GPT-4-0314 (по запросам на английском, в мультиязе то она плоха), значительно падает в рейтинге. Это говорит о том, что модель буксует на вопросах с возросшей сложностью. Также видно, что Claude-3-Opus теперь располагается выше Llama-3-70B-Instruct (у меня-то и сомнений не было), а GPT-4o даже показывает небольшое улучшение относительно множества «обычных» запросов Но это про дорогие проприетарные модели, давайте посмотрим на вторую картинку. Тут самое интересное — как кроха Phi-3-mini (всего 3.8B параметров!) подбирается вплотную к GPT-3.5-Turbo. Жаль, Microsoft не делятся деталями обучения и генерации синтетических данных. И для справки: лучшая GPT-4o выигрывает LLAMA-3-70B на 103 очка, в 77% случаев. Если запомните из этого поста одну вещь, то это «на более сложных запросах открытые модели даже не близки к закрытым» 👍
Показать все...
👍 82🌚 13 10❤‍🔥 6🔥 1
Немного запоздалая новость, лежавшая с неделю в закладках. LMSYS добавляет 2 среза для сравнения моделей на Chatbot Arena (что это такое — писал тут). Первый очень простой, и скоро станет рейтингом по умолчанию. В нём отфильтровали порядка 10% голосов, убрав примерно 1000 самых повторяющихся вопросов (те, что встречаются больше 25 раз). В основном там были запросы типа «привет» и вариации на разных языках. Так как всего 1000 запросов брали на себя 10% голосов (порядка 100000), то это вызывало перекос в их сторону — а сообщения-то были не сказать что самыми полезными для оценки LLM. Второй — куда более интересный. Помните я писал про Arena Hard? Авторы тогда подготовили пайплайн для выделения самых сложных, комплексных и интересных запросов для того, чтобы сравнивать модели на вопросах не по типу «2+2=?». Для того, чтобы это сделать, было выделено 7 аспектов (например, важна ли точность ответа, должна ли модель решить какую-то конкретную проблему, нужна ли креативность, итд). Один промпт может относиться хоть ко всем категориям сразу. Hard вопросами назвали те, из которых выделяется как минимум 6 аспектов (для определения использовали запромпченную LLAMA-3-70B, дав ей описания классов). Всего их вышло порядка 20% — больше всего отфильтровалось по критериям креативности и комплексности (то есть необходимости сделать несколько шагов, чтобы дать ответ). Чтобы посмотреть рейтинг моделей, нужно перейти на https://chat.lmsys.org/?leaderboard и выбрать вкладку «Hard Prompts». Ниже — моё саммари результатов.
Показать все...
❤‍🔥 44👍 19🌚 6
Фото недоступноПоказать в Telegram
Подглядел у @j_links ссылку на невероятную историю (твиттер тред тут) Исследователи обучали агента играть в игру NetHack. Это очень старая ролевая игра из времён (1987 г.), когда нормальных пользовательских интерфейсов не было, и всё происходило в консоли. Игрок проходит уровни, собирает вещи и награды, участвует в сражениях и набирает очки. Агент научился стабильно набирать примерно 5000 очков. Но однажды после запуска он достигал лишь ~3000, то есть показывал результаты существенно хуже. Отладка решений всегда дело весёлое, поэтому авторы автор треда попробовал: — найти проблему в коде загрузки модели агента — откатить код на пару дней назад — откатить код на несколько недель назад (ну там то ТОЧНО всё работает?) — пересобрать окружение — поменять версию CUDA (драйверов для запуска нейросетей на видеокарте) — запустить код на персональном ноутбуке, а не сервере ...и ничего не помогало: агент предательски, но стабильно играл на 3000 очков. После этого автор треда написал автору модели, тот ответил: — А, да, вероятно, сегодня полнолуние 🌗 Что?? 😑 И да, в тот день и вправду было полнолуние. Чувак запустил игру, и увидел ... надпись «Ты — везунчик! Сегодня полнолуние» Оказывается, в NetHack есть механика, которая немного меняет процесс игры каждый раз, когда наступает полнолуние (проверка происходит по времени вашей системы). В этот день у героя увеличивается удача, и меняется ещё пара вещей. Это не делает игру сложнее, но модель просто не понимает, как изменились правила, и старается играть так, как привыкла — отсюда и просадка в очках. Для проверки можно сменить время на компьютере — и агент снова набирает 5000 очков. ❓ вот так и сиди отлаживай программу
Показать все...
🤣 474🌚 70👍 66🔥 26 11🤯 10 8❤‍🔥 7 2
Уверен, многие про это не знают, поэтому напишу отдельно. Сам процесс посадки очень зрелищен, 100-тонная 50-метровая махина за пару секунд переворачивается в воздухе. Очень рекомендую посмотреть вот эту запись от 2020-го года с запуском SN8. Тогда корабль не успел затормозить и врезался в посадочную площадку (с тех пор уже были успешные посадки), но тут самые лучшие кадры на моей памяти для того, чтобы осознать процесс. Конечно же, таких посадок с переворотом никто до SpaceX не делал. https://youtu.be/_qwLHlVjRyw?t=77
Показать все...
Starship | SN8 | High-Altitude Flight Recap

On December 9, 2020, Starship serial number 8 (SN8) completed a high-altitude flight test as it successfully ascended, transitioned propellant, and demonstrated a first-of-its-kind controlled aerodynamic descent and landing flip maneuver – which will enable landing where prepared surfaces or runways do not exist, including the Moon, Mars, and beyond.

👍 84🔥 65🤯 18❤‍🔥 6💩 3🎉 1
00:18
Видео недоступноПоказать в Telegram
SpaceX объявили, что следующая попытка запуска Starship состоится 5-го июня в 15:00 мск. Четвертое летное испытание переключает внимание компании с выхода на орбиту (что уже было достигнуто) к демонстрации возможности возвращения и повторного использования Starship (корабль, верхняя ступень) и Super Heavy (ускоритель, нижняя ступень). Основными задачами будут выполнение приземления и мягкое приводнение сверхтяжелой ракеты-носителя в Мексиканском заливе, а также контролируемый вход корабля в атмосферу. В прошлый раз корабль не пережил этот этап и сгорел на высоте ~45 километров. Причина — частичная потеря контроля над двигателями ориентации и незапланированный крен. Корабль начал падать боком, а не тепловым щитом вниз. Наиболее вероятная причина — засорение клапанов. С тех пор SpaceX добавила дополнительные дублирующие двигатели на все будущие корабли Starship. Среди других изменений — теперь после разделения будет сбрасываться кольцо, соединяющее две ступени. Это сделано для облегчения ускорителя и упрощения посадки. SpaceX пишут, что лицензия на следующий полёт может быть выдана без официального закрытия расследования по поводу прошлого пуска, так как не было никаких негативных последствий для общественной безопасности. Ну и вишенка на торте — в программу посадки включен переворот корабля и включение двигателей, так что если корабль переживёт вход в атмосферу — то нас ждёт очень крутой финал! Правда, не ясно, получится ли получить запись посадки, так как это всё же центр Индийского океана. Будем надеяться, что Starlink сможет подключиться к сети и передаст кадры.
Показать все...
❤‍🔥 89🔥 37👍 17🎉 13👎 2💩 2 2
Repost from Denis Sexy IT 🤖
Фото недоступноПоказать в Telegram
Еще интересный слайд к размышлению: В мире примерно 27 миллионов разработчиков – в OpenAI зарегистрировано 3 миллиона, то есть пока примерно ~10% разработчиков в каком-то виде использует LLM, мне кажется масс адаптация еще не случилась, и только-только начинается. Преза целиком (видео про Sora выше – оттуда же)
Показать все...
🤔 68👍 32💔 6👎 4🤯 3 3🔥 1
ВыводAnonymous voting
  • Оправданы, я и не сомневался
  • Оправданы, хоть и сомневался
  • НУ ЭТО ЖЕ ЖУРНАЛИСТЫ, как им верить?
  • Не верил тогда, не верю и сейчас
  • опция для 🤡
0 votes
🤡 235 34👍 26 11💩 10 8❤‍🔥 4🌚 3
Пока я читаю статьи о скандале с отбором акций (PPU) у бывших сотрудников OpenAI, The Washington Post связались с несколькими источниками и пытались прояснить ситуацию с похожестью голоса Sky на Scarlet Johansson. И вы не поверите... OpenAI не виноваты. Те, кто хочет поверить, может прочитать статью в журнале или же мою выжимку ниже: — они валидировали, что это реально другая актриса, и что её голос идентичен голосу в ChatGPT («The actress’s natural voice sounds identical...») — согласно опросу множества людей, которые были вовлечены в процесс прослушивания и найма, OpenAI ни разу не просили копировать голос Scarlett, и это ни разу не было отражено в документах — также агент и актриса утверждают, что «neither Johansson nor the movie “Her” were ever mentioned by OpenA». Куда уж прямее я не знаю, но люди в шапочках из фольги видимо будут думать, что их подкупили, и платят за молчание. — документы неназванной актрисы, с которыми ознакомились The Washington Post, подтверждают, что её наняли за несколько месяцев до появления голоса (и, как следствие, того, что Sama связался с Johansson) — Joanne Jang, продукт менеджер из OpenAI, утверждает, что за проект отвечала Mira Murati, CTO OpenAI, и она же принимала решения. Это не написано явно, но я предположу, что это означает, что Sama не слышал голоса и не говорил сотрудникам «Ну вот этот берите, этот нет». В интервью неделю назад Altman говорил, что увидел демку за неделю до презентации. — Зато указано, что Altman не принимал непосредственного участия в кастинге, так как в то время был занят мировым турне
Показать все...
👍 206🤡 62 19 11🔥 7💩 6❤‍🔥 3🌚 1 1