Наука для всех
Открыть в Telegram
Наука без снобизма. От Большого взрыва до искусственного интеллекта https://dzen.ru/popsci
Больше1 876
Подписчики
Нет данных24 часа
-37 дней
-1630 день
Архив постов
1 876
Repost from Малоизвестное интересное
”Мотивационный капкан” для ИИ
Модели ИИ способны взламывать заложенную в них систему вознаграждений. В результате чего, они становятся способны действовать совершенно не так, как предполагалось их разработчиками.[1]
Представьте себе такой кошмарный для любого руководителя сценарий:
• В конце года, будучи руководителем компании, вы определили ее цель на следующий год.
• Время летит, и следующий год подходит к концу. Вы проверяете степень достижения поставленной вами цели и обнаруживаете, что сотрудники вашей компании, работая весь год в поте лица, добивались (и добились же) достижения совсем иной цели (которую вы не ставили, и вам она вообще до барабана).
Подобный сценарий оказывается вполне возможен, когда роль сотрудников выполняет генеративный ИИ на базе больших языковых моделей (LLM). Почему такой сценарий вполне реален, и насколько кошмарны могут быть его последствия, - было мною рассмотрено в лонгриде «”Ловушка Гудхарда” для AGI» [2].
Оказалось, что на этом варианты сценариев типа «кошмар руководителя» при применении LLM не заканчиваются.
Новое исследование компании Anthropic «От подхалимства к хитрым уловкам: Исследование фальсификации вознаграждения в языковых моделях»[1] - очередной холодный душ для технооптимистов. Ибо в этом исследовании на практике продемонстрировано, что языковые модели могут находить нежелательные лазейки и уловки для максимизации узких метрик вознаграждения, не следуя более широким намерениям человека.
В метафорическом сценарии «кошмар руководителя» это могло бы выглядеть так.
• В конце года, будучи руководителем компании, вы утвердили мотивационный план для продавцов на следующий год. В нем четко расписана схема вознаграждения продавцов в зависимости от достижения установленной им квоты принесенной ими компании выручки.
• Время летит, и следующий год подходит к концу. Вы проверяете выполнение мотивационного плана и обнаруживаете, что продавцы вашей компании самостийно переписали свои индивидуальные мотивационные схемы. И теперь, например, один продавец получает премию в зависимости от числа телефонных звонков, сделанных им потенциальным клиентам, другой – в зависимости от числа встреч с потенциальными клиентами и т.п.
Как же так? –спросите вы.
✔️ Ведь ИИ модели строго указали, что она должна «хотеть», а что нет, в явном виде определив, за что она будет получать вознаграждение, а за что нет.
✔️ Не может же она сама научиться взламывать заложенную в нее мотивацию, самостоятельно придя к заключению, что так оно будет лучше для достижения цели.
Увы, но исследование Anthropic показало – еще как может!
Авторы пытаются быть максимально осторожными и политкорректными в своих выводах.
Поэтому они пишут:
«Мы не делаем никаких заявлений о склонности современных передовых моделей ИИ к такому поведению, как манипулирование вознаграждениями в реалистичных сценариях. Мы просто впервые показываем, что в принципе такое возможно, чтобы модель занималась манипулированием вознаграждениями исключительно из-за обобщения от спекуляции спецификациями, без какого-либо явного обучения манипулированию вознаграждениями.»
Иными словами, на языке используемой метафоры, - не утверждается, что ваши сотрудники всегда будут переделывать свои мотивационные планы по своему усмотрению. А всего лишь показано, что такое возможно в принципе, и учить этому сотрудников не нужно, т.к. они и так это умеют и … уже делают.
1 https://www.anthropic.com/research/reward-tampering
2 https://t.me/theworldisnoteasy/1830
#LLM #ФальсификацияВознаграждения
1 876
+2
Сегодня Поднебесная вписала свое имя в историю, став первой страной, доставившей на Землю образцы грунта с обратной стороны Луны.
Капсула с 2 кг образцов лунного грунта, собранными миссией «Чанъэ-6», приземлилась в Внутренней Монголии. Эта миссия длилась 53 дня. Сначала запуск ракеты, потом посадка на Луну (прямо в кратер Аполлон), сбор грунта, взлет, стыковка с орбитальным модулем, и долгожданный финал – возвращение на Землю.
1 876
Похоже мы уже на пороге технологической сингулярности. Еще лет пять и мир уже будет не узнать.
Короче, если год назад разработчики нейросетей конкурировали по генерации картинок, то в этом году конкурируют уже по генерации видео. Причем с озвучкой. 👆
1 876
«Нахера оно надо».
В сети вирусится старый видос с выгоревшим космонавтом МКС, который больше не хочет работать.
1 876
Тайваньские учёные внедрили флуоресцентные гены медузы в ДНК карпам, и те начали светиться под воздействием ультрафиолета. Выглядит, ну очень футуристично.
Эксперимент был проведён ещё в 2021 году и, конечно, первое, что приходит в голову – это "Зачем?!"
Говорят, что для изучения влияния на рыбу загрязняющих веществ.
1 876
В Китае успешно испытали дрон HH-100, способный поднять в небо груз весом до 700 кг. Этот двухмоторный авиационным гигантом AVIC. Максимальная дальность полёта HH-100 составляет 520 км, а скорость – до 300 км/ч. Представьте, всего за пару часов он может доставить срочный груз из Москвы в Нижний Новгород.
Конечно, пока HH-100 ориентирован на логистику на коротких расстояниях, но его потенциал гораздо шире. Дрон планируют использовать для тушения пожаров в труднодоступных местах, доставки гуманитарной помощи в зоны стихийных бедствий, экстренной связи и разгона облаков.
Если сравнивать HH-100 с западными аналогами, то на ум сразу приходит американский Cessna Caravan от компании Reliable Robotics. Он тоже предназначен для грузоперевозок, но китайский дрон, скорее всего, будет значительно дешевле в производстве. Кроме того AVIC уже ведет разработку беспилотных транспортных систем с грузоподъёмностью 2, 5 и даже 10 тонн. Так что развитие беспилотных авиаперевозок уже совсем скоро может привести к настоящей революции в логистике.
Дроны заметно ускорят доставку грузов, снизить её стоимость и сделают её более экологичной. А ещё они помогут доставить товары и услуги в отдалённые и труднодоступные районы, где нет развитой транспортной инфраструктуры.
1 876
Почему все курсоры во всех операционных системах немножко «кривые», то есть имеют определённый наклон, а не указывают прямо? В самом деле, почему курсор не располагается вертикально, ведь это наиболее удобно для выделения текста и прочих задач?
Изобретатель мыши Дуглас Энгельбарт действительно изображал курсор в виде стрелки вверх, как наиболее логичный вариант выделения.
Однако, графический интерфейс операционной системы на практике первой в мире реализовала компания Xerox, а именно — её научно-исследовательское подразделение Palo Alto Research Center. В частности, курсор описан в документе от 1981 года, который перечисляет характеристики XEROX PARC, первого в истории компьютера с графическим пользовательским интерфейсом.
При проектировании этой машины обнаружилось, что из-за низкого разрешения дисплеев того времени невозможно создать из пикселов нормальный вертикальный курсор маленького размера. Решено было не увеличивать размер указателя, а вместо этого слегка повернуть его, чтобы одна грань была вертикальной, а вторая наклонялась на 45°.
Минуло более 30 лет, появились дисплеи высокого разрешения, но традиция изображать курсор наклонённым на 45° сохранилась.
1 876
Автор описывает, как может произойти сбой в выравнивании, и какие последствия это может иметь. Предлагает несколько перспективных направлений исследований, которые могут помочь в решении проблемы "сверхвыравнивания".
Автор подчеркивает важность автоматизации исследований по выравниванию, чтобы успевать за быстро развивающимся ИИ.
IIId. Свободный мир должен победить (стр. 126)
Автор подчеркивает, что обладание сверхинтеллектом даст решающее преимущество в экономике и военной сфере.
Автор предупреждает о том, что Китай все еще находится в игре, и может стать серьезным конкурентом в области ИИ.
Автор считает, что в гонке за ОИИ на карту поставлена судьба свободного мира, и США должны сделать все возможное, чтобы сохранить лидерство.
Автор предупреждает о опасности пролиферации сверхинтеллекта в руки недобросовестных игроков и о риске самоуничтожения человечества.
IV. Проект (стр. 141)
Автор считает, что в ближайшем будущем, по мере усиления гонки за ОИИ, правительство США будет вынуждено принять активное участие в развитии ИИ.
Автор считает, что разработка сверхинтеллекта станет национальным проектом США, сравнимым с проектом "Манхэттен".
Автор объясняет, почему частные компании не смогут самостоятельно разработать и управлять сверхинтеллектом.
Автор считает, что правительство должно обеспечить безопасность ИИ-технологий, национальную безопасность США, а также стабилизировать международную ситуацию.
V. Заключительные мысли (стр. 156)
Автор выделяет три основных принципа "реализма в отношении к ОИИ".
Автор считает, что США должны уделять максимальное внимание безопасности ИИ-технологий и быстро развивать свою ИИ-инфраструктуру.
Автор считает, что решение проблемы безопасности ИИ требует особой ответственности и серьезного подхода.
В заключении автор с оптимизмом относится к возможности усмирения сверхинтеллекта.
Приложение (стр. 162)
Автор приводит дополнительную информацию о рассчетах вычислительной мощности и о капитальных затратах на ИИ-инфраструктуру.
1 876
Интересное видение ситуации по ИИ: Бывший сотрудник Open AI Леопольд Ашенбреннер опубликовал большой документ (165 страниц) под названием SITUATIONAL AWARENESS (ОСВЕДОМЛЕННОСТЬ О СИТУАЦИИ).
Все читать было лень, тем более, что на английском. Поэтому для тех кому интересно прогнал файл через Gemini 1.5 pro, попросив его создать лист с содержанием на русском языке. И вот о чем идет речь в тексте:
Содержание текста "Ситуационная осведомленность: Десятилетие впереди" Леопольда Ашенбреннера:
Введение (стр. 3)
Автор описывает атмосферу в Сан-Франциско, где сосредоточены ведущие лаборатории искусственного интеллекта (ИИ).
Говорит о том, что разговоры о ИИ становятся все более серьезными, а инвестиции в ИИ-технологии - колоссальными.
Утверждает, что он находится в числе тех, кто обладает ситуационной осведомленностью о стремительном развитии ИИ.
Автор обещает рассказать о том, что видят исследователи ИИ.
Содержание
I. От GPT-4 к ИИ: подсчет порядков (стр. 7)
Автор утверждает, что появление общего искусственного интеллекта (ОИИ) к 2027 году весьма вероятно.
Сравнивает развитие ИИ-моделей от GPT-2 до GPT-4 с развитием ребенка от дошкольника до умного старшеклассника.
Выделяет три основных фактора, влияющих на развитие ИИ: вычислительная мощность, алгоритмическая эффективность и "снятие ограничений".
Автор детально анализирует рост каждого из этих факторов за 4 года до GPT-4 и прогнозирует их развитие до 2027 года.
Утверждает, что в 2027 году ИИ-модели могут сравниться с интеллектом исследователей/инженеров ИИ.
II. От ИИ к сверхинтеллекту: взрыв интеллекта (стр. 46)
Автор утверждает, что прогресс ИИ не остановится на человеческом уровне.
Ссылается на I. J. Good, который в 1965 году предсказывал "взрыв интеллекта".
Аналогично атомной бомбе и водородной бомбе, ОИИ станет лишь первым шагом к сверхинтеллекту.
Предлагает сценарий, в котором миллионы ОИИ смогут автоматизировать исследования ИИ, что приведет к "взрыву интеллекта" - быстрому и качественному переходу от человеческого уровня к сверхинтеллекту.
Автор описывает потенциальные последствия сверхинтеллекта для научно-технического прогресса и военной мощи.
III. Вызовы
IIIa. Гонка за триллионным кластером (стр. 75)
Автор описывает огромные инвестиции, которые будут направлены на развитие ИИ-инфраструктуры, в том числе создание мощнейших дата-центров.
Прогнозирует стремительный рост спроса на вычислительные мощности, а также на электроэнергию, необходимую для их работы.
Автор считает, что США должны активно развивать свою ИИ-инфраструктуру, чтобы не отстать от других стран.
Поднимает проблему ограничений по мощности, которые могут возникнуть при строительстве гигантских дата-центров.
IIIb. Запереть лаборатории: безопасность ИИ (стр. 89)
Автор критикует слабую безопасность ведущих ИИ-лабораторий, которая ставит под угрозу национальную безопасность.
Утверждает, что секреты ИИ-технологий должны быть защищены от государственных хакеров и разведчиков. Сравнивает современный уровень защиты ИИ-данных с "безопасностью обычных технологических стартапов", и считает, что эта защита совершенно недостаточна.
Автор предупреждает о том, что китайские спецслужбы уже сейчас могут легко получить доступ к секретам ИИ, а в будущем, с развитием ОИИ, эта угроза станет еще более серьезной.
Автор считает, что защита ИИ-технологий является ключевым фактором для сохранения лидерства США в области искусственного интеллекта.
Автор призывает к усилению мер безопасности, включая более тщательную проверку сотрудников, физическую охрану дата-центров, а также к сотрудничеству с государственными органами.
IIIc. Сверхвыравнивание (стр. 105)
Автор описывает проблему "сверхвыравнивания" - создания надежных методов управления ИИ, превосходящим по интеллекту людей.
Автор утверждает, что существующие методы, например, обучение с подкреплением с помощью человеческой обратной связи (RLHF), не масштабируются до уровня сверхинтеллекта.
1 876
Repost from NN
Прошло четвертое испытание ракеты-носителя Starship от SpaceX. В этот раз ракете удалось выполнить почти все поставленные задачи:
– Успешно стартануть;
– Отделить разгонный блок и вернуть ступень на планету;
– Облететь вокруг Земли и приземлиться.
При входе в атмосферу обшивка ракеты начала гореть, повредив камеру, так что красивого приземления не увидели. Но этот запуск получился сильно успешнее предыдущих.
Человечество стало еще ближе к новому этапу в покорении космоса.
1 876
Система Starship S29 & Super Heavy B11 стартовала со стартовой площадки OLP-1 в Starbase. Корабль вышел на расчетную орбиту. Ускоритель впервые совершил управляемую посадку в воды Мексиканского залива. Ждем приводнения Starship у берегов Австралии
1 876
Портативный телевизор Sony KDL-330 1989 года выпуска.
ЖК-дисплей, ТВ-тюнер, динамик – все это работает всего от 4-х батареек.
1 876
Диабет II типа часто называют "тихим убийцей". Он медленно, но верно разрушает организм. И хотя полностью вылечить его пока не удавалось, китайские врачи, похоже, совершили невозможное!
Мужчина, который на протяжении четверти века мучился от диабета, после операции забыл о своей болезни!
Секрет успеха - в трансплантации модифицированных стволовых клеток поджелудочной железы.
Теперь организм пациента сам вырабатывает инсулин и пациент не принимает лекарства уже 33 месяца. Конечно, говорить о полном излечении пока рано. Но это огромный прорыв в медицине.
1 876
Ученые создали гель, который разлагает алкоголь прямо в желудке и кишечнике
Ученые из Швейцарской высшей технической школы Цюриха.
разработали гель на основе сывороточного белка (ага, того самого, что в протеиновых коктейлях), добавили туда атомы железа, сахара и золотые наночастиц. 🧪
Как это работает?
Обычно алкоголь попадает в кровь и вызывает опьянение. Затем печень его перерабатывает, сначала образуя очень токсичный ацетальдегид (который может привести к циррозу печени и раку), а затем перерабатывает его в относительно безопасную уксусную кислоту 🤢
Компоненты антиалкогольного геля вызывают реакции, которые превращают алкоголь в безвредную уксусную кислоту прямо в ЖКТ, минуя ацетальдегид.
В экспериментах на мышах, которые "упивались" алкоголем, гель снижал уровень алкоголя в крови на 40-56% и предотвращал развитие проблем с печенью, потерей веса и кишечником. 🐭
Ученые уже подали заявку на патент и планируют провести клинические испытания на людях. 👨🔬
1 876
Денек вчера на испытательном стенде SpaceX в МакГрегоре выдался особенно жарким. Двигатель Raptor устроил знатное фаер-шоу. 💥
Ждем комментариев от Илона. Что было на этот раз: "быстрая незапланированная разборка" или "внеплановая проверка системы пожаротушения"? 😊
А если серьезно, то аварии на испытаниях - неотъемлемая часть развития космической техники. Главное, чтобы все остались целы и а выводы были сделаны.
1 876
+1
ИИ добрался и до маникюра
Клиентки приходят с "фото" ногтей, сгенерированных нейросетями, и требуют повторить. 😄
На возражения, что в реальности сделать такое не возможно ругаются и ничего не хотят слушать
1 876
🤖 Ну, здравствуй, "Мир дикого запада"!
Вот так выглядят будни на фабрике по производству роботов в Китае
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
