DLStories | Нейронные сети и ИИ - @dl_stories

Всем привет! в субботу, 27 числа, я буду записывать новый выпуск подкаста Deep Learning Stories. Тема выпуска — соревнования по машинному обучению: взгляд со стороны участника и организатора. Гости выпуска — Ринат Шарафетдинов, ML-инженер в команде прогнозирования спроса, и Евгений Финогеев, тимлид команды матчинга и машинного обучения, в Samokat.tech. С гостями обсудим: - какие соревнования по ML бывают и чем командные соревнования отличаются от индивидуальных; - в каких соревнованиях стоит участвовать и где их находить; - зачем компании проводят соревнования по машинному обучению и как сделать соревнование интересным; - организация соревнований: от подготовки данных до оценки решений; - насколько участие в соревнованиях полезно для карьеры. Хотят ли компании нанимать Kaggle-мастеров? Как обычно, задавайте ваши вопросы по теме в комментариях под этим постом. Я постараюсь добавить эти вопросы в программу. А прошлые выпуски подкаста Deep Learning Stroeis можно найти тут: - Yandex Music - Apple Music - Google Music - Spotify - YouTube #podcast

نمایش همه...

Подкаст Deep Learning Stories. Слушать все выпуски онлайн бесплатно на Яндекс Музыке

Слушайте на Яндекс Музыке

👍 44🔥 21❤ 8

(продолжение поста выше) Поясню, почему я так думаю. Идея обучения промпта (prompt-tuning) далеко не нова. Она активно используется в NLP и языковых моделях в частности. Идея там такая: пусть у нас есть модель, которая на вход принимает задачу в виде текста на естественном языке. Например, "Translate the following sentence to French: I love machine learning". Моделька, скорее всего, большая, с большим количеством параметром. Если нам захочется дообучить ее под свою задачу, это потребует большого количества данных, времени и хорошего GPU. И тогда возникает хорошая идея: а давайте дообучать модельку не будем, а будем учить правильный промпт-формулировку задачи. Это гораздо проще и быстрее, и часто дает хорошие результаты. Эта идея в NLP работает примерно с появления T5 — первой достаточно большой модели, которая могла решать сразу несколько задачи и принимала на вход описание задачи на естественном языке. Казалось бы, если идея так хороша с языковыми моделями, то почему бы не применить к CLIP? Собственно, так и рассужали авторы статьи "Learning to Prompt for Vision-Language Models", которая и предлагает идею выучивания промпта для CLIP, которую я описала выше. Но тут есть одно "но": в случае с CLIP у нас есть доступ к внутреннему пространству эмбеддингов текстов и картинок. И мы можем работать прямо в нем. То есть, мы можем, получить из CLIP эмбеддинги названий классов и картинок, а дальше, например, навесить на эмбеддинги картинок/текста мини-нейросеть-адаптер из пары слоев. И учить эту мини-нейросеть на трейне ImageNet так, чтобы она выдавала новые эмбеддинги картинок/текста. Такие, что на них zero-shot классификация на валидации ImageNet будет показывать лучший accuracy. И так даже сделали. Вот работа с названием CLIP-Adapter, которая сделала ровно это. Авторы показали, что это работет лучше обучения промптов из работы выше. Вот так. Короче, я не понимаю, почему люди все еще пытаются учить промпты для CLIP, когда, казалось бы, это не имеет смысла. Зачем учить что-то (промпт), что должно порождать хорошие результаты после некоего сложно преобразования (text encoder), когда мы можем сделать намного проще — учить что-то (нейросеть-адаптер), что само сразу должно порождать нужный результат? Кажется, что в случае нейросети-адаптера задача ставится намного проще, и с оптимизационной точки зрения решить ее легче (не надо тюнить что-то, что проходит через сложное преобразование перед подачей в лосс). И самое веселое — у статьи "Learning to Prompt for Vision-Language Models" больше 1200 цитирований😐 Это очень много. А еще на той же самой идее эти авторы написали еще статей, где чуть улучшили идею обучения промптов. И на них еще по 800 цитирований тоже... В общем, помогите Тане понять, в чем смысл prompt-learning для CLIP, ато я совсем не знаю(

نمایش همه...

👍 46🤔 8🔥 4🥰 3❤‍🔥 1❤ 1🤯 1💩 1🤨 1

Есть одна вещь в исследования вокруг модели CLIP, которую я пока хоть убей не понимаю. Давайте вам расскажу, может, поможете мне понять, в чем я не права. Осенью я как-то ковыряла CLIP, и наткнулась на сразу кучку статей по очень странной, казалось бы, теме: prompt tuning for visual-language models. Идея этих статей следующая: Смотрите, вот есть CLIP. Напомню, что это две нейросети — text encoder и image encoder. Эти нейросети переводят текст и изображения в общее пространство эмбеддингов. То есть, если есть картинка и ее текст-описание, то эмбеддинг картинки, полученный из image encoder, будет близок по косинусному расстоянию к эмбеддингу текста, полученному из text encoder. А если текст картинке не соответствует, то эмбеддинги текста и картинки будут по косинусному расстоянию далеки. Так вот, с помощью CLIP можно решать задачу классификации картинок в zero-shot режиме, т.е. вообще без дообучения. Берем тестовый датасет картинок и названия их классов ('fish', 'dog', ...). Прогоняем названия классов через text encoder, получаем эмбеддинги классов. Далее для каждой картинки получаем ее эмбеддинг из image encoder и сравниваем его по косинусному расстоянию со всеми эмбеддингами классов. Тот класс, для которого косинусное расстояние вышло наименьшим, и будет ответом для картинки. Таким макаром набирается, скажем, 0.65 accuracy на валидации ImageNet. А дальше возникает следующая идея: давайте придумаем, как получать более хорошие эмбеддинги классов, чтобы zero-shot accuracy стал еще выше. Например, хорошо работает идея с добавлением к названиям классов префикса 'a photo of'. Т.е. если получить эмбеддинги классов в виде 'a photo of <class_name>', то с такими эмбеддингами zero-shot acc станет на пару процентов выше. И дальше начинаются танцы с бубнами вокруг темы "какой бы придумать префикс еще получше". Пишутся статьи вида "давайте использовать несколько разных префиксов и потом усреднять эмбеддинги классов, полученные с помощью этих префиксов", "давайте нагенерим кучу вариантов префиксов и каким-то хитрым алгоритмом выберем их них n лучших" и т.п. Вот пример подобной недавней статьи, первый ее автор из Кембриджа. А дальше еще веселее. Возникает идея: а давайте не просто подбирать разные префиксы и их смешивать, давайте учить псевдо-префикс. Т.е. берем n "псевдо-эмбеддингов слов", берем эмбеддинг названия класса, конкатенируем их и получаем эмбеддинг промпта вида <псевдо-слово_1, ..., псевдо-слово_n, class_name>. На небольшой части трейн сета ImageNet учим эти n псевдо-эмбеддингов слов так, чтобы zero-shot результат классификации картинок ImageNet с помощью этих псевдо-эмбеддингов был как можно выше. Так вот, к чему я это все. А к тому, что, мне кажется, что сама идея тюнинга промптом для CLIP совершенно не имеет смысла. Объясню мысль в следующем посте ⬇️

نمایش همه...

👍 26🤔 10🔥 4❤ 2❤‍🔥 1🥰 1🤮 1

Со мной тут поделились ссылкой на стартап, который делает "одежду против распознавания лиц"🤡 Штаны или футболка с кислотными принтами обойдутся в $300+. Заявляется следующее:

"People wearing the Manifesto Collection are not recognized as "persons" by the AI. The system recognizes dogs, zebras, giraffes, or small-knitted people inside the fabric."

Очень интересно, от каких таких систем распознавания людей они собрались "защищать" своей одеждой, что эти системы распознают не лица, а полностью силуэты людей, да еще и что-то знают про собак, жирафов или вязаных игрушек) Стала дальше смотреть, какие у них пруфы, что их шмотки работают. А пруфы вот:

"Whenever we participate in an event, we set up a real-time recognition system showing how our garments work"

Типа, ну, от нашей нейронки защищает, значит, работает ¯\_(ツ)_/¯ Стартап к тому времени собрал больше €5000 на Kickstarter, выиграл какую-то итальянскую награду (стартап тоже итальянский) и получил упоминания в CNN, BBC, Wired, Forbes и других местах. Либо я чего-то сильно недопонимаю в работе систем распознавания людей, либо это довольно красивый развод на деньги😐 Ну хоть в отзывах пишут, что одежда удобная и мягкая. За $300 уж должна быть...

نمایش همه...

🤡 78😁 29🎉 11❤ 5👍 4🔥 2😱 1🤮 1

Помните, писала пост про из десять AI-предсказаний Forbes на 2024 год? Там шестой пункт — про то, что "появятся архитектуры-альтернативы трансформерам". И одним из главных претендентов на архитектуру-убийцу трансформера там была названа Mamba. Так вот, еще с того момента, как писала тот пост, хотела эту Мамбу заботать, но никак руки не доходили. Но вчера у нас в универ был reading group, который был посвящен как раз Мамбе. Хочу сказать, что reading group действительно помог быстро и понять общую идею модели. Так что собирайтесь в reading club'ы, это круто и полезно) Но прямо сейчас я пост/статейку про Mamba писать все равно еще не готова, мне нужно понять еще несколько нюансов и заботать статьи, на которых Mamba основана. Пока напишу несколько основных мыслей и тезисов по ней. Поправьте меня, если я вдруг где-то не права. Начем с того, что Mamba — это не какая-то супер-новая архитектура, которая отличается от всего, что мы видели, и которая взяла и перевернула мир. Mamba основана на State Space Models (SSM) — архитектуре, которая была предложена аж в 1960-х. SSM хорошо подходят для работы с непрерывными типами данных, такими, как аудио. Главные преимущества SSM: — количество времени и пямяти, которые требуют SSM во время обучения и инференса, растет линейно относительно длины входной последовательности. Если обучить SSM на задачу языкового моделирования, то модель будет тратить константное количество времени и памяти на каждый шаг генерации; — SSM легко поддерживают огромный размер контекста, до 1 миллиона токенов. Это все звучит хорошо. Но для дискретных модальностей, таких, как текст, до сих пор успешно применить SMM не удавалось. То есть, условно, не получалось достичь того, чтобы SMM имела сравнимое с транфсормерами качество на задача языкового моделирования, не требуя при этом сильно больше времени на inference. Главным препятствием тут было то, что механизм стандартных SSM не позволяет модели выделять из входной последовательности отдельные части информации, которые важны для текущего инпута. А это — очень важное умение для LLM. А те модификации SSM, которые так делать умеют, сразу сильно теряют в скорости. Авторы Mamba предложили пару модификаций в архитектуру современной SSM, которые и позволили Mamba наделать шуму в обществе и стать, как часто пишут, "угрозой для трансформеров". На задаче языкового моделирования Mamba достигает уровня GPT-NeoX, имея в два раза меньше обучаемых параметров. Более того, скорость инференса у Mamba тоже сильно лучше: она достигает улучшения в 5 раз по сравнению с трансформерами — это просто огромный прорыв для SMM. Конечно, это всего лишь сравнение с GPT-NeoX на нескольких бенчмарках, большой Mamba-based LLM типа GPT-4 еще нет и в помине. Но, на первый взгляд, результаты выглядят очень круто. Но что же такое эта ваша Mamba? Если оочень кратко, то Mamba — это SSM + MLP блок Трансформера + пара трюков для ускорения модели. По архитектуру Mamba я, надеюсь, позже напишу более подробный пост или статью. А вот в трюках для ускорения становится интересно: они основаны не на архитектурных решениях, а на работе с процессором (т.е. они hardware-aware). На основе знаний о нюансах работы частей GPU, авторы предлагают хранить и обрабатывать тензоры, возникающие в процессе работы SSM, в разных частях GPU. Это сильно ускоряет процесс. Большего я тут пока сказать не могу, потому что практически ничего в устройствах hardware не понимаю (хотя моя мама была инженером-наладчиком ЭВМ, вот это ирония)) Вот как-то так. Надо еще сказать, что больше всего шуму Mamba пока что наводит не в мире NLP/LLM, а в медицине. В этом домене есть данные, представленные в виде последовательностей (геномы), и изображений огромного размера (всякие сканы тканей), поэтому у исследователей есть мысль, что Mamba сможет тут реально помочь. А в NLP то ли очень сильная инерция (мы по уши увязли в трансформерах), то ли у SSM есть серьезные ограничения, которых я пока не понимаю. А может, кто-то уже и ведет работу над SSM-LLM, и мы скоро об этом узнаем) 📃Статья Mamba

نمایش همه...

❤ 79👍 33🔥 18🤮 1👌 1👻 1

Ссылка на лекцию: https://www.youtube.com/live/JN0_RZt2pHM?feature=shared Подключайтесь!

نمایش همه...

👍 16❤ 6

Всем привет! У меня классная новость: в субботу, 16 марта, в 13:00 МСК на YouTube-канале DLS состоится живая открытая лекция от компании Pinely. Приглашаю вас всех тоже! Тема: Применение машинного обучения на финансовых рынках: вызовы и перспективы. На лекции обсудим, какие сложности встречаются в задаче оценке справедливой цены, почему использование даже хорошо изученных методов может приводить к неожиданным результатам, и как исследователям помогает математика в анализе и решении этих проблем. Будут конкретные примеры подобных сложностей, их математическая формулировка и возможные решения. Спикеры: Павел Швечиков - Team Lead RL в Pinely Михаил Мосягин - ML Researcher в Pinely Алексей Пономарев - Developer в Pinely На лекции можно будет задать любые вопросы спикерам. Ссылка на подключение будет перед началом вебинара. Запись также будет. Приходите!

نمایش همه...

👍 64🔥 25❤ 8💩 1

Как и писала выше, делали мы эту олимпиаду в первый раз, и весь процесс оказался не таким простым. Вот эта картинка прекрасно отражает мое состояние после запуска 🫠 А сейчас мне за неделю надо накатать статью на ECCV-2024 (дедлайн подачи 8 марта). Как выложу статью, обязательно напишу тут, о чем она. Ну и backlog тем, о которых хочется написать посты в канал, уже довольно большой стал...

نمایش همه...

❤ 44🥰 4👍 3🤮 1

Photo unavailableShow in Telegram

А вот и кульминация нашей деятельности DLS последних недель — мы наконец запустили регистрацию на первую олимпиаду Deep Learning School по машинному и глубокому обучению! И я вас на эту олимпиаду приглашаю 🙃 Подробнее про олимпиаду: ▫️На олимпиаде два трека: школьники и студенты+. В школьном треке могут принять участие ученики старших классов общеобразовательных школ, гимназий и лицеев. Трек “студенты+” рассчитан на студентов вузов и молодых специалистов в области глубокого обучения. Иначе говоря, в треке "студенты+" могут участвовать вообще все желающие; ▫️Олимпиада проходит в 2 этапа: отборочный и финальный. Даты отборочного этапа — 8-11 марта, на решение задач тут отводится 24 часа. Финальный этап состоится 30 марта, здесь на решение всех задач будет 6 часов. Олимпиада проходит полностью в онлайн-режиме. Участие в олимпиаде индивидуальное; ▫️В каждом из треков будут несколько теоретических и практических задач на темы, связанные с ML/DL. В теоретических задачах нужно будет отправить правильный ответ в проверяющую систему. В практических задачах нужно будет построить модель машинного обучения для решения задач по темам классического ML, CV и NLP; ▫️ Участники, занявшие первые три места в каждом треке, получат призы. Школьники, занявшие призовые места, получат баллы ИД для поступления в бакалавриат ФПМИ МФТИ. А победители и призёры студенческого трека — баллы ИД для поступления в магистратуру ФПМИ МФТИ. Приглашаем зарегистрироваться до 23:59 МСК 9 марта. 8 марта в 6:00 по МСК уже можно будет начать решать отборочные задание. Ссылки ⬇️ Регистрация Телеграм-канал с новостями олимпиады. Там же можно задать любые вопросы по олимпиаде. Буду рада, если вы придете поучаствовать и позовете с собой друзей! Это очень нас поддержит, так как мы проводим олимпиаду в первый раз)

نمایش همه...

❤ 30👍 11🔥 4💩 1

А вот и кульминация нашей деятельности DLS последних недель — мы наконец запустили регистрацию на первую олимпиаду Deep Learning School по машинному и глубокому обучению! И я вас на эту олимпиаду приглашаю 🙃 Подробнее про олимпиаду: ▫️На олимпиаде два трека: школьники и студенты+. В школьном треке могут принять участие ученики старших классов общеобразовательных школ, гимназий и лицеев. Трек “студенты+” рассчитан на студентов вузов и молодых специалистов в области глубокого обучения. Иначе говоря, в треке "студенты+" могут участвовать вообще все желающие; ▫️Олимпиада проходит в 2 этапа: отборочный и финальный. Даты отборочного этапа — 8-11 марта, на решение задач тут отводится 24 часа. Финальный этап состоится 30 марта, здесь на решение всех задач будет 6 часов. Олимпиада проходит полностью в онлайн-режиме. Участие в олимпиаде индивидуальное; ▫️В каждом из треков будут несколько теоретических и практических задач на темы, связанные с ML/DL. В теоретических задачах нужно будет отправить правильный ответ в проверяющую систему. В практических задачах нужно будет построить модель машинного обучения для решения задач по темам классического ML, CV и NLP; ▫️ Участники, занявшие первые три места в каждом треке, получат призы. Школьники, занявшие призовые места, получат баллы ИД для поступления в бакалавриат ФПМИ МФТИ. А победители и призёры студенческого трека — баллы ИД для поступления в магистратуру ФПМИ МФТИ. Приглашаем зарегистрироваться до 23:59 МСК 9 марта. 8 марта в 6:00 по МСК уже можно будет начать решать отборочные задание. Ссылки ⬇️ Регистрация Телеграм-канал с новостями олимпиады. Там же можно задать любые вопросы по олимпиаде. Буду рада, если вы придете поучаствовать и позовете с собой друзей! Это очень нас поддержит, так как мы проводим олимпиаду в первый раз)

نمایش همه...

DLStories | Нейронные сети и ИИ

در حال بارگیری داده...

در حال بارگیری داده...