cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

алиса олеговна

Пишу про изучение обработки естественного языка (NLP) с нуля. Учу компуктер вести диалоги в духе всем известной Алисы. Цель → попасть в крутую компанию на NLP задачи и пилить полезные продукты! Подробнее → https://t.me/alisaolega/6 Автор → @textoleg

Больше
Рекламные посты
383
Подписчики
Нет данных24 часа
+47 дней
+3530 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

Repost from Dealer.AI
Git LLMs pull, LLMs merge, LLMs push. В последнее время хайпу взял Mixtral с его реализацией MoE подхода (писал про него туть). Но увеличение capacity модели и улучшение ее свойств можно достичь не только засчëт экспертов. Новое веяние это merging моделей. В чем состоит идея git merge'а моделек? Во-первых, это не ансамблинг моделей, те мы не используем процедур голосования, стэкинга, boosting или bagging. Во-вторых мы НЕ склеиваем их по принципу схожему с MoE. Слияние происходит на уровне слоев, таким образом, чтобы учесть соноправленность весов в слоях (коленниарность), а также знаковую совместимость значений активаций. При этом можно подобно методу "лотерейного билета" убирать слабо совместимые слои или слои, которые не являются значимыми. Также, есть подходы демасштабирования и масштабирования моделей. К примеру, мы имели 7b и 9b и можем расширить итоговое значение размера после слияния, как в пользу последней, так и первой или вообще получить еще большую мега модель аля Голиаф 120b. Самое интересное, что какие-то методы позволяют только парно склеить модели, а какие-то больше двух одновременно. Подробнее о методах слияния можно почитать по ссылке на hf в начале. Почему это работает и даже удается достичь прогресса в метриках? Ответ лежит в той же плоскости методов оптимизации 0го порядка, а также ema, swa подходов улучшения обучения. Мы используем "субоптимальные" (как мы считаем) веса моделей кандидатов для слияния, далее выбираем наиболее подходящие слои и механики для этого. Следовательно мы умно "суммируем" такие веса, влияя на итоговое пространство таким образом, что веса двигаются ближе к оптимальному набору. В этом и состоит суть подходов ema/swa и метода треугольников/медиан и пр. в оптимизации. А тк. мы склеиваем слои и их веса , которые соноправлены, то мы не ломаем модель, смыслы в ее весах заложенные и тп. Для собственных экспериментов можно использовать mergekit и colab. Так что мерджим!
Показать все...
4🔥 2
Мой неподдельный интерес к мёрджу моделей оказался небезосновательным, тема, что называется пошла в народ. Ждём интересностей в этой сфере и балуемся сами!
Показать все...
Repost from BOGDANISSSIMO
Фото недоступноПоказать в Telegram
90-DAY PLAN Уделил 10 минут (остальные 20 потратил на саморазвитие), подготовил шаблон в Miro для квартального планирования, который любой из вас может взять на вооружение, наверняка кому-то пригодится. В углу написал легенду, в комментарии задавайте вопросы, если что-то непонятно – дополню. https://miro.com/app/board/uXjVODg5odE=/?moveToWidget=3458764574208194942&cot=14 Ключевые идеи: - разбивка по 3-4-5 направлениям (например, сферам жизни или проектам; про цветовую кодировку рассказывал здесь) - в каждом направлении одна-две цели на квартал - для каждой цели есть какие-то промежуточные майлстоуны (которые могут играть роль целей на месяц или на неделю) - сплошная обводка для достигнутых целей, пунктиром для тех что In-Progress, полупрозрачные – те, что сейчас вне фокуса внимания (будущие цели) + граница того, что сейчас в фокусе Вероятно, вы будете просматривать и актуализировать этот план раз в неделю, во время еженедельного планирования. Думаю, подходит как для персональных целей, так и для планирования развития продукта или компании. А как вы организуете планы на квартал или на год? #LifeOps
Показать все...
👍 4
#планирование #цели Касательно планирования года. В том году я составлял в Notion большие партянки целей, затем садился их и перефильтровывал, переранжировал, уточнял. Даже прибегал к помощи ChatGPT 😣 В целом я доволен результатом по их достижению, хотя success rate держится на уровне 40%. НО! начал последние два-три месяца 2023 я начал замечать, что мне проще раскидать цели графически. Я уже несколько раз рисовал концентрические круги в блокноте с разными сферами жизни типа: ⏺ Карьера ⏺ Здоровье ⏺ Саморазвитие ⏺ Отношения ⏺ Финансы И выгружал голову внутрь этих кругов — прописывал чего там хотелось бы достичь. Такой фреймворк оказался для меня более наглядным, чем бездушные маркированные списки. Как показалось, благодаря сверке с этой картой, конец года вышел более плодотворным, чем начало. Позже я наткнулся на вот эти диаграммы у Богдана и решил попробовать тоже взять их на вооружение. Поэтому сейчас сижу-горожу диаграммку на этот год и делюсь с вами. Богдану спасибо за идею!
Показать все...
👍 2
Learning How to Learn #самообучение #evergreennotes #заметки Я пока отхожу от праздников, отдыхаю и набираюсь сил перед последним раундов собесов. Сейчас также отличное время посидеть порефлексировать над прошедшим годом — решил разобрать кучу записей, которые я сделал в заметках/блокнотах/Notion/Logseq. В особенности засел за Obsidian и Logseq, проанализировать свои лекционные конспекты и вечнозелёные заметки (evergreen notes). Тема эффективного самообучения меня сильно волнует ещё с универской поры, когда, выйдя из академа, я имел 12 незакрытых предметов, которые нужно было сдать за два оставшихся года, не просрав ничего из новенького. Тогда я открыл для себя вот эти buzz words: - bullet journaling - time blocking - zettelkasten - кривая забывания Эббингауза - техника Фейнемана - Spaced Repetition и Active Recall - всякие продвинутые техники чтения типа SQ3R и PQRST - CODE (Capture, Organize, Distill, Express) и PARA (Projects, Actionables, Resources, Archive) фреймворки обработки информации За пару лет я пробовал всё подряд, но между тем развил основную привычку — записывать всё, что кажется важным и (не менее важно!) периодически всё сохранённое пересматривать. Однако сейчас у меня сильно проседает навык именно структуризации знаний и линковки заметок. Это видно по моим графам в обоих приложениях. Также я много чего сохраняю, но мало что достаю и вычитываю из сохранённого. Поэтому сейчас активно пытаюсь выработать стратегию по латанию этих дыр на этот год. Решил попробовать Omnivore для отложенного чтения статей и постов. Также попробую заинтегриовать его с Logseq для анализа и вычитки статей и хайлайтов. А также попробую делать ассоциативные карты для обширных тем прямо в Logseq. Если и вам интересно погрузиться в эту тему, то вот абсолютно рандомная, но полезная подборка материалов для высокоинтеллектуальной прокрастинации. Мои универские презентации по [само-]обучению и организации: - Первая версия - Вторая версия (Deluxe Edition) Не моё: - Заметки про вечнозелёные заметки: сразу наглядно показано, как их можно организовывать - Видео про построение Second Brain: тут главное общий взгляд на подобные системы - Обзор функционала Obsidian на русском от Диджитализируй - Пример как студент PhD ведёт свои заметки в Obsidian - Ещё один пример системы в Obsidian - Ещё пример ведения Zettlekasten в Obsidian - Статьи на сайте Zettlekasten - Курс Learning How to Learn: абсолютно рекомендую, это базовая база Далее, чтобы не уходить в бесконечный тюнинг своих систем (ту самую прокрастинацию), вот отрезвляющий видос: - Stop Procrastinating With Note-Taking Apps Like Obsidian, Roam, Logseq В остальном, как и по ML, можно периодически читать статьи про эти техники и их доказательную базу. Отдельно как-нибудь выложу стоящие на мой взгляд.
Показать все...
👍 6🔥 5
[Singapore] TinyLlama: An Open-Source Small Language Model Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu Статья:https://arxiv.org/abs/2401.02385 Код: https://github.com/jzhang38/TinyLlama В полку SLM (Small Language Models) прибыло! TinyLlama — это моделька размера 1.1B, обученная на 3T токенов! Для сравнения намного большую 70B Шиншиллу (https://t.me/gonzo_ML/1216) обучали на меньшем датасете в 1.4T токенов. По рецептам Шиншиллы оптимальное обучение для 1B модели было бы на 20B токенов (https://t.me/gonzo_ML/1223), а тут 3T, почувствуйте разницу! Кажется, это в первый раз для настолько малой модели. Из других SLM за последнее время были, например, Phi 1 и 1.5 с 1.3B (https://t.me/gonzo_ML/1871), Phi 2 c 2.7B (https://t.me/gonzo_ML/2173) или Gemini Nano с 1.8B и 3.2B (https://t.me/gonzo_ML/2117). Это интересное направление, потому что в целом все бегут за большими размерами, и ниша малых моделей недоисследована, а с учётом важности инференса они не менее важны. При этом давно уже есть наблюдения, что можно пообучать модель сильно за пределами compute optimal рецептов Шиншиллы, то это продолжает приносить плоды. Архитектура классическая, декодер трансформера по рецепту Llama 2 с её же токенизатором. Данные собрали из SlimPajama (почищенный вариант RedPajama) и Starcoderdata, суммарно 950B токенов, так что обучали примерно 3 эпохи. Сэмплили датасеты в пропорции 7:3. При этом задействовали разные продвинутые штуки и взяли RoPE энкодинги, RMSNorm pre-norm, SwiGLU, grouped-query attention. Для скейлинга и ускорения задействовали Fully Sharded Data Parallel (FSDP) из Пайторча, свежий Flash Attention 2, заменили fused SwiGLU из xFormers на оригинальный и сэкономили памяти (это, кстати, для меня удивительно, мои первые ожидания, что fused реализация должна быть лучше) -- это позволило уместить модель в 40Gb памяти. В итоге на A100-40G получили training throughput в 24,000 токенов в секунду. Для обучения на 300B токенов TinyLlama-1.1B требуется 3,456 A100 GPU-часов, в то время как у Pythia эта цифра равна 4,830 и у MPT’s вообще 7,920 часов. Использовали для обучения Lit-GPT (https://github.com/Lightning-AI/lit-gpt, базируется на nanoGPT). AdamW, cosine learning rate, warmup, gradient clipping. Обучалось 90 дней на 16 A100-40G GPU. По ценам AWS на p4d (https://aws.amazon.com/ec2/instance-types/p4/) это было бы примерно $140k между прочим. Результат хорошо бьёт бейзлайны в лице OPT-1.3B, Pythia-1.0B и Pythia-1.4B. На MMLU правда хуже. С увеличением вычислительного бюджета перформанс продолжает расти, не понял только почему он более шумным становится. Кажется, работа -- верх открытости. Весь код обучения, промежуточные чекпойнты, все детали обучения доступны. Респект!
Показать все...
TinyLlama: An Open-Source Small Language Model

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages...

👍 3
😭😭😭yes.
Показать все...
Repost from Stolen memes
Фото недоступноПоказать в Telegram
😁 9👍 3💯 2🤝 2 1
🎄🎄🎄 С Новым годом! Если обратите внимание, то аватарка у канала появилась 31 декабря 2022. Это был день, когда я решил, что больше не могу жить отложенную жизнь и наметил себе за год вылезти из скорлупы бесформенного MLE, который делает всё подряд, — набрать экспертизы в NLP: в обработке речи, диалоговых системах и чатботах. Перейти в классный продукт! И вот год, несколько курсов за спиной, митапов, десяток лекций, тысячи строчек кода на работе и в своих проектах позади… — я всё ещё не закрыл эту цель. Но завершаю год, зная, что из первых пяти компаний, в которые я решился собеседоваться в декабре, дошёл до оффера — в двух! Поэтому в Новый год я наконец-то вхожу с ощущением удовлетворения, осознания собственных сил, обретя уверенность. И это во многом благодаря этому каналу и вам! 2023 свёл меня с потрясающими людьми, познакомил с профессионалами в своих областях, учил дисциплине, а также просто мотивировал делиться чем-то новым, писать для вас и в некотором смысле для себя. Я знаю, что ещё не раскрыл свой «писательский» потенциал и задолжал вам много контента, но, как я писал тут, для меня было важно закрыть гештальт — получить хотя бы один релевантный оффер. Желаю для тех, кто в поиске, в следующем году найти себя профессионально, найти ту самую дримтиму. А для всех остальных — новых задач, новых моделей в проде и настоящих медовых SoTA! 🐝 Я же свой следующий год объявляю годом контента, старта разработки своих серьёзных проектов в опенсорс NLP, но также — здоровья и заботы о себе. Ведь за всеми этими собесами и достигаторством важно сохранять целостность и гармонию. Обнимаю вас! 🫰🫰🫰
Показать все...
🔥 19 6👍 2
Repost from grokaem себя
#grokaem_собес #grokaem_nlp Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты. *Notion будет пополняться* Notion русская версия В составлении вопросов помогали: ds girl канал Плюшевый Питон Alexander Babiy канал что-то на DL-ском канал Dealer.AI канал алиса олеговна Часть вопросов: 8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать? 21. Что такое negative sampling и зачем он нужен? 30. Что такое затухающие градиенты для RNN? 41. Что используется в трансформере layer norm или batch norm и почему? 55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы. 75. В чем отличие оптимизатора Adam от AdamW? 86. Объясните концепции metric learning. Какие подходы вам известны? 88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling? 92. В чем отличие prefix tuning от p-tuning и от prompt tuning? 98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
Показать все...
100 questions about NLP | Built with Notion

Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.

🔥 4👍 1
Выберите другой тариф

Ваш текущий тарифный план позволяет посмотреть аналитику только 5 каналов. Чтобы получить больше, выберите другой план.