cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

Pavel Zloi

Канал простого программиста, рассказываю про ИТ, Linux, AI, ChatGPT, Docker и тд. Отправить донат: https://pay.cloudtips.ru/p/937f48ac Исходники моих проектов: https://github.com/EvilFreelancer Где меня искать: https://dzen.ru/a/ZGI0ytgNQUkpkIME

نمایش بیشتر
پست‌های تبلیغاتی
700
مشترکین
+124 ساعت
+147 روز
+5530 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

Всем привет! Хочу поделиться интересными новостями, которые произошли со мной на поприще нейросетей за прошлую неделю. Неудачная попытка отправить научную работу Всю прошлую неделю по вечерам я писал научную работу на тему классификации при помощи языковых моделей (папиру надо было отправить в субботу, чтобы получить фидбэке), но к сожалению я был очень расстроен, когда оказалось, что подтверждение регистрации на сайте OpenReviews для ноунеймов без универа, навроде меня, занимает две недели с момента регистрации. Ну и плюс мою работу так и так бы отклонили, ведь она не похожа ни на что из того что там обычно публикуют (в моей работе есть подробные объяснения технологии и нет формул, плюс у меня скорее исследование о применении уже существующих решений, а не разработка новых). Но, неудача это тоже результат, в следующий раз буду умнее и подготовлюсь получше :) Скрипты обучения моделей Не отпускаю из головы идею написания проекта по обучению больших языковых моделей, да я знаю, что есть saiga/rulm, torchtune, hivemind и прочие крутые проекты, но мне у них у всех есть "фатальные недостатки", к примеру лично моя гордость это идея различных стратегий обрезки чатов, пока что реализовал только last_message_by_assistant, в планах добавить ещё стратегию из saiga (последнее сообщение без привязки к тому был ли это assistant или user), а ещё посмотреть что там у torchtune (вроде была обрезка по количеству токенов no matter what). Вторая причина - модели при обучении пытаются отгадать последние несколько токенов (даже если это сообщение, которое отправил пользователь), а я хочу сделать такую loss функцию, которая будет обучать модель генерировать ответ assistant (поэтому мне и нужна была хитрая стратегия фильтрации). Третья - сценарии обучения предлагают обучать модели типа function call через костыли, а мне хочется специализированный формат датасетета конкретно под эту задачу сделать. Но пока мой проект ещё на стадии пре-альфа MVP. Начал перебираться на GitFlic Посмотрел я значит на всякие интересные новости и решил, что похоже пора на всякий случай забэкапить все мои топовые проекты с GitHub на отечественную площадку GitFlic, из недостатков данной площадки - невозможность импорта проектов оптом, поэтому приходится вручную каждый проектик один за одним переносить, но самое важное уже скопировал. В планах Допиливать научную работу, надо больше математики и тестов, плюс обучить свою модель, сравнить результаты, ну короче как обычно. Кстати, вроде были какие-то конкурсы научных работ для начинающих учёных, надо будет изучить этот момент и посмотреть получится ли у меня принять участие где-нибудь, может грант получу да вторую видяшку куплю наконец. Допилить скрипты обучения моделей, в целом у меня уже готова подсистема генерации датасетов в формате чата, и читалка конфигурации из yaml конфига, нужно ещё сделать два сценария обучения моделей: simple device и multigpu режим через YaFSDP, а потом уже смотреть что делать дальше. PS. Всем продуктивной рабочей недели!
نمایش همه...
🔥 7👍 1
Всем привет! Прочёл сегодня в блоге OpenAI занятную новость про то, что они приняли отставного генерала из АНБ, который будет советовать всей команде как сделать платформу безопаснее и защитить собранные на серверах OpenAI от утечек, комичнее всего то, что это новость в категории блога под названием Safety & Alignment. В сочетании с другими новостями, которые исходят от компании OpenAI в последнее время есть мнение, что пора уже готовиться к тому, что даже обходные пути перестанут работать и придётся переезжать на отечественные аналоги хотим мы этого или нет.
نمایش همه...
OpenAI appoints Retired U.S. Army General Paul M. Nakasone to Board of Directors

Nakasone brings cybersecurity experience to growing Board of Directors; will join the Board’s Safety and Security Committee

👍 2🤬 1🤷 1
Любопытнейшую новость прочёл, о том что Яндекс выпустили в OpenSource библиотеку для распределённого обучения моделей, пишут что YaFSDP в среднем на 20% быстрее чем классический FSDP, который используют для акселлерации обучения. Короче неплохая тема которую я пожалуй попробую в моём хобби проектике на базе Saiga и TorchTune для обучения моделек, который я тизерил чуть раньше.
نمایش همه...
Хабр / ML & AI

Яндекс открывает YaFSDP — инструмент для ускорения обучения больших языковых моделей и сокращения расходов на GPU Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей. В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них. Читать далее #яндекс #языковые_модели #gpu #опенсорс_яндекса #open_source #llm #машинное_обучение #ml | @habr_ai

Photo unavailableShow in Telegram
Добавил в репозиторий Enbeddrus результаты валидационных тестов через encodechka, вот какая табличка получилась.
نمایش همه...
🤔 3
Photo unavailableShow in Telegram
Собрал на коленке крохотный прототип системы MoDA, что расшифровывается как Mixture of dynamically connected adapters Данный фреймворк можно условно описать как Mixture of Experts (MoE) для бедных. Суть проекта в следующем: - у нас есть две небольшие модели, скажем на 7B: первая (router) - обычная function call модель, вторая (socket) - модель к которой на лету подключаются разные LoRA адаптеры - администратор заранее описывает то какие LoRA адаптеры будут использоваться в фале config.yml, какой формат у чата, что адаптер предлагает и когда его стоит использовать - далее пользователь делает запрос, он переадресуется роутеру, тот выбирает из списка LoRA адаптеров тот что лучше всего подходит для генерации ответа - происходит прерывание и демон подключает нужный адаптер к сокет модели - далее на вход модели с подключенным адаптером передаётся запрос пользователя и генерируется ответ - ответ добавляется в историю чата и отправляется пользователю В принципе я могу чуть дальше покопать в данном направлении, тут можно скажем не выбирать какую-то конкретную socket модель, а грузить ту что указана в адаптере и по завершению выгружать из памяти. Ещё можно попробовать обучить несколько специализированных адаптеров на разные темы. Можно доработать историю запросов, чтобы данные передавались обратно в роутер и он в свою очередь принимал решение нужно ли сделать ещё один function call. И уже по тому, что получилось ваять публикацию на Хабр, другой вопрос нужно ли это кому-то и не изобрёл ли я случайно велосипед которому десять лет в обед :)
نمایش همه...
17🔥 2
Всем привет! Вчера мне прислали небольшой датасет типа Parallel Corpora с парами русского и английского текста на тему GoLang, я его чутка почистил, сгенерировал через ChatGPT валидационные примеры и результат оформил в виде датасета. Далее запустил обучение модели и получился enbeddrus v0.2 Ссылки: - Датасет evilfreelancer/golang-en-ru на HuggingFace - Модель evilfreelancer/enbeddrus-v0.2 на HuggingFace Помимо этого я запушил на Ollama новый тег 0.2, а ещё две версии квантизации модели: v0.2-f16 и v0.2-q8_0 Благодарю пользователя с ником dsphere за помощь со сбором данных.
نمایش همه...
evilfreelancer/golang-en-ru · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍 7🏆 1
Photo unavailableShow in Telegram
Вчера решился таки сделать форк torchtune, точнее мне весь код не нужен, нужна только часть запуска скриптов, примеры рецептов обучения и готовых конфигураций, а ещё базовые шаблоны генерации датасетов. Проект ещё на уровне базового прототипа, но мне есть где подглядывать, спасибо инженерам из f**k. Так вот, начать мытарства над прототипом я решил с моделей, с которыми было моё первое знакомство с направлением обработки естественного языка (NLP), а именно семейства моделей ruGPT3 от Сбера. И в процессе экспериментов выяснил, что можно запускать инференс и обучение этих классических моделей со включенной flash attention... в общем теперь есть о чём подумать.
نمایش همه...
👍 4 2
Всем привет! Спешу поделиться моей новой публикацией "Enbeddrus — обучение независящей от языка эмбеддинг-модели" на Хабр о том как я обучал свою хитрую модель-эмбеддер на параллельном корпусе русских и английских текста. В ней вас ожидает разбор существующих решений, краткий рассказ про датасет который я собрал по ходу дела, про то как обучили модель сначала на Domain Adaptation и Parallel Corpora и потом понял, что одного Parallel Corpora будет достаточно. В общем желаю приятного прочтения! Ссылки: - Исходные коды на GitHub - Датасет evilfreelancer/opus-php-en-ru-cleaned - Модель evilfreelancer/enbeddrus-v0.1-domain обученная через Domain Adaptation, а потом ещё и через Parallel Corpora - Модель evilfreelancer/enbeddrus-v0.1 обученная только на Parallel Corpora - Веса evilfreelancer/enbeddrus GGUF версий моделей выгруженных на серверы Ollama
نمایش همه...
Enbeddrus — обучение независящей от языка эмбеддинг-модели

Приветствую, хабровчане! Сегодня я хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка (language agnostic) модель-эмбеддер, которая умеет работать с техническими...

👍 14
Возможно не все ещё видели эту призабавнейшую публикацию, но если в двух словах Docker Hub более недоступен с российских IP-адресов. То что нечто подобное случится я был уверен уже давно, но меня удивляет две вещи: что блокировку включили только сейчас, а ещё более странно, что это удивило так много народу. Пора уже понять, товарищи, что как раньше не будет, реальность изменилась и надо к новой реальности приспосабливаться. Но давайте быстро пробежимся по альтернативам которые у нас есть: - арендуем VPS сервер где-нибудь, поднимаем на нём например Sonartype Nexus (у меня кстати есть видеоролик об этом) и там делаем Docker Proxy как тут описано, который потом по этой инструкции настраиваем на своих тачках; - ещё можно настроить docker registry в режиме pull through cache; - GitLab Container Registry - данное решение входит в состав поставки GitLab и позволяет проекты расположенные на локальном GitLab собирать в контейнеры и складывать их там же где и исходники, прокси к сожалению не настроить, но как один из вариантов сойдёт; - Yandex Container Registry - один из сервисов инфраструктуры Yandex Cloud, к сожалению это решение заточенное под приватные облака, но можно сделать свой публичный регистри; - Cloud.ru (в девичестве Сбер Cloud) Artifact Registry - аналогичное яндексовскому решение, приватный регистри который можно сделать публичным; Кстати крайне любопытно, что такие большие игроки, такие как Сбер, Астра, VK, МТС или Яндекс до сих пор не предложили никакой альтернативы акромя решений которые заточены под их облачные платформы или являющиеся просто аналогами GitHub.
نمایش همه...
Docker hub перестал работать в России

При открытии сайта появляется надпись 403 Forbidden Since Docker is a US company, we must comply with US export control regulations. In an effort to comply with these, we now block all IP addresses...

👍 4🤔 3 2
Прочёл с утреца пост который вчера опубликовал Илья Гусев, у меня в целом схожие мысли, кто давно на меня подписан знает, что мой путь в OpenSource начался примерно 8 лет назад одновременно с этим начал вести стримы на Твиче и делал видеоролики на Ютубе, написал множество публикаций в своих блогах, на Хабре и на Дзене, но всё это создавалось беззаветно, из-за люблю к искусству, просто делал и всё. По моим более чем 100 проектам на GitHub можно проследить, как рос мой скил, как менялись мои вкусы и интересы, как всё глубже я изучил PHP, а после достижения пхпшного дао и множество других языков программирования, видно что начинал я со своих собственных велосипедов, а в последнее время всё чаще участвую в чужих проектах. Для меня публичная деятельность это возможность научиться чему-то новому так как когда я занимался фрилансом на изучение новых технологий просто не было времени, а на работе часто профессиональная деятельность завязана на сопровождение существующей инфраструктуры и изучать новое просто не входит в обязанности. Плюс мой вклад в OpenSource не раз выручал меня при прохождении разных интервью и поиске заказов и вместо того чтобы отвечать на пошлые вопросы про пупырчатую сортировку чёрно-белых деревянных дней я могу просто показать кусок кода который по нужной теме написал, и беседу уже веду я, а не мой визави. Плюс во время публичных дискуссий можно кидать ссылки на какие-то свои наработки и публикации, а ещё я часто переиспользую код из своих старых проектов, помимо этого OpenSource научил меня писать хорошую документацию и тестировать свои решения (как говорится в одном древнем меме документация и комментарии в коде это любовные письма самому себе из будущего), ведь часто проекты которые я публикую никому кроме меня не нужны и лежат в неизменном виде годами и если вдруг что-то понадобится можно через тесты, комментарии в коде и документацию быстро найти и исправить нужное. Короче, не стоит бояться делиться своими наработками, не стоит стесняться своих наработок, не стоит думать что вам удастся на них хоть что-то заработать, денег вас смогут принести, дай Торвальдс, только десятая часть из всех проектов да и то косвенно, а не напрямую :)
نمایش همه...
Старший Авгур

Мини-пост на ночь. Всю свою работу, за которую я не получаю деньги, я выкладываю в open source. Так было всегда. Вот, например, мои решения задачек с 1 курса универа 11-летней давности. Были бы и крестики-нолики на Паскале из 9 класса, но я их хостил на Bitbucket, и он их сожрал 😭 Для меня моей список репозиториев — это своеобразный фотоальбом с разными этапами и событиями из моей жизни. Я не вижу ни одной причины как-либо скрывать свой код/данные/модели. Люди, чего вы стесняетесь? HR всё равно туда не посмотрят, а для любого технического специалиста что-то всегда лучше, чем ничего. Какого бы качества не был код. Зато плюсов дофига: - Всегда можно вспомнить "о, я это писал" и скинуть ссылку. - Всегда есть что показать и рассказать. - Даже для любого самого мелкого проекта может найтись человек, которому это пригодится. Ко мне до сих пор приходят люди по поводу богом забытого rnnmorph. Но всё равно я регулярно вижу, что кто-то делает пет-проекты в приватных репозиториях. Зачем?..

👍 18🔥 6👨‍💻 2