Pavel Zloi

Канал простого программиста, рассказываю про ИТ, Linux, AI, ChatGPT, Docker и тд. Отправить донат: https://pay.cloudtips.ru/p/937f48ac Исходники моих проектов: https://github.com/EvilFreelancer Где меня искать: https://dzen.ru/a/ZGI0ytgNQUkpkIME

نمایش بیشتر

روسيا295 372روسی310 093فناوری و برنامه‌ها40 149

پست‌های تبلیغاتی

716

مشترکین

-124 ساعت

+37 روز

+2030 روز

430

نمایش های پست

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد48 ساعت

60.06%

نرخ مشارکت

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد48 ساعت

یادکردها

اطلاعاتی وجود ندارد7 روز

اطلاعاتی وجود ندارد30 روز

اطلاعاتی وجود ندارد

پست های در روز

~ 15

واکنش ها

~ 39

نظرات

~ 20

بازنشرها

مشترکین
پوشش پست
ER - نسبت تعامل

در حال بارگیری داده...

Привет! Сегодня мне в пришло письмо из поднебесной на китайском, оно по какой-то причине попало в спам, но тема в нём изложенная крайне любопытна. Короче автор письма рекламировал свою книгу "Деконструкция больших языковых моделей: от линейной регрессии к общему искусственному интеллекту (解构大语言模型：从线性回归到通用人工智能)" и вот этот репозиторий: https://github.com/GenTang/regression2chatgpt Если кратко, то автор в книге проходит весь путь от простых регрессионных моделей, до простеньких БЯМ, примеры кода и комментарии прилагаются, как я понял этот проект что-то типа Linux From Scratch, только про LLM.

نمایش همه...

GitHub - GenTang/regression2chatgpt: 《解构大语言模型：从线性回归到通用人工智能》配套代码

《解构大语言模型：从线性回归到通用人工智能》配套代码. Contribute to GenTang/regression2chatgpt development by creating an account on GitHub.

🔥 13👍 2

Всем привет! Хочу поделиться интересными новостями, которые произошли со мной на поприще нейросетей за прошлую неделю. Неудачная попытка отправить научную работу Всю прошлую неделю по вечерам я писал научную работу на тему классификации при помощи языковых моделей (папиру надо было отправить в субботу, чтобы получить фидбэке), но к сожалению я был очень расстроен, когда оказалось, что подтверждение регистрации на сайте OpenReviews для ноунеймов без универа, навроде меня, занимает две недели с момента регистрации. Ну и плюс мою работу так и так бы отклонили, ведь она не похожа ни на что из того что там обычно публикуют (в моей работе есть подробные объяснения технологии и нет формул, плюс у меня скорее исследование о применении уже существующих решений, а не разработка новых). Но, неудача это тоже результат, в следующий раз буду умнее и подготовлюсь получше :) Скрипты обучения моделей Не отпускаю из головы идею написания проекта по обучению больших языковых моделей, да я знаю, что есть saiga/rulm, torchtune, hivemind и прочие крутые проекты, но мне у них у всех есть "фатальные недостатки", к примеру лично моя гордость это идея различных стратегий обрезки чатов, пока что реализовал только last_message_by_assistant, в планах добавить ещё стратегию из saiga (последнее сообщение без привязки к тому был ли это assistant или user), а ещё посмотреть что там у torchtune (вроде была обрезка по количеству токенов no matter what). Вторая причина - модели при обучении пытаются отгадать последние несколько токенов (даже если это сообщение, которое отправил пользователь), а я хочу сделать такую loss функцию, которая будет обучать модель генерировать ответ assistant (поэтому мне и нужна была хитрая стратегия фильтрации). Третья - сценарии обучения предлагают обучать модели типа function call через костыли, а мне хочется специализированный формат датасетета конкретно под эту задачу сделать. Но пока мой проект ещё на стадии пре-альфа MVP. Начал перебираться на GitFlic Посмотрел я значит на всякие интересные новости и решил, что похоже пора на всякий случай забэкапить все мои топовые проекты с GitHub на отечественную площадку GitFlic, из недостатков данной площадки - невозможность импорта проектов оптом, поэтому приходится вручную каждый проектик один за одним переносить, но самое важное уже скопировал. В планах Допиливать научную работу, надо больше математики и тестов, плюс обучить свою модель, сравнить результаты, ну короче как обычно. Кстати, вроде были какие-то конкурсы научных работ для начинающих учёных, надо будет изучить этот момент и посмотреть получится ли у меня принять участие где-нибудь, может грант получу да вторую видяшку куплю наконец. Допилить скрипты обучения моделей, в целом у меня уже готова подсистема генерации датасетов в формате чата, и читалка конфигурации из yaml конфига, нужно ещё сделать два сценария обучения моделей: simple device и multigpu режим через YaFSDP, а потом уже смотреть что делать дальше. PS. Всем продуктивной рабочей недели!

نمایش همه...

🔥 9👍 2

Всем привет! Прочёл сегодня в блоге OpenAI занятную новость про то, что они приняли отставного генерала из АНБ, который будет советовать всей команде как сделать платформу безопаснее и защитить собранные на серверах OpenAI от утечек, комичнее всего то, что это новость в категории блога под названием Safety & Alignment. В сочетании с другими новостями, которые исходят от компании OpenAI в последнее время есть мнение, что пора уже готовиться к тому, что даже обходные пути перестанут работать и придётся переезжать на отечественные аналоги хотим мы этого или нет.

نمایش همه...

OpenAI appoints Retired U.S. Army General Paul M. Nakasone to Board of Directors

Nakasone brings cybersecurity experience to growing Board of Directors; will join the Board’s Safety and Security Committee

👍 2🤬 1🤷 1

Любопытнейшую новость прочёл, о том что Яндекс выпустили в OpenSource библиотеку для распределённого обучения моделей, пишут что YaFSDP в среднем на 20% быстрее чем классический FSDP, который используют для акселлерации обучения. Короче неплохая тема которую я пожалуй попробую в моём хобби проектике на базе Saiga и TorchTune для обучения моделек, который я тизерил чуть раньше.

نمایش همه...

Хабр / ML & AI

Яндекс открывает YaFSDP — инструмент для ускорения обучения больших языковых моделей и сокращения расходов на GPU Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей. В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них. Читать далее #яндекс #языковые_модели #gpu #опенсорс_яндекса #open_source #llm #машинное_обучение #ml | @habr_ai

Photo unavailableShow in Telegram

Добавил в репозиторий Enbeddrus результаты валидационных тестов через encodechka, вот какая табличка получилась.

نمایش همه...

🤔 3

Photo unavailableShow in Telegram

Собрал на коленке крохотный прототип системы MoDA, что расшифровывается как Mixture of dynamically connected adapters Данный фреймворк можно условно описать как Mixture of Experts (MoE) для бедных. Суть проекта в следующем: - у нас есть две небольшие модели, скажем на 7B: первая (router) - обычная function call модель, вторая (socket) - модель к которой на лету подключаются разные LoRA адаптеры - администратор заранее описывает то какие LoRA адаптеры будут использоваться в фале config.yml, какой формат у чата, что адаптер предлагает и когда его стоит использовать - далее пользователь делает запрос, он переадресуется роутеру, тот выбирает из списка LoRA адаптеров тот что лучше всего подходит для генерации ответа - происходит прерывание и демон подключает нужный адаптер к сокет модели - далее на вход модели с подключенным адаптером передаётся запрос пользователя и генерируется ответ - ответ добавляется в историю чата и отправляется пользователю В принципе я могу чуть дальше покопать в данном направлении, тут можно скажем не выбирать какую-то конкретную socket модель, а грузить ту что указана в адаптере и по завершению выгружать из памяти. Ещё можно попробовать обучить несколько специализированных адаптеров на разные темы. Можно доработать историю запросов, чтобы данные передавались обратно в роутер и он в свою очередь принимал решение нужно ли сделать ещё один function call. И уже по тому, что получилось ваять публикацию на Хабр, другой вопрос нужно ли это кому-то и не изобрёл ли я случайно велосипед которому десять лет в обед :)

نمایش همه...

❤ 18🔥 2

Всем привет! Вчера мне прислали небольшой датасет типа Parallel Corpora с парами русского и английского текста на тему GoLang, я его чутка почистил, сгенерировал через ChatGPT валидационные примеры и результат оформил в виде датасета. Далее запустил обучение модели и получился enbeddrus v0.2 Ссылки: - Датасет evilfreelancer/golang-en-ru на HuggingFace - Модель evilfreelancer/enbeddrus-v0.2 на HuggingFace Помимо этого я запушил на Ollama новый тег 0.2, а ещё две версии квантизации модели: v0.2-f16 и v0.2-q8_0 Благодарю пользователя с ником dsphere за помощь со сбором данных.

نمایش همه...

evilfreelancer/golang-en-ru · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍 8🏆 1

Photo unavailableShow in Telegram

Вчера решился таки сделать форк torchtune, точнее мне весь код не нужен, нужна только часть запуска скриптов, примеры рецептов обучения и готовых конфигураций, а ещё базовые шаблоны генерации датасетов. Проект ещё на уровне базового прототипа, но мне есть где подглядывать, спасибо инженерам из f**k. Так вот, начать мытарства над прототипом я решил с моделей, с которыми было моё первое знакомство с направлением обработки естественного языка (NLP), а именно семейства моделей ruGPT3 от Сбера. И в процессе экспериментов выяснил, что можно запускать инференс и обучение этих классических моделей со включенной flash attention... в общем теперь есть о чём подумать.

نمایش همه...

👍 4❤ 2

Всем привет! Спешу поделиться моей новой публикацией "Enbeddrus — обучение независящей от языка эмбеддинг-модели" на Хабр о том как я обучал свою хитрую модель-эмбеддер на параллельном корпусе русских и английских текста. В ней вас ожидает разбор существующих решений, краткий рассказ про датасет который я собрал по ходу дела, про то как обучили модель сначала на Domain Adaptation и Parallel Corpora и потом понял, что одного Parallel Corpora будет достаточно. В общем желаю приятного прочтения! Ссылки: - Исходные коды на GitHub - Датасет evilfreelancer/opus-php-en-ru-cleaned - Модель evilfreelancer/enbeddrus-v0.1-domain обученная через Domain Adaptation, а потом ещё и через Parallel Corpora - Модель evilfreelancer/enbeddrus-v0.1 обученная только на Parallel Corpora - Веса evilfreelancer/enbeddrus GGUF версий моделей выгруженных на серверы Ollama

نمایش همه...

Enbeddrus — обучение независящей от языка эмбеддинг-модели

Приветствую, хабровчане! Сегодня я хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка (language agnostic) модель-эмбеддер, которая умеет работать с техническими...

👍 15

Возможно не все ещё видели эту призабавнейшую публикацию, но если в двух словах Docker Hub более недоступен с российских IP-адресов. То что нечто подобное случится я был уверен уже давно, но меня удивляет две вещи: что блокировку включили только сейчас, а ещё более странно, что это удивило так много народу. Пора уже понять, товарищи, что как раньше не будет, реальность изменилась и надо к новой реальности приспосабливаться. Но давайте быстро пробежимся по альтернативам которые у нас есть: - арендуем VPS сервер где-нибудь, поднимаем на нём например Sonartype Nexus (у меня кстати есть видеоролик об этом) и там делаем Docker Proxy как тут описано, который потом по этой инструкции настраиваем на своих тачках; - ещё можно настроить docker registry в режиме pull through cache; - GitLab Container Registry - данное решение входит в состав поставки GitLab и позволяет проекты расположенные на локальном GitLab собирать в контейнеры и складывать их там же где и исходники, прокси к сожалению не настроить, но как один из вариантов сойдёт; - Yandex Container Registry - один из сервисов инфраструктуры Yandex Cloud, к сожалению это решение заточенное под приватные облака, но можно сделать свой публичный регистри; - Cloud.ru (в девичестве Сбер Cloud) Artifact Registry - аналогичное яндексовскому решение, приватный регистри который можно сделать публичным; Кстати крайне любопытно, что такие большие игроки, такие как Сбер, Астра, VK, МТС или Яндекс до сих пор не предложили никакой альтернативы акромя решений которые заточены под их облачные платформы или являющиеся просто аналогами GitHub.

نمایش همه...

Docker hub перестал работать в России

При открытии сайта появляется надпись 403 Forbidden Since Docker is a US company, we must comply with US export control regulations. In an effort to comply with these, we now block all IP addresses...

👍 4🤔 3❤ 2

یک طرح متفاوت انتخاب کنید

طرح فعلی شما تنها برای 5 کانال تجزیه و تحلیل را مجاز می کند. برای بیشتر، لطفا یک طرح دیگر انتخاب کنید.