То шо нейросети
На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
نمایش بیشتر337
مشترکین
اطلاعاتی وجود ندارد24 ساعت
اطلاعاتی وجود ندارد7 روز
+1930 روز
- مشترکین
- پوشش پست
- ER - نسبت تعامل
در حال بارگیری داده...
معدل نمو المشتركين
در حال بارگیری داده...
Небольшой «мертвый интернет»: чувак запилил обертку для LLM, которая будучи локальным веб сервером позволяет серфить выдуманные веб адреса и страницы.
GitHub
@toshoseti
LM Studio теперь поддерживает Flash Attention! Потому что вмерджили соответствующий кормит из llama.cpp
@toshoseti
Как и обещал, статья про Animated Gaussian Splatting, над которым я работал.
https://80.lv/articles/animated-gaussian-splatting-in-unreal-engine-5/
@toshoseti
Animated Gaussian Splatting in Unreal Engine 5
The research team at Temporal has demonstrated their recent progress in making Gaussian Splatting a viable technology for real-time volumetric video.
🔥 3👍 1🤝 1
Repost from КПД
KAN: Kolmogorov-Arnold Networks
[Статья][Код]
Введение
В основе всех (ну почти всех) современных архитектур лежит многослойный перцептрон (MLP) с обучаемыми матрицами, сдвигами и фиксированными активациями и некоторым механизмом агрегации для пространственных входов (свертки, attention, state-spaces, мамба, хуямба).
Теория гласит, что при некоторых предположениях на целевую функцию и функции активации в сети, таким образом достаточно большой сетью можно приблизить эту самую целевую функцию.
Возникает вопрос - оптимален ли такой подход по вычислениям / точности и нельзя ли изобрести нечто лучшее?
Метод
В данной статье авторы переосмысляют и в некотором смысле обобщают парадигму построения многослойной сети. В основе идеи лежит знаменитая теорема Колгмогорова-Арнольда, что непрерывную многомерную функцию на ограниченной области можно всегда представить в виде композиции функций от одной переменной.
Однако, при этом теорема не дает явного вида этих функций, которые могут оказаться сколько угодно плохими, потому не реализуема на практике.
В данной статье предлагают выучивать сами функции активации, параметризуя их некоторым образом. Каждое ребро между входным и выходным нейроном задается некоторой параметрической функцией довольно общего вида.
Традиционный MLP является одним из частных случаев предлагаемой парадигмы.
В оригинальной теореме перцептрон всего с одним скрытым слоем, но ничто не мешает технически настакать их побольше.
На практике KAN-слой реализуется как B-сплайн с residual connections, домноженный на константу:
\phi(x) = w(b(x) + spline(x)), где b(x) = silu(x) = x / (1 + e^{-x})
Оптимизация такого сплайна довольно нетрививальна, и для улучшения сходимости сплайн инициализирует так, чтобы быть близким к нулю в начальный момент времени, и сетка с узлами сплайна обновляется на лету.
При той же глубине и ширине в KAN-сети больше параметров, чем в классической MLP в G (G - размер сетки) раз, но мотивация работы в том, что KAN требуется меньшая ширина для достижения сопоставимого качества.
Далее авторы обосновывают, что KAN обладает значительно лучшей масштабируемостью в сравнении c MLP и обходит проклятие размерности за счет того, что представляет многомерную функцию в виде композиции одномерных, тем самым переводя задачу эффективно в низкоразмерное пространство и выводят степенной закон убывания функции потерь.
Для KAN в однослойной сети, аппроксимирующие функции могут быть очень плохими, но с ростом глубины, существуют все более гладкие комбинации, способные решать целевую задачу.
По ходу дела, для повышения выразительности сети можно добавлять дополнительные узлы в сплайн.❤ 6🔥 2
Комьюнити пытается понять, что за сеть gpt2-chatbot, подозревая что это новая версия ChatGPT-4
https://rentry.co/GPT2
@toshoseti
GPT-2?
Background
https://chat.lmsys.orgprovides blind-tested user benchmarks for LLMs (and some MLLMs). One of the models recently available is GPT2-chatbot, which demonstrates capability greatly beyond any GPT-2 model. It is available to for chatting with in "Direct Chat" and "Arena (B...
Repost from ds girl
всем привет! очень важное сообщение:
Проекту MTS AI х ВШЭ по генерации шуток с помощью LLM требуются люди с потрясающим чувством юмора (вы 🤭). У нас есть очень много шуточек на английском и русском языке, но не хватает рук, чтобы оценить, насколько они правда смешные. Поэтому если вы любите хихикать в телефончике, мы сделали специального бота с инструкцией для вас:
@joke_evaluator_bot
Каждый тык важен. Еще мы собираем немного обобщенных данных о разметчиках - возраст, пол, образование. Зачем? Это требование публикации. Результаты этого исследования можно будет потом почитать в открытой статье, мы ей обязательно со всеми поделимся, когда она будет опубликована 🤓
Важный момент: выбирайте английский только если уверены в своем английском (С1-С2) - есть много неочевидных шуток, где прям надо подумать и нужно хорошее знание лексики и иногда американских реалий. Если шутка непонятная, то можно ее скипнуть (скоро появится кнопка). Русского языка это тоже касается 🙂
Мы очень старались чистить датасет от токсичности, но если вы увидите что-то хотя бы отдаленно оскорбительно хоть для какой-то группы людей, сразу тыкайте 1 (даже если шутка смешная 🥺)
по всем вопросам и предложениям писать @incredaria !!
❤ 2
LLama3 LLava GGUF
🤗HF
@toshoseti
xtuner/llava-llama-3-8b-v1_1-gguf · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.