cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

То шо нейросети

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

نمایش بیشتر
پست‌های تبلیغاتی
337
مشترکین
اطلاعاتی وجود ندارد24 ساعت
اطلاعاتی وجود ندارد7 روز
+1930 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

Небольшой «мертвый интернет»: чувак запилил обертку для LLM, которая будучи локальным веб сервером позволяет серфить выдуманные веб адреса и страницы. GitHub @toshoseti
نمایش همه...
LM Studio теперь поддерживает Flash Attention! Потому что вмерджили соответствующий кормит из llama.cpp @toshoseti
نمایش همه...
Siyi Mao рисует в VR Леонардо да Винчи, рисующего Мону Лизу. @toshoseti
نمایش همه...
2🔥 2
Как и обещал, статья про Animated Gaussian Splatting, над которым я работал. https://80.lv/articles/animated-gaussian-splatting-in-unreal-engine-5/ @toshoseti
نمایش همه...
Animated Gaussian Splatting in Unreal Engine 5

The research team at Temporal has demonstrated their recent progress in making Gaussian Splatting a viable technology for real-time volumetric video.

🔥 3👍 1🤝 1
Repost from КПД
KAN: Kolmogorov-Arnold Networks [Статья][Код] Введение В основе всех (ну почти всех) современных архитектур лежит многослойный перцептрон (MLP) с обучаемыми матрицами, сдвигами и фиксированными активациями и некоторым механизмом агрегации для пространственных входов (свертки, attention, state-spaces, мамба, хуямба). Теория гласит, что при некоторых предположениях на целевую функцию и функции активации в сети, таким образом достаточно большой сетью можно приблизить эту самую целевую функцию. Возникает вопрос - оптимален ли такой подход по вычислениям / точности и нельзя ли изобрести нечто лучшее? Метод В данной статье авторы переосмысляют и в некотором смысле обобщают парадигму построения многослойной сети. В основе идеи лежит знаменитая теорема Колгмогорова-Арнольда, что непрерывную многомерную функцию на ограниченной области можно всегда представить в виде композиции функций от одной переменной. Однако, при этом теорема не дает явного вида этих функций, которые могут оказаться сколько угодно плохими, потому не реализуема на практике. В данной статье предлагают выучивать сами функции активации, параметризуя их некоторым образом. Каждое ребро между входным и выходным нейроном задается некоторой параметрической функцией довольно общего вида. Традиционный MLP является одним из частных случаев предлагаемой парадигмы. В оригинальной теореме перцептрон всего с одним скрытым слоем, но ничто не мешает технически настакать их побольше. На практике KAN-слой реализуется как B-сплайн с residual connections, домноженный на константу: \phi(x) = w(b(x) + spline(x)), где b(x) = silu(x) = x / (1 + e^{-x}) Оптимизация такого сплайна довольно нетрививальна, и для улучшения сходимости сплайн инициализирует так, чтобы быть близким к нулю в начальный момент времени, и сетка с узлами сплайна обновляется на лету. При той же глубине и ширине в KAN-сети больше параметров, чем в классической MLP в G (G - размер сетки) раз, но мотивация работы в том, что KAN требуется меньшая ширина для достижения сопоставимого качества. Далее авторы обосновывают, что KAN обладает значительно лучшей масштабируемостью в сравнении c MLP и обходит проклятие размерности за счет того, что представляет многомерную функцию в виде композиции одномерных, тем самым переводя задачу эффективно в низкоразмерное пространство и выводят степенной закон убывания функции потерь. Для KAN в однослойной сети, аппроксимирующие функции могут быть очень плохими, но с ростом глубины, существуют все более гладкие комбинации, способные решать целевую задачу. По ходу дела, для повышения выразительности сети можно добавлять дополнительные узлы в сплайн.
نمایش همه...
6🔥 2
Repost from XOR
40 лет развития Boston Dynamics за полторы минуты. @xor_journal
نمایش همه...
🔥 4
Комьюнити пытается понять, что за сеть gpt2-chatbot, подозревая что это новая версия ChatGPT-4 https://rentry.co/GPT2 @toshoseti
نمایش همه...
GPT-2?

Background

https://chat.lmsys.org

provides blind-tested user benchmarks for LLMs (and some MLLMs). One of the models recently available is GPT2-chatbot, which demonstrates capability greatly beyond any GPT-2 model. It is available to for chatting with in "Direct Chat" and "Arena (B...

Repost from ds girl
всем привет! очень важное сообщение: Проекту MTS AI х ВШЭ по генерации шуток с помощью LLM требуются люди с потрясающим чувством юмора (вы 🤭). У нас есть очень много шуточек на английском и русском языке, но не хватает рук, чтобы оценить, насколько они правда смешные. Поэтому если вы любите хихикать в телефончике, мы сделали специального бота с инструкцией для вас: @joke_evaluator_bot Каждый тык важен. Еще мы собираем немного обобщенных данных о разметчиках - возраст, пол, образование. Зачем? Это требование публикации. Результаты этого исследования можно будет потом почитать в открытой статье, мы ей обязательно со всеми поделимся, когда она будет опубликована 🤓 Важный момент: выбирайте английский только если уверены в своем английском (С1-С2) - есть много неочевидных шуток, где прям надо подумать и нужно хорошее знание лексики и иногда американских реалий. Если шутка непонятная, то можно ее скипнуть (скоро появится кнопка). Русского языка это тоже касается 🙂 Мы очень старались чистить датасет от токсичности, но если вы увидите что-то хотя бы отдаленно оскорбительно хоть для какой-то группы людей, сразу тыкайте 1 (даже если шутка смешная 🥺) по всем вопросам и предложениям писать @incredaria !!
نمایش همه...
2
LLama3 LLava GGUF 🤗HF @toshoseti
نمایش همه...
xtuner/llava-llama-3-8b-v1_1-gguf · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.