То шо нейросети

@toshoseti

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

نمایش بیشتر

روسيا365 636روسی419 385فناوری و برنامه‌ها42 933

پست‌های تبلیغاتی

337

مشترکین

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد7 روز

+1930 روز

284

نمایش های پست

~ 12124 ساعت

~ 14448 ساعت

85.29%

نرخ مشارکت

36.3%24 ساعت

43.2%48 ساعت

یادکردها

اطلاعاتی وجود ندارد7 روز

اطلاعاتی وجود ندارد30 روز

~ 2

پست های در روز

~ 6

واکنش ها

~ 4

نظرات

~ 4

بازنشرها

مشترکین
پوشش پست
ER - نسبت تعامل

در حال بارگیری داده...

Небольшой «мертвый интернет»: чувак запилил обертку для LLM, которая будучи локальным веб сервером позволяет серфить выдуманные веб адреса и страницы. GitHub @toshoseti

نمایش همه...

LM Studio теперь поддерживает Flash Attention! Потому что вмерджили соответствующий кормит из llama.cpp @toshoseti

نمایش همه...

Siyi Mao рисует в VR Леонардо да Винчи, рисующего Мону Лизу. @toshoseti

نمایش همه...

❤ 2🔥 2

Как и обещал, статья про Animated Gaussian Splatting, над которым я работал. https://80.lv/articles/animated-gaussian-splatting-in-unreal-engine-5/ @toshoseti

نمایش همه...

Animated Gaussian Splatting in Unreal Engine 5

The research team at Temporal has demonstrated their recent progress in making Gaussian Splatting a viable technology for real-time volumetric video.

🔥 3👍 1🤝 1

Repost from КПД

KAN: Kolmogorov-Arnold Networks [Статья][Код] Введение В основе всех (ну почти всех) современных архитектур лежит многослойный перцептрон (MLP) с обучаемыми матрицами, сдвигами и фиксированными активациями и некоторым механизмом агрегации для пространственных входов (свертки, attention, state-spaces, мамба, хуямба). Теория гласит, что при некоторых предположениях на целевую функцию и функции активации в сети, таким образом достаточно большой сетью можно приблизить эту самую целевую функцию. Возникает вопрос - оптимален ли такой подход по вычислениям / точности и нельзя ли изобрести нечто лучшее? Метод В данной статье авторы переосмысляют и в некотором смысле обобщают парадигму построения многослойной сети. В основе идеи лежит знаменитая теорема Колгмогорова-Арнольда, что непрерывную многомерную функцию на ограниченной области можно всегда представить в виде композиции функций от одной переменной. Однако, при этом теорема не дает явного вида этих функций, которые могут оказаться сколько угодно плохими, потому не реализуема на практике. В данной статье предлагают выучивать сами функции активации, параметризуя их некоторым образом. Каждое ребро между входным и выходным нейроном задается некоторой параметрической функцией довольно общего вида. Традиционный MLP является одним из частных случаев предлагаемой парадигмы. В оригинальной теореме перцептрон всего с одним скрытым слоем, но ничто не мешает технически настакать их побольше. На практике KAN-слой реализуется как B-сплайн с residual connections, домноженный на константу: \phi(x) = w(b(x) + spline(x)), где b(x) = silu(x) = x / (1 + e^{-x}) Оптимизация такого сплайна довольно нетрививальна, и для улучшения сходимости сплайн инициализирует так, чтобы быть близким к нулю в начальный момент времени, и сетка с узлами сплайна обновляется на лету. При той же глубине и ширине в KAN-сети больше параметров, чем в классической MLP в G (G - размер сетки) раз, но мотивация работы в том, что KAN требуется меньшая ширина для достижения сопоставимого качества. Далее авторы обосновывают, что KAN обладает значительно лучшей масштабируемостью в сравнении c MLP и обходит проклятие размерности за счет того, что представляет многомерную функцию в виде композиции одномерных, тем самым переводя задачу эффективно в низкоразмерное пространство и выводят степенной закон убывания функции потерь. Для KAN в однослойной сети, аппроксимирующие функции могут быть очень плохими, но с ростом глубины, существуют все более гладкие комбинации, способные решать целевую задачу. По ходу дела, для повышения выразительности сети можно добавлять дополнительные узлы в сплайн.

نمایش همه...

❤ 6🔥 2

Repost from XOR

40 лет развития Boston Dynamics за полторы минуты. @xor_journal

نمایش همه...

🔥 4

Комьюнити пытается понять, что за сеть gpt2-chatbot, подозревая что это новая версия ChatGPT-4 https://rentry.co/GPT2 @toshoseti

نمایش همه...

GPT-2?

Background

https://chat.lmsys.org

provides blind-tested user benchmarks for LLMs (and some MLLMs). One of the models recently available is GPT2-chatbot, which demonstrates capability greatly beyond any GPT-2 model. It is available to for chatting with in "Direct Chat" and "Arena (B...

Repost from ds girl

всем привет! очень важное сообщение: Проекту MTS AI х ВШЭ по генерации шуток с помощью LLM требуются люди с потрясающим чувством юмора (вы 🤭). У нас есть очень много шуточек на английском и русском языке, но не хватает рук, чтобы оценить, насколько они правда смешные. Поэтому если вы любите хихикать в телефончике, мы сделали специального бота с инструкцией для вас: @joke_evaluator_bot Каждый тык важен. Еще мы собираем немного обобщенных данных о разметчиках - возраст, пол, образование. Зачем? Это требование публикации. Результаты этого исследования можно будет потом почитать в открытой статье, мы ей обязательно со всеми поделимся, когда она будет опубликована 🤓 Важный момент: выбирайте английский только если уверены в своем английском (С1-С2) - есть много неочевидных шуток, где прям надо подумать и нужно хорошее знание лексики и иногда американских реалий. Если шутка непонятная, то можно ее скипнуть (скоро появится кнопка). Русского языка это тоже касается 🙂 Мы очень старались чистить датасет от токсичности, но если вы увидите что-то хотя бы отдаленно оскорбительно хоть для какой-то группы людей, сразу тыкайте 1 (даже если шутка смешная 🥺) по всем вопросам и предложениям писать @incredaria !!

نمایش همه...

❤ 2

LLama3 LLava GGUF 🤗HF @toshoseti

نمایش همه...

xtuner/llava-llama-3-8b-v1_1-gguf · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.