cookie

نحن نستخدم ملفات تعريف الارتباط لتحسين تجربة التصفح الخاصة بك. بالنقر على "قبول الكل"، أنت توافق على استخدام ملفات تعريف الارتباط.

avatar

MLE шатает Produnction

Творю черную магию с нейронными сетями в Yandex Рассказываю про различные инструменты разработки, про курьезные случаи и делюсь своим мнением об этом вашем IT. Автор: @toshiksvg

إظهار المزيد
مشاركات الإعلانات
1 264
المشتركون
-324 ساعات
+37 أيام
+1830 أيام

جاري تحميل البيانات...

معدل نمو المشترك

جاري تحميل البيانات...

Surya Каждый раз, когда мне говорят, что нечего делать в качестве pet-проекта, уже и так всё сделано, я отвечаю — сделайте то, что есть, но по другому, мб у вас получится круто 😍? И да, иногда получается! Я тут наткнулся в твиттере на одну реализацию OCR c поддержкой как обычных, так и некоторых advanced фичей 🤔: — Text layout; — Text ordering (что, кстати, очень полезно для формирование данных для LLM и VLM). Я слышал про этот проект ещё в феврале, но в нём как будто бы в нём не было последней фичи, которая прям зацепила взгляд, потому что мало где это сделано хорошо. Автор сразу пишет, что работает на документориентированных картинках, так что работу на world-wide доменах не ждите 😀. Код написан так себе 👨‍🦳, но очень удивляет, как человек построил за полгода (даже меньше), неплохой такой baseline OCR! А baseline, как вы знаете, всегда так себе пишется. А потом еще продом становится, но это совсем другая история. На выходных постараюсь потрогать на своей рабочей станции, вы можете уже сейчас: https://github.com/VikParuchuri/surya/tree/master
إظهار الكل...
GitHub - VikParuchuri/surya: OCR, layout analysis, reading order, line detection in 90+ languages

OCR, layout analysis, reading order, line detection in 90+ languages - VikParuchuri/surya

🌭 2🔥 1
Photo unavailableShow in Telegram
😁 1
Про мультимодальность Вокруг сейчас хайпуют LLMки, но не только ими мир един. Последние крупные презентации OpenAI и прочих компаний про то, как они пытаются прикрутить к LLMкам другие модальности: звук, изображения, видео, сигналы и всё, что придёт в голову 😀. Я почти каждый день задаюсь вопросом: как оно работает? Ну т.е. окей, T9 нормально обучили — LLMку получили, но как это всё дело учитывает другие модальности 🤔? Мне приходит на ум концепция, что язык — это универсальный инструмент для передачи информации. Да, с помощью языка кодировать любой сигнал получится супер долго и объемно, но всё же возможно. Нам никто не запрещает запустить триллионы LLMок, чтобы они генерировали 0 и 1. Да, это бессмысленно, но возможно 👨‍🦳. Всё, что нарисовано — человек может описать. Всё, что звучит — человек может описать. И так далее. Таким образом, получается что обучая LLMки просто на корпусах текста, мы учим их каким-то образом понимать этот мир 😊. Складывается ощущение, что наш мозг устроен похожим образом. Мы набираем в мозг огромную базу: картинок, звуков, ощущений, эмоций, запахов и прочих сигналов. Но всё это воедино связывается языком. Мы не передаем друг другу картинки, наши тактильные ощущения, и т.д. Звук является лишь способом кодировки языка, ровно как и картинки в случае языка жестов. Для нас ничего не значат звуки от произнесения "шоколадка" пока мы не займемся патерн матчингом с инфой из внутренней БД. И это удивительно 🤔! Ну и важно понимать, что язык — это форма сигнала. В реальности в нашем мозгу нет никаких слов, ровно как и в слоях атеншена — там просто сигналы 🥴. Обучая LLMку языку, мы наделяем её знаниями об этом мире. А дальше надо научить её взаимодействовать с этими самыми БД. То, как именно кладется туда информация из разных истоников — это вопрос хороший, которым как раз-таки как будто занимаются все, кто строит мультимодальные сетки 😍. Опять же, мои рассуждения ничем не подкреплены, кроме внутренней интуиции. Так что можете считать в порядке бреда сумасшедшего 👨‍⚕️!
إظهار الكل...
👍 6🤯 5 2🤝 1
Древнейших технологий пост Уже прошло, пожалуй, 2 года с написания этого поста и всё могло поменяться как в лучшую, так и худшую сторону. Но пройти мимо не смог, как статья промелькнула в ленте X 😀. Ребята из компании M вместе с Google заколлабились для того, чтобы посмотреть оптимальные стратегии распределённого обучения для больших моделей и не очень. Оказывается всё не так просто, и про всё это можно прочитать в посте 😊. Вообще, я восхищаюсь людьми, которые оптимизирует перф. Ну это правда великое дело. Нужно держать и знать очень многое, чтобы грамотно подобрать конфигурацию системы. Ну вот например:
All experiments show a considerable throughput dip when switching from 8 GPUs to 16 GPUs. This is because the cross-machine communication needs to travel through 100 Gbps Ethernet for 16 GPUs
Ну это ничоси, еще и про сеть нужно знать 🤔! А еще скорее всего, про шину памяти, про регистры процессора и про кучу разных штук, вообще никак не связанных с GPU, но влияющих на процесс. И это правда работа очень большой команды 😍. Здорово, когда люди публикуют такие интересные инсайты, потому что не часто такое встречается, но часто в практике такое нужно.
إظهار الكل...
🔥 9
Photo unavailableShow in Telegram
👍 9😁 3
Repost from AbstractDL
Photo unavailableShow in Telegram
Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось! Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается. Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне. P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность. Статья, GitHub
إظهار الكل...
🤯 9🔥 5🎉 1
Джун-рыбак Сидел я дома и собирал в свой рыбаловный ящик (который давеча заказал) все рыбаловные снасти, также купленные недавно 👨‍🦳. И тут я подумал, что между рыбаками и разработчиками есть чего-то общее. Ну так, в порядке бреда. Итак, наш новоиспеченный джун-девелопер. Установит себе кучу софта, который не будет использовать, налепит самых продвинутых инструментов, которыми не знает, как пользоваться. Зато выглядит капец как круто, хацкеры из кино держат его пиво 😀. Естественно, чтобы поменять строку в большом файле, он напишет код на каком-нибудь модном языке и потратит несколько часов на отладку. А потом оно еще возможно и не заработает из-за какого-нибудь OOM 😊. Джун-рыбак. Купит себе ящик откровенного барахла, которое посоветовали в интернете мега ультовые рыбаки-продажники 💸. Естественно купит самую дубовую леску, крючки, которые погнутся при первой же серьезной поклёвке. При этом компании, производившие это всё дело, очень на хайпе, выглядит всё очень дико-дорого. И катушку сразу человечек купит себе какую-нибудь мультипликаторную, ибо видел в интернете, что на таких снастях огромных карпов и марлинов ловят. При этом естественно пойдем ловить в лучшем случае карасиков (против ничего не имею, хорошая рыба), а получится водоросли 👨‍🦳. И вот интересно же, что всё это кажется дико неуклюже и глупо, мол надо поступать разумнее и т.д. Но вот именно так и получаешь свой опыт. Когда наступаешь сам на эти грабли. Когда получаешь бороду на своей удочке, или утечку памяти в коде. При этом интересно, как много у человека энергии, чтобы все эти дела проворачивать и не отчаиваться. Люблю быть джуном 🤨. Джуном-рыбаком.
إظهار الكل...
14🔥 3👍 2🤡 1
Photo unavailableShow in Telegram
Я иногда пользуюсь каналом как заметками, так вот. Мнемоническое правило про лицензии
إظهار الكل...
🤝 15🔥 2
Кажется, свершилось: https://pypi.org/project/agi/ Делитесь, как оно вам?
إظهار الكل...
agi

AGI with a convenient pip install

😁 13🐳 2🤯 1👀 1
Photo unavailableShow in Telegram
Простите, просто не могу не поделиться
إظهار الكل...
🥴 22😁 6👏 2🤣 1