Адель и МЛь

@adel_and_ml

Об ИИ и жизни в Нидерландах @AdelZakirov

Russia350 641Russian367 212Business73 467

Advertising posts

481

Subscribers

No data24 hours

+17 days

+1230 days

408

Post views

~ 18324 hours

~ 21248 hours

84.82%

Engagement rate

38.0%24 hours

44.1%48 hours

No data

Mentions

No data7 days

No data30 days

No data

Posts per day

~ 13

Reactions

~ 4

Comments

~ 9

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

Photo unavailableShow in Telegram

Пока Илон Маск строит кластер на 100k Nvidia Н100 для тренировки будущих версий грока и селфдрайвинга, OpenAI строят кластер на 100k GB200. Запуск планируется на 2025 год. https://www.theinformation.com/articles/musks-xai-and-oracle-end-talks-on-a-server-deal?utm_campaign=article_email&utm_content=article-13188&utm_medium=email&utm_source=sg&rc=c48ukx

Show all...

🤯 10

Photo unavailableShow in Telegram

😁 17🔥 3🤯 1

Photo unavailableShow in Telegram

Brain2GAN или учимся читать мысли обезьян. Занятная статья из университета Nijmegen в Нидерландах. Макакам с кортикальными имплантами показывали картинки (сгенерированные нейросетью) и считывали сигналы из мозга, а потом реконструировали по этим сигналам исходное изображение. На приложенной картинке сверху оригинальное изображение, снизу - восстановленное из мозгового сигнала. Ни одна макака не пострадала, за хорошую концентрацию на картинке им давали апельсиновый сок. 🐵 Немного технических подробностей Обучали следующим образом: 1. Заделали StyleGAN для генерации изображений 2. Показывали сгенерированные этим ганом изображения макакам и собирали сигналы с имплантов 3. Обучили декодер маппить сигналы импланта на латентные векторы гана Дальше показывали макакам тестовые изображения, считывали сигнал, предсказывали декодером латентный вектор гана и делали реконструкцию картинки ганом, как это делается обычно. Получилось довольно неплохо. Можно нафантазировать миллион приложений такому чтению мыслей, но пока это всё в зачаточном состоянии, конечно. Статья P.S. Есть код в открытом доступе, но если у вас нет макак с имплантами (а у вас их нет🤨), то и от кода толку мало.

Show all...

🔥 7👍 1❤ 1🤯 1

00:15

Video unavailableShow in Telegram

ElevenLabs представили Voice Isolator - удаление шума с аудио, чтобы остался только голос. Пробовать бесплатно тут https://elevenlabs.io/voice-isolator

Show all...

IMG_2171.MP45.09 MB

🤯 8👍 6

Photo unavailableShow in Telegram

😁 20🌚 3❤ 1

00:05
Video unavailableShow in Telegram
00:05
Video unavailableShow in Telegram

В Luma появилась возможность создавать видео по первому и последнему кадру. Автор

Show all...

IMG_2124.MP41.41 MB

IMG_2123.MP49.26 KB

😁 12❤ 1

00:05
Video unavailableShow in Telegram
00:05
Video unavailableShow in Telegram

В Luma появилась возможность создавать видео по первому и последнему кадру. Автор

Show all...

IMG_2123.MP49.26 KB

IMG_2124.MP41.41 MB

Adam-mini: Use Fewer Learning Rates To Gain More LLM - жирные (не фэтшейминг!). Хочется учить их быстрее и эффективнее. С одной стороны можно скейлить и улучшать железо, данные, сами модели. С другой - можно потюнить сам training design. Например, можно поковырять оптимизаторы. В статье «Adam-mini: Use Fewer Learning Rates To Gain More» предлагают оптимизатор, который обеспечивает на 49,6% более высокую пропускную способность по сравнению с AdamW при предобучении Llama2-7B на 2x A800-80GB GPU, что экономит 33% wall-lock time на предобучение. Немного деталей: 📌 Adam-mini снижает использование памяти за счет назначения меньшего количества learning rates. Вместо индивидуальных lr для каждого параметра он использует среднее значение v по заранее определенным блокам параметров. - v – это вектор второго порядка моментов в Adam/AdamW. Он хранит экспоненциально сглаженное среднее значение квадратов градиентов для каждого параметра. - В стандартном AdamW v обновляется для каждого параметра i следующим образом: v_i = (1 - β2) * (gradient_i^2) + β2 * v_i. Он использует 1/√v_i для масштабирования learning rate для каждого параметра индивидуально. - Adam-mini изменяет это, вычисляя среднее значение v для каждого блока параметров. 📌 Экономия памяти: сокращает ≥90% v в Adam, уменьшая общую память, используемую оптимизатором, на 45-50%. Для Llama2-7B это означает снижение использования памяти на 48,04% (с 53,92 ГБ до 28,04 ГБ). Почему они не использовали llama-3 - непонятно. Возможно работу делали давно и не хотели заново гонять бенчмарки. Статья Git

Show all...

Adam-mini: Use Fewer Learning Rates To Gain More

We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the number of learning...

❤ 8

Кажется, Андрей Карпатый скоро выложит свой курс по языковым моделям LLM101n. 😮 У него появилась соответствующая репа на гитхабе. Пока что там есть только общее описание и названия лекций.

In this course we will build a Storyteller AI Large Language Model (LLM). Hand in hand, you'll be able create, refine and illustrate little stories with the AI. We are going to build everything end-to-end from basics to a functioning web app similar to ChatGPT, from scratch in Python, C and CUDA, and with minimal computer science prerequisits. By the end you should have a relatively deep understanding of AI, LLMs, and deep learning more generally.

Судя по всему, он доделал (но не выложил) 17 лекций и еще 5 в процессе. Вот эти 17: - Chapter 01 Bigram Language Model (language modeling) - Chapter 02 Micrograd (machine learning, backpropagation) - Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu) - Chapter 04 Attention (attention, softmax, positional encoder) - Chapter 05 Transformer (transformer, residual, layernorm, GPT-2) - Chapter 06 Tokenization (minBPE, byte pair encoding) - Chapter 07 Optimization (initialization, optimization, AdamW) - Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...) - Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...) - Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO) - Chapter 11 Datasets (datasets, data loading, synthetic data generation) - Chapter 12 Inference I: kv-cache (kv-cache) - Chapter 13 Inference II: Quantization (quantization) - Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat) - Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO) - Chapter 16 Deployment (API, web app) - Chapter 17 Multimodal (VQVAE, diffusion transformer) А вот эти еще в процессе: - Programming languages: Assembly, C, Python - Data types: Integer, Float, String (ASCII, Unicode, UTF-8) - Tensor: shapes, views, strides, contiguous, ... - Deep Learning frameowrks: PyTorch, JAX - Neural Net Architecture: GPT (1,2,3,4), Llama (RoPE, RMSNorm, GQA), MoE, ... - Multimodal: Images, Audio, Video, VQVAE, VQGAN, diffusion https://github.com/karpathy/LLM101n p.s. по ссылке больше информации нет - сохраняем и ждем релизов!

Show all...

GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller

LLM101n: Let's build a Storyteller. Contribute to karpathy/LLM101n development by creating an account on GitHub.

❤ 17🤯 5👍 2

Repost from New Yorko Times

Consensus: RAG поверх научных статей для ответов на бытовые вопросы #tips Посоветую-ка я вам вот такую штуку: Consensus.app. Это приложение по типу RAG поверх научных статей (прям как Эльсивир пилит, только b2c, для людей). Оно умеет взять Yes/No вопрос про науку, найти релевантные статьи и понять, какие из них утвердительно отвечают на вопрос, а какие - отрицательно. Скажем, интересно, как кофе влияет на умственную деятельность и здоровье. Фантазия у меня так себе, так что я написал промпт, чтоб он породил кучу таких вопросов.

You are a life coach giving advice on coffee and productivity. Generate scientific questions about coffee in our life that can be checked for truth based on a corpus of scientific papers. Examples: - Does coffee increase my productivity? - Is drinking too much coffee bad for my digestion? - Is coffee bad for my heart?

Дальше ручками вбиваем эти вопросы в Consensus (если чутка упороться, можно и агента сделать, чтоб дернул API Consensus) и собираем, сколько статей – За, сколько не определились, а сколько против. Получается примерно так: - Does coffee improve cognitive function and memory? – 67/17/17 (18 papers) - Are there long-term health effects of consuming high quantities of coffee daily? – 73/13/13 (15 papers) - Can coffee consumption reduce the risk of developing neurodegenerative diseases like Alzheimer's and Parkinson's? – 71/29/0 (17 papers) - Is there a correlation between coffee intake and improved physical performance during exercise? – 77/15/8 (13 papers) - Does coffee consumption negatively affect sleep patterns and overall sleep quality? – 69/12/19 (16 papers) - Does coffee have any impact on mental health conditions such as anxiety and depression? – 29/57/14 (14 papers) - Can coffee consumption lead to increased levels of cortisol and stress? – 83/0/17 (6 papers) - Is there a link between regular coffee consumption and a lower risk of certain types of cancer? – 74/5/21 (19 papers) - How does coffee affect metabolic rate and weight management? – 50/50/0 (6 papers) - What are the effects of coffee on blood sugar levels and the risk of developing type 2 diabetes? – 76/18/6 (17 papers) - Does coffee have any protective effects against liver diseases, including liver cancer and cirrhosis? – 80/15/5 (20 papers) - Is there a positive relationship between coffee consumption and cardiovascular health, including blood pressure and heart disease risk? – 87/13/0 (13 papers) Наконец, можно зашлифовать еще одним промптом, чтоб, например, отобрать все факты подтвержденные как минимум 10 статьями и сформировать на их основе складную историю. В бесплатной версии дают примерно с 12-15 вопросами поиграться. Проблема таких инструментов, что 9 евро/мес. за такое вряд ли будешь платить. Но поиграться и в нужный момент вспомнить про такую штуку – здорово.

Show all...

❤ 8

Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.