uk
Feedback
Eldor’s AI Lab

Eldor’s AI Lab

Відкрити в Telegram

🚀 Eldor’s AI Lab – Sun’iy intellektni chuqur va amaliy o‘rganish! 🔹 AI va ML nazariyasi 🔹 Kod va amaliy mashg‘ulotlar 🔹 Dasturlash bo‘yicha maslahatlar 🔹 Ilmiy maqolalar va eng so‘nggi yangiliklar 💡 AIni o‘rganishni istaysizmi? Let's go!

Показати більше
Країна не вказанаКатегорія не вказана
379
Підписники
Немає даних24 години
-17 днів
-130 день

Триває завантаження даних...

Схожі канали
Немає даних
Виникли проблеми? Будь ласка, оновіть сторінку або зверніться до нашого support-менеджера.
Хмара тегів
Немає даних
Виникли проблеми? Будь ласка, оновіть сторінку або зверніться до нашого support-менеджера.
Вхідні та вихідні згадування
---
---
---
---
---
---
Залучення підписників
липень '26
липень '26
+1
в 0 каналах
червень '26
+7
в 0 каналах
Get PRO
травень '26
+13
в 0 каналах
Get PRO
квітень '26
+19
в 0 каналах
Get PRO
березень '26
+26
в 0 каналах
Get PRO
лютий '26
+12
в 0 каналах
Get PRO
січень '26
+21
в 0 каналах
Get PRO
грудень '25
+21
в 0 каналах
Get PRO
листопад '25
+19
в 0 каналах
Get PRO
жовтень '25
+149
в 2 каналах
Get PRO
вересень '250
в 1 каналах
Get PRO
серпень '25
+13
в 1 каналах
Get PRO
липень '250
в 1 каналах
Get PRO
червень '25
+165
в 1 каналах
Get PRO
травень '250
в 0 каналах
Get PRO
квітень '250
в 4 каналах
Get PRO
березень '250
в 0 каналах
Get PRO
лютий '25
+2
в 4 каналах
Дата
Залучення підписників
Згадування
Канали
04 липня+1
03 липня0
02 липня0
01 липня0
Дописи каналу
📌 8.5-dars: Model Interpretability — Model ichida nima bo'layotganini tushunish 🎯 Deep Learning Mathematics@EldorML Savol: Model 99% aniqlik bilan ishlaydi. Lekin nima uchun aynan shu qarorni qabul qildi? Javob: Black Box muammosi — va uni hal qiluvchi usullar. 🔹 Asosiy muammo — Black Box Kirish rasm (🐱) │ ▼ █████ █████ ← ichkarida nima bo'layotgani █████ KO'RINMAYDI │ ▼ "Mushuk" (97%) Tibbiyot, moliya, avtonom haydashda “Asossiz ishoning" tushunchasi — qabul qilinmaydi. 🔹 Nima uchun xavfli? "Bo'ri vs It" klassifikatori: 95% aniqlik. Lekin model hayvonga emas — QOR FONIGA qaraydi! Barcha bo'ri rasmlari qorli fonda olingan edi. Model "bo'ri"ni emas, "qor”ni o'rgangan. ❌ To'g'ri javob, noto'g'ri sabab. Interpretability bu xatoni fosh qiladi. 🔹 1. Activation Maximization "Har bir neyron nimani yoqtiradi?" Gradient Ascent: x_yangi = x + η · d(f_i(x))/dx Rasm gradient yo'nalishida yangilanadi — neyronni maksimal faollashtiradigan tasvir topiladi. Natija: 1-qatlam → qirralar, ranglar 5-qatlam → shakllar, naqshlar 15-qatlam → to'liq tushunchalar (mushuk yuzi) 🔹 2. Saliency Maps "Model qaysi piksellarga e'tibor berdi?" Formula: S(x) = |dy/dx| Gradient katta → piksel MUHIM Gradient kichik → piksel muhim emas ✅ Juda tez (1 marta backward pass) ❌ Ko'pincha shovqinli natija 🔹 3. Grad-CAM (2017) Saliency Mapdan yaxshiroq yechim. Piksel darajasi: 224×224 = 50,176 nuqta (shovqinli) Feature map: 7×7 = 49 hudud (silliq!) Har feature map uchun ahamiyat: α_k = gradient o'rtachasi L = ReLU(Σ α_k · A_k) Natija: original rasm ustiga qizil "issiqlik xaritasi" Qizil = model eng ko'p e'tibor bergan hudud Ko'k = muhim emas 🔹 Saliency vs Grad-CAM Saliency: tez, shovqinli, har model uchun Grad-CAM: silliq, tushunarli, faqat CNN uchun 💡 Debug uchun → Saliency Shifokorga/mijozga ko'rsatish uchun → Grad-CAM 🔹 Misollar Tibbiyot: Rentgen → "Pnevmaniya 89%" Grad-CAM → o'pkaning pastki qismi qizil Shifokor: "Ha, men ham shu joyga qarayman" ✅ Self-driving: Kamera → "STOP belgisi aniqlandi" Saliency → belgi konturlariga qaragan ✅ Klassifikatsiya (xato topish): Grad-CAM ko'rsatadi — model hayvonga emas, fon yoki egalik qo'liga qaraydi ❌ 🔹 Cheklovlar ⚠️ Explanation ≠ Reasoning Model "fikr yuritmaydi" — gradient hisoblaydi ⚠️ Bir xil rasm, bir xil model: Saliency → A hudud Grad-CAM → B hudud Integrated Gradients → C hudud Qaysi biri "haqiqiy"? — Aniq javob yo'q 💡 Interpretability — yakuniy haqiqat emas, gipoteza yaratish va tekshirish vositasi. 🔹 Zamonaviy usullar Integrated Gradients — shovqinni kamaytiradi SmoothGrad — gradientlarni o'rtachalash SHAP — har xususiyatning hissasi LIME — mahalliy chiziqli yaqinlashish Attention Visualization — Transformer uchun 🎯 Asosiy xulosa Model o'qitish = faqat aniqlik emas. Yuqori xavfli sohalarda NIMA UCHUN — aniqlikning o'zidan ham muhimroq bo'lishi mumkin. Bugungi AI kompaniyalari (Google, Meta, OpenAI) — interpretability bo'yicha alohida jamoa va tadqiqot yo'nalishiga ega. Sababi shu. 🤝 YouTube: 🎥 Havola 🖥️ Colab: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so'rayman 🙏 @EldorML

2
📌 8.4-dars: Dimensionality Reduction — Modelni "ichidan" ko'rish 🎯 Deep Learning Mathematics — @EldorML Savol: BERT 768, ResNet 2048 o'lchamli vektor chiqaradi. Bu vektorlar ichida nima bor? Modelni qanday "tushunish" mumkin? Javob: Latent space vizualizatsiyasi — 2D grafikda modelning ichki dunyosi. 🔹 Asosiy muammo Modellar yuqori o'lchamli vektorlar bilan ishlaydi: BERT: 768 o'lcham ResNet: 2048 o'lcham CLIP: 512 o'lcham GPT-3: 12,288 o'lcham Biz 2Ddan ko'pini ko'ra olmaymiz. Yechim — dimensionality reduction: 2048D → 2D. 🔹 Latent Space nima? Model har rasmni/har so'zni vektor sifatida ifodalaydi. O'xshash narsalar — yaqin joylashadi. Boshqa narsalar — uzoq joylashadi. Misol (Word Embeddings): king - man + woman ≈ queen Model "qirol" va "malika" so'zlarini hech kim aytmagan. U faqat matndan o'rgandi. Lekin vektor arifmetikasi ishlaydi! Bu — modelning ichki "tasavvur fazosi". 🔹 1. PCA (1901) — eng eski usul Asosiy g'oya: eng katta o'zgaruvchanlik qaysi yo'nalishda? ✅ Juda tez (1 soniyada) ✅ Reversible — qaytarish mumkin ✅ Variance Explained — qancha ma'lumot saqlangani aniq ❌ Faqat chiziqli — egri tuzilmani topa olmaydi Misol: 512D → 2D: PC1=35%, PC2=18% → jami 53% saqlandi 🔹 2. t-SNE (2008) — klasterlar uchun Asosiy g'oya: yuqori o'lchamda yaqin → past o'lchamda ham yaqin. ✅ Klasterlarni aniq ko'rsatadi ✅ Egri tuzilmani topadi ❌ Sekin (10K nuqta = 30 daqiqa) ❌ Har safar boshqa natija ❌ Global tuzilishni buzadi 🔹 3. UMAP (2018) — bugungi standart t-SNE muammolarini hal qildi. ✅ t-SNE dan 10-100x tezroq ✅ Global tuzilishni saqlaydi ✅ Yangi nuqta qo'shish oson ✅ Hugging Face, bioinformatika, NLP standarti 🎯 Qaysi qachon? Tez ko'rish → PCA Klasterlar vizualizatsiyasi → UMAP Kichik dataset (1-10K) → t-SNE Katta dataset (100K+) → UMAP Yangi nuqta qo'shish → PCA yoki UMAP 💡 Qoida: avval PCA, keyin UMAP. 💡 Asosiy xulosa Model hech qachon "3 yumaloq" deb o'rganmagan. U faqat piksellardan o'rgandi. Lekin latent spaceda barcha "3"lar yaqin joylashadi. Bu — modelning ichki tushunishi. Dimensionality reduction — shu tushunishni KO'RISH imkoni. 🤝 YouTube: 🎥 Havola 🖥️ Colab: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so'rayman 🙏 @EldorML
185
3
📌 8.3-dars: Normalization Layers — Tarmoqni barqarorlashtirish 🎯 Deep Learning Mathematics — @EldorML Savol: Activation function nochiziqlilik beradi. Lekin chuqur tarmoqlar nima uchun hali ham beqaror o'rganadi? Javob: Har qatlamdagi qiymatlar masshtabi nazoratsiz o'zgaradi. Yechim — Normalization. 🔹 Asosiy muammo — Internal Covariate Shift 10 qatlamli tarmoqda o’qitishda: - 1-qatlam kirishi: ~ N(0, 1) taqsimot - 5-qatlam kirishi: ~ N(5, 100) taqsimot - 10-qatlam kirishi: ~ N(-50, 10000) taqsimot 💥 Har qatlam boshqa "dunyoda" yashaydi. Model sekin va beqaror o'rganadi. Yechim — har qatlamga BIR XIL TARTIBDA ma'lumot keltirish. 🔹 Umumiy formula Barcha normalizationlar bir xil asosga ega: x_norm = (x - μ) / √(σ² + ε) y = γ·x_norm + β Farq faqat μ va σ² QAYSI QIYMATLARDAN hisoblanishida. γ va β — model normalizatsiyani kerak bo'lsa "qaytarib olishi" mumkin. 🔹 1. BatchNorm (2015) — Birinchi inqilob Har KANAL bo'yicha, batch ichidagi barcha rasmlardan o'rtacha. ✅ CNNni 2-3x tezroq o'rgatadi ✅ Yuqori learning rate ishlatish mumkin ❌ Kichik batch (1-2) da BUZILADI: batch=64: yaxshi ✅ batch=2: noaniq ❌ batch=1: ishlamaydi 💥 ⚠️ Train/eval rejimida farqli ishlaydi — running mean/var ishlatiladi. 🔹 2. LayerNorm (2016) — Transformer davri Batch bo'yicha emas, har NAMUNA ICHIDA o'rtacha. Transformerda har TOKEN uchun alohida. ✅ Batch sizega bog'liq emas (batch=1 ham ishlaydi) ✅ Sequence uzunligi muhim emas ✅ Train/eval bir xil ishlaydi 🔥 BERT, GPT-2, GPT-3, ViT — barchasi LayerNorm. 🔹 3. InstanceNorm (2016) — Style Transfer Har RASM, har KANAL alohida statistika. "Har rasmning o'z uslubi bor — aralashtirmaslik kerak." 🎨 Style Transfer, GAN, CycleGAN, Pix2Pix. 🔹 4. GroupNorm (2018) — Goldilocks zone Kanallarni GURUHLARGA bo'ladi, har guruh alohida. BatchNorm: batch birgalikda (batchga bog'liq) LayerNorm: barcha kanal birga (o'ta umumiy) InstanceNorm: har kanal alohida (o'ta nozik) GroupNorm: aralash — Goldilocks! ✅ ✅ Batch'ga bog'liq emas ✅ CNN strukturasini saqlaydi ✅ Kichik batch + CNN uchun ideal 🔥 Stable Diffusion, DALL-E, zamonaviy YOLO — GroupNorm. 🎯 Qaysi vazifada qaysi? CNN (klassik) → BatchNorm Transformer (BERT, GPT, ViT) → LayerNorm GAN / Style Transfer → InstanceNorm Diffusion (Stable Diffusion) → GroupNorm Object Detection (kichik batch) → GroupNorm RNN/LSTM → LayerNorm Mobile inference (batch=1) → GroupNorm / LayerNorm 💡 Qoida: - Katta batch + CNN → BatchNorm - Transformer → LayerNorm - Kichik batch → GroupNorm - Style transfer → InstanceNorm 💡 Asosiy xulosa Activation tarmoqqa NOCHIZIQLILIK beradi. Normalization unga BARQARORLIK beradi. Ikkisi birga — bugungi muvaffaqiyatli deep learning modellarining asosi. Faqat normalization qo'shish — 30-50% tezroq o’qitish! 🤝 YouTube: 🎥 Havola 🖥️ Colab: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so'rayman 🙏 @EldorML
231
4
📌 8.2-dars: Activation Functions — Neyron tarmoqning "qarori" 🎯 Deep Learning Mathematics — @EldorML Savol: 100 ta qatlam qo'shsam, model kuchliroq bo'ladimi? Javob: Activation bo'lmasa — YO'Q. Sababini ko'ramiz. 🔹 Asosiy mantiq Faqat W·x + b ishlatib 2 qatlam qursak: • z1 = W1·x + b1 • y = W2·z1 + b2 = (W2·W1)·x + (W2·b1 + b2) = W_yangi·x + b_yangi 💥 100 ta qatlam birlashib — bitta chiziqqa aylanadi! Chuqurlik kuch bermaydi. Yechim — qatlamlar orasiga nochiziqli funksiya qo’shish: h = f(z1) ← activation! Endi qatlamlar birlashmaydi. Model egri chiziq, XOR, rasm, matnni o'rgana oladi. 🔹 1. Sigmoid (1990) — birinchi mashhur σ(x) = 1 / (1 + e^(-x)) → chiqish (0, 1) ✅ Ehtimollik sifatida o'qiladi ❌ Vanishing gradient: max hosila = 0.25 10 qatlam: 0.25^10 ≈ 0.0000009 💀 Birinchi qatlamga gradient yetmaydi! Shu sabab 1990-yillarda chuqur tarmoqlar ishlamasdi. 🔹 2. Tanh — yaxshilangan Sigmoid tanh(x) → chiqish (-1, 1), nol atrofida markazlangan Sigmoiddan yaxshiroq, lekin vanishing gradient muammosi qoldi. 💡 RNN/LSTM ichida bugungacha ishlatiladi. 🔹 3. Softmax — ko'p sinf uchun Sigmoid 2 sinf uchun. 10 sinf (0-9) uchun — Softmax: Softmax(xᵢ) = e^(xᵢ) / Σ e^(xⱼ) Logitlar → ehtimollar, yig'indi = 1.00 💡 Faqat oxirgi qatlamda ishlatiladi. 🔹 4. ReLU (2012) — INQILOB ReLU(x) = max(0, x) 2012-yil AlexNet ImageNet'da g'olib. Siri — ReLU. ✅ Hosila = 1 (musbat tomonda) → vanishing gradient ancha yaxshi ✅ Juda tez (faqat if x > 0) ✅ Sparsity — neyronlarning yarmi "uyqu rejimida" ❌ Dying ReLU: katta manfiy bias → neyron har doim 0 → gradient 0 → o'lik ☠️ Yechim — Leaky ReLU: x ≤ 0 → 0.01·x (kichik gradient, neyron o'lmaydi) 🔹 5. GELU (2018) — Transformer davri ReLU qattiq qaror beradi: x ≤ 0 → 0. GELU yumshoq, ehtimol asosida: GELU(x) = x · Φ(x) x = -2: ReLU → 0, GELU → -0.046 x = 2: ReLU → 2, GELU → 1.95 🔥 BERT, GPT-2, GPT-3, ViT — hammasi GELU. 🔹 6. Swish/SiLU (2017) va Mish (2019) SiLU(x) = x · σ(x) Mish(x) = x · tanh(ln(1 + e^x)) GELUga juda o'xshash. Farqi kichik koeffitsient. SiLU → EfficientNet, MobileNetV3, YOLOv5/v8, Stable Diffusion Mish → YOLOv4 💡 GELU vs Swish vs Mish — farqi juda kichik, kontekstga bog'liq. 🎯 Qaysi vazifada qaysi? CNN (rasm) → ReLU yoki SiLU Transformer (BERT, GPT, ViT) → GELU Mobile / Diffusion → SiLU YOLO → SiLU RNN/LSTM → Tanh Binary (oxirgi qatlam) → Sigmoid Multi-class (oxirgi qatlam) → Softmax 💡 Qoida: ReLU bilan boshlang, keyin GELU/SiLU sinab ko'ring. ⚠️ Muhim: Hech qaysi activation "muammosiz" emas. Har biri ayrim kamchiliklarni yumshatadi, lekin o'z narxi bilan (sekinroq hisoblash, ko'proq xotira). 🤝 YouTube: 🎥 Havola 🖥️ Colab: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so'rayman 🙏 @EldorML
273
5
Відеоповідомлення
328
6
📌 8.1-dars: Forward va Backward Pass — Neyron tarmoq qanday "o'ylaydi" va "o'rganadi" 🎯 Deep Learning Mathematics — @EldorML Savol: CNN, ViT, Diffusion, GNN, Transformer — nima ularni bog'laydi? Javob: Forward + Backward Pass. Hammasining yuragi shu. 🔹 Asosiy mantiq Bola olma va apelsinni o'rganadi: - Forward: mevani ko'radi → "olma" deydi - Backward: ona "yo'q, apelsin" → bola xatoni tushunadi Neyron tarmoq aynan shu. "Bola" o'rniga — weights. "Ona javobi" o'rniga — loss. 🔹 1. Forward Pass — bashorat 2 qatlamli tarmoq, x = [1, 2], target = 5: z1 = W1·x + b1 → [0.2, 1.9, 1.3] h = ReLU(z1) → [0.2, 1.9, 1.3] y = W2·h + b2 → 0.5 L = (y - 5)² → 20.25 Model 0.5 dedi, javob 5 edi. Xato = 20.25 💥 🔹 2. Computation Graph Har operatsiya grafga yoziladi: x → [W1·x+b1] → [ReLU] → [W2·h+b2] → y → L Backward passda shu grafdan teskari yo'l yuriladi. 💡 PyTorch, TensorFlow — barchasi shu prinsipda. Siz forward yozasiz, framework backwardni avtomatik hisoblaydi (autograd). 🔹 3. Backward Pass — Chain Rule Savol: "W1 ni biroz o'zgartirsam, loss qanchaga o'zgaradi?" dL/dW1 = dL/dy · dy/dh · dh/dz1 · dz1/dW1 Qatlamma-qatlam orqaga: dL/dy = 2(y-5) = -9 dL/dh = -9 · W2 = [-3.6, -2.7, 4.5] dL/dz1 = dL/dh · 1 = [-3.6, -2.7, 4.5] (ReLU musbat) dL/dW1 = dL/dz1 · xᵀ → 3×2 matritsa 🔹 4. Gradient Descent — yangilanish W_yangi = W_eski - η · dL/dW η = 0.01 bilan: W1 = [[0.5, -0.2], → [[0.536, -0.128], [0.3, 0.8], [0.327, 0.854], [-0.1, 0.6]] [-0.145, 0.510]] Parametrlar xato kamayadigan tomonga siljidi 📉 🔹 5. To'liq oqim Forward → Loss → Backward → Yangilash ↓ 1000 marta takrorlash ↓ Model tayyor ✅ 🎯 Xulosa - Forward — bashorat (kirish → chiqish) - Loss — xatoni o'lchash - Backward — chain rule bo'yicha gradientlar - Gradient Descent — parametrlarni yangilash - Autograd — PyTorch buni avtomatik qiladi 💡 CNN, ViT, Diffusion, GNN, Transformer — hammasi shu mexanizmda o'rganadi. Faqat ichidagi operatsiyalar farq qiladi. GPT-4 da ham, sizning 2 qatlamli tarmog'ingizda ham — bir xil prinsip! 🤝 YouTube: 🎥 Havola 🖥️ Colab: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so'rayman 🙏 @EldorML
368
7
📌 7.5-dars: Efficient Attention — Transformerning O(n²) muammosi 🎯 Deep Learning Mathematics — @EldorML Savol: ChatGPT, Claude, Llama qanday qilib 1M tokenli kontekstni qo'llab-quvvatlaydi? Javob: Efficient Attention variantlari. 🔹 Muammo: O(n²) n = 512 → 262 ming n = 8192 → 67 million n = 100K → 10 milliard 💥 QK^T — n×n matritsa. n oshganda portlaydi. 🔹 1. Sparse Attention — kam juftlik Token hammaga qarashi shart emas. - Sliding Window — yaqin w ta tokenga - Longformer — lokal + global tokenlar (65K) - BigBird — window + global + random (100K) Murakkablik: O(n·w) — chiziqli 🔹 2. Linear Attention — matematik usul Usul: (QK^T)V = Q(K^T V) K^T V → d × d matritsa (kichik!) Murakkablik: O(n · d²) Softmax muammosi → kernel usuli (Performer): softmax(q·k) ≈ phi(q)·phi(k) n = 100K da: standart 10 milliard → Performer 26 million Tezlash: 380x 🚀 🔹 3. FlashAttention — GPU darajasidagi O(n²) ni o'zgartirmaydi, lekin 5-10x tezroq! Siri: GPU xotirasi 2 xil HBM (40 GB, sekin) SRAM (20 MB, 100x tez) Standart: hammasi HBM orqali (sekin) Flash: bloklarda SRAMda → HBMga faqat natija Natija: xotira 10-20x kam, 2-4x tezroq 🔹 4. Qo'shimcha usullar - Gradient Checkpointing — xotira 4x kam (+30% vaqt) - Mixed Precision (BF16) — 2x kam, 2x tez - GQA — Llama, GPT-4 da ishlatiladi 🎯 Xulosa - O(n²) — uzun matn uchun fizik to'siq - Sparse → Longformer/BigBird (kam juftlik) - Linear → Performer (matematik qayta yozish) - FlashAttention → 5-10x bepul tezlash - GQA + BF16 + Checkpointing → barcha LLM'da 💡 GPT-4, Claude, Llama 3 — bir nechta tekniklarni birga ishlatadi: GQA + FlashAttention + BF16 + KV-cache. Endi 128K, 1M tokenli kontekst qanday ishlashini tushunasiz! 🤝 YouTube: 🎥 Havola 🖥️ Colab: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so'rayman 🙏 @EldorML
286
8
📌 7.4-dars: Graph Neural Networks (GNN) — Graf shaklidagi ma'lumotlar 🎯 Deep Learning Mathematics — @EldorML Oldingi darsda Diffusion Models va shovqin (noise)dan rasm yaratish haqida gaplashdik. Endi savol: ❓ Agar ma'lumot rasm ham, matn ham emas, balki graf bo'lsa-chi? ❓ Facebook "Siz tanishingiz mumkin", Google Maps trafik, AlphaFold — qanday ishlaydi? Javob: barchasi Graph Neural Networks asosida. 🔹 1. Asosiy savol CNN — rasmlar uchun (regular grid) Transformer — matn uchun (sequence) GNN — graflar uchun (irregular structure) Misollar: • Ijtimoiy tarmoq: odamlar (tugun) + do'stlik (qirra) • Molekula: atomlar + bog'lanishlar • Yo'l xaritasi: shaharlar + yo'llar • Tavsiya: foydalanuvchi-mahsulot "GNN — bu CNNning umumlashtirilgan versiyasi: 'qo'shni piksellar' o'rniga 'qo'shni tugunlar' bilan ishlaydi." 🔹 2. Adjacency Matrix — grafni raqamlarda Kim kim bilan bog'langanini matritsa orqali ifodalaymiz: Ali Vali Soli Rustam Ali [ 0 1 1 0 ] Vali [ 1 0 0 1 ] Soli [ 1 0 0 1 ] Rustam [ 0 1 1 0 ] 🟢 Diagonal nol — tugun o'ziga bog'lanmagan 🟢 Simmetrik — yo'naltirilmagan grafda Self-loop qo'shamiz: A_tilde = A + I Sababi: tugun aggregate paytida o'z xususiyatini ham saqlashi kerak. 🔹 3. Message Passing — GNNning yuragi Uch qadam: 1) MESSAGE — har tugun qo'shnilariga "xabar" yuboradi 2) AGGREGATE — har tugun olgan xabarlarni birlashtiradi (sum/mean/max) 3) UPDATE — neyron tarmoq orqali yangi xususiyat hisoblanadi Hayotiy o'xshatish — gap-tarqalish: Boshida: faqat Ali biladi 1 qadam: Ali → Vali, Soli ham biladi 2 qadam: Vali, Soli → Rustam ham biladi 💡 Eng muhim xulosa: K marta message passing = har tugun K-uzoqlikdagi qo'shnilardan ma'lumot oladi degani. 🔹 4. GCN formulasi H^(k+1) = sigma( A_hat · H^(k) · W^(k) ) Bu yerda: A_hat = D^(-1/2) · A_tilde · D^(-1/2) Qadamma-qadam: • A_tilde · H — qo'shnilar yig'indisi (avtomatik aggregate) • H · W — linear transform (CNNdagi filter o'xshashi) • D^(-1/2) bilan ko'paytma — normalizatsiya • sigma — ReLU yoki SiLU 🔹 5. Normalizatsiya nima uchun? Muammo: ba'zi tugunlarda 1000+ qo'shni (mashhur odam), ba'zilarida 5 ta. Sodda yig'indida: Mashhur odam → katta qiymat Oddiy odam → kichik qiymat Bu adolatsiz — mashhur tugunlar dominantlik qiladi. Yechim: degree bilan bo'lish: h_i_new = sum( h_j / sqrt(d_i · d_j) ) Endi har kimning ma'lumoti bir xil masshtabda. 🔹 6. K qatlam = K-uzoqlik 1 qatlam → bevosita qo'shnilar 2 qatlam → qo'shnining qo'shnisi K qatlam → K-uzoqlik ⚠️ Lekin 5+ qatlam — over-smoothing muammosi: barcha tugunlar bir xil bo'lib qoladi. Boshida: 10 qatlamdan keyin: Ali = [1, 0] Ali = [0.4, 0.4] Vali = [0, 1] Vali = [0.4, 0.4] Soli = [1, 1] Soli = [0.4, 0.4] → HAMMASI BIR XIL! Optimal: 2-3 qatlam. 🔹 7. GNN vazifa turlari Node-level — har tugun uchun bashorat Misol: spam akkauntmi? qaysi guruh? Edge-level — qirra bo'ladimi? Misol: do'st tavsiyasi (link prediction) Graph-level — butun graf uchun Misol: molekula zaharlimi? 🎯 Yakuniy xulosa • Graf = tugunlar + qirralar (adjacency matrix bilan ifoda) • Message passing: message → aggregate → update • GCN formula: H' = sigma(A_hat · H · W) — qo'shnilar yig'indisi + linear + ReLU • Normalizatsiya: degree bilan bo'lish (mashhur tugunlar dominatsiya qilmasin) • 2-3 qatlam optimal, 5+ qatlam over-smoothing keltiradi • GNN istalgan o'lchamdagi grafda ishlaydi (permutation invariant) 💡 AlphaFold (protein), Google Maps (trafik), Pinterest (tavsiya), Facebook ("siz tanishingiz mumkin") — barchasi GNN asosida. Biz har kuni GNN dan foydalanamiz, lekin uni ko'rmaymiz. 🤝 YouTube dars: 🎥 Havola 🖥️ Colab notebook: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so'rayman 🙏 @EldorML
267
9
Guruhdagi hamma kurslarga havola: Python kurs: https://medium.com/@mr.eldorabdukhamidov/intensiv-python-kursi-8aac613fca5c AI agent kurs: https://medium.com/@mr.eldorabdukhamidov/ai-agentlar-qurish-bepul-onlayn-kurs-e1ad0a2246b9 ML kurs: https://medium.com/@mr.eldorabdukhamidov/machine-learning-ml-to-liq-kurs-tarkibi-79c0c5c35da2 DL Math kurs: https://medium.com/@mr.eldorabdukhamidov/deep-learning-matematikasi-intensiv-kurs-rejasi-3a04e0f12453
0
10
Agar biror taklif yoki istaklaringiz bo’lsa, izohlarda yozib qoldiring. Darslarni shunga qarab moslashga harakat qilaman!
0
11
Assalom alaykum do’stlar. Video darslar sizlarga tushunarli va foydali bo’lyaptimi?
0
12
📌 7.3-dars: Diffusion Models — Noisedan(Shovqin) rasm yaratish 🎯 Deep Learning Mathematics — @EldorML Oldingi darsda ViT va patch embedding haqida gaplashdik. Endi savol: ❓ Sof noisedan(shovqin) haqiqiy rasm yaratish mumkinmi? ❓ Stable Diffusion va DALL-E qanday ishlaydi? Javob: Ha — buning siri "diffuziya" jarayonida. 🔹 1. Asosiy g'oya GAN: rasmni "ixtiro qiladi" VAE: rasmni siqib qayta tiklaydi Diffusion: shovqinni olib tashlab rasm "quradi" "Agar biz rasmni buzishni o'rgansak, uni tiklashni ham o'rganishimiz mumkin." 🔹 2. Forward Process — Shovqin qo'shish Rasmga T = 1000 qadamda asta-sekin Gaussian shovqin qo'shamiz: x_0 → x_1 → x_2 → ... → x_T rasm ozgina ko'p sof shovqin shovqin shovqin Reparameterization formulasi: x_t = √ᾱ_t · x_0 + √(1-ᾱ_t) · ε Bu yerda: - ᾱ_t — α larning ko'paytmasi (t qadamgacha) - ε ~ N(0, I) — sof Gaussian shovqin 🟢 Forward process O'RGATILMAYDI (TRAIN) — bu matematik formula. 🔹 3. Reverse Process — Rasmni tiklash Sof shovqindan boshlab, har qadamda ozgina shovqin olib tashlaymiz: x_T → x_{T-1} → ... → x_1 → x_0 shovqin toza rasm Muammo: aniq formula yo'q (posterior hisoblash imkonsiz) Yechim: neyron tarmoq (U-Net) shovqinni bashorat qiladi 🔹 4. Score Matching — chuqur g'oya Score funksiyasi = log p(x) gradienti Bu — "haqiqiy rasmni ko’rsatadigan kompas" DDPMda (Diffusion Model) isbotlangan: score = -ε / √(1-ᾱ_t) Ya'ni shovqinni bashorat qilish == scoreni hisoblash Ikkisi MATEMATIK EKVIVALENT! 🔹 5. DDPM Loss — sodda MSE Murakkab variational lower bound (VLB) qisqartirildi: L = || ε - ε_θ(x_t, t) ||² Bu — oddiy MSE. Hammasi shu! Training algoritmi: 1. Datasetdan rasm olish: x_0 2. Tasodifiy qadam: t ~ Uniform(1, T) 3. Tasodifiy shovqin: ε ~ N(0, I) 4. x_t hisoblash (formula yuqorida) 5. Loss = ||ε - ε_θ(x_t, t)||² 6. Gradient descent 🔹 6. U-Net — Shovqin bashorat qiluvchi tarmoq Kirish: shovqinli rasm + qadam raqami (t) Chiqish: bashorat qilingan shovqin Encoder (siqish) x_t → [64] → [128] → [256] → [512] ↓ Bottleneck ↓ Decoder (kengaytirish) [512] → [256] → [128] → [64] → ε_pred Skip connections: har qatlamda — mayda detallar yo'qolmaydi. Time embedding sinusoidal — model qaysi qadamda ekanligini biladi. 🔹 7. Sampling — sekin lekin sifatli Trening: 1 ta forward pass Sampling: 1000 ta forward pass Diffusion GANdan 1000 marta sekinroq, lekin sifati ancha yuqori. Yangi metodlar (DDIM) bu sonni 20-50 ga tushiradi. 🎯 Yakuniy xulosa - Forward process → matematik formula, o'rgatilmaydi - Reverse process → U-Net o'rganadi - DDPM loss → oddiy MSE - Score matching = shovqin bashorati (matematik ekvivalent) - U-Net + skip connections → mayda detallar saqlanadi - Time embedding → bir model 1000 ta vazifani bajaradi 💡 Stable Diffusion, DALL-E 2, Midjourney, Imagen — barchasi DDPM asosida! 🤝 YouTube dars: 🎥 Havola 🖥️ Colab notebook: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr so’rayman🙏 @EldorML
0
13
📌 7.2-dars: Vision Transformers (ViT) — Rasmlarni tokenga aylantirish 🎯 Deep Learning Mathematics — @EldorML Oldingi darsda ResNet va skip connectionlar haqida gaplashdik. Endi savol: ❓ Transformer faqat matn uchunmi? ❓ Rasmni ham Transformerga berish mumkinmi? Javob: Ha — lekin avval rasmni "so'zlarga" aylantirish kerak. 🔹 1. Muammo — Rasmni token qilish Har bir pikselni token deb olsak: 224×224 = 50176 token Attention hisoblash O(n²) → 50176² ≈ 2.5 milliard operatsiya. Bu amalda mumkin emas. 🔹 2. Yechim — Patch Embedding Rasmni P×P patchlarga bo'lamiz: Patch hajmi: 16×16 Patch soni: 224×224 / 16×16 = 196 ta 50176 piksel → faqat 196 token! ✅ Har patch: 1. Yassilanadi: 16×16×3 = 768 element 2. Linear proyeksiya: 768 → D o'lchamli embedding 3. Position embedding qo'shiladi 🔹 3. CLS Token Transformerga kirishda [CLS] token qo'shiladi. • Hech qaysi patchga tegishli emas • Barcha patchlar bilan attention orqali muloqot qiladi • Oxirida butun rasmning "xulosa" representatsiyasi • Klassifikatsiya uchun faqat [CLS] ishlatiladi 🔹 4. Position Embedding nima uchun kerak?Z Transformer tartibsiz (permutation invariant): [p1][p2][p3] va [p5][p1][p99] — bir xil ko'rinadi! Position embedding har tokenga "men i-chi o'rindaman" degan ma'lumot qo'shadi. ViTda o'rganiluvchi position embedding ishlatiladi. 🔹 5. Inductive Bias — CNN vs ViT Inductive bias — arxitekturaning ma'lumot haqidagi avvalgi taxminlari. CNNning taxminlari: • Locality → faqat qo'shni piksellar bilan ishlaydi • Translation equivariance → bir xil filter hamma joyda ishlaydi ViTning taxminlari: • Locality YO'Q → har patch barcha patchlarni ko'radi • Translation equivariance YO'Q → position embedding o'rganiladi • Global receptive field → darhol mavjud ✅ Taqqoslash: CNN: Locality ✅ (tayyor) Translation eq. ✅ (tayyor) Global context ❌ (sekin) Kam data ✅ yaxshi Ko'p data ✅ yaxshi ViT: Locality ❌ (o'rganiladi) Translation eq. ❌ (o'rganiladi) Global context ✅ (darhol) Kam data ❌ ko'p data kerak Ko'p data ✅✅ CNNdan yaxshi Amalda: • Kam data (< 1M) → CNN afzal • Ko'p data (> 10M) → ViT afzal 🔹 6. To'liq ViT Pipeline Kirish rasm (224×224×3) ↓ Patch bo'lish → 196 ta 16×16×3 ↓ Flatten + Linear → 196×768 ↓ CLS token → 197×768 ↓ Position embedding → 197×768 ↓ Transformer Encoder × 12 ↓ CLS token → 768 ↓ MLP Head → 1000 klass 🎯 Yakuniy xulosa • Patch embedding → rasm tokenlar ketma-ketligiga aylanadi • CLS token → butun rasmning xulosa representatsiyasi • Position embedding → har patchning joylashuvini bildiradi • CNN → inductive bias bor, kam data uchun yaxshi • ViT → global attention, ko'p data uchun yaxshi 💡 DINOv2, SAM, Stable Diffusion — barchasi ViT asosida! 🤝 YouTube dars: 🎥 Havola 🖥️ Colab notebook: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr 🙏 @EldorML
0
14
📌 7.1-dars: ResNet va Skip Connections — Chuqur tarmoqlar muammosiga yechim 🎯 Deep Learning Mathematics — @EldorML Oldingi darsda Batch Normalization haqida gaplashdik. Endi savol: ❓ Nega 56 qatlamli tarmoq 20 qatlamlilikdan yomon ishlaydi? ❓ Nega chuqur tarmoq har doim yaxshiroq emas? Javob: Degradation muammosi — vanishing gradient. 🔹 1. Muammo — Vanishing Gradient Backpropagationda gradient zanjir qoidasi orqali hisoblanadi: ∂L/∂w₁ = ∂L/∂hₙ · ∂hₙ/∂hₙ₋₁ · ... · ∂h₁/∂w₁ Har qatlam gradientni oldingi gradientga ko'paytiradi. Agar har qatlamda gradient < 1 bo'lsa: 0.9¹⁰ = 0.35 0.9⁵⁰ = 0.005 0.9¹⁰⁰ ≈ 0.00003 ← deyarli nol! Natijada: • Birinchi qatlamlar deyarli o'qimaydi • Chuqur tarmoq sayoz tarmoqdan yomon ishlaydi 🔹 2. Residual Learning — F(x) + x Oddiy qatlam: h(x) = F(x) ← to'liq mapping o'rganadi ResNet qatlam: h(x) = F(x) + x ← faqat "qoldiq" (residual) o'rganadi Nima uchun bu oson? • Oddiy tarmoqda: h(x) = x ni o'rganish → qiyin • ResNetda: F(x) = 0 ni o'rganish → oson! Oddiy: x → [Conv→BN→ReLU] → F(x) ResNet: x ─────────┐ x → [F qatlam] → (+) → ReLU 🔹 3. Identity Mapping Matematikasi Bir blok: y = F(x, {Wᵢ}) + x Ko'p blok uchun: x_L = x_l + Σ F(xᵢ) (l dan L gacha) Ya'ni istalgan chuqur qatlam — istalgan sayoz qatlamning to'g'ridan-to'g'ri yig'indisi. Gradient formulasi: ∂L/∂x_l = ∂L/∂x_L · (1 + ∂/∂x_l · ΣF(xᵢ)) 💡 Formulada "1" bor! • Oddiy tarmoqda: gradient faqat qatlamlar orqali → yo'qolishi mumkin • ResNetda: 1 + ... → gradient hech qachon nolga tushmaydi ✅ 🔹 4. Skip Connection arxitekturasi Basic Block (ResNet-18, 34): x ┐ ↓ Conv(3×3) → BN → ReLU ↓ Conv(3×3) → BN ↓ (+) ← x ↓ ReLU Bottleneck Block (ResNet-50, 101, 152): x ┐ ↓ Conv(1×1) → BN → ReLU ← kanallar kamayadi ↓ Conv(3×3) → BN → ReLU ← asosiy hisoblash ↓ Conv(1×1) → BN ← kanallar oshadi ↓ (+) ← x ↓ ReLU 1×1 convolutionlar kanallar sonini kamaytiradi → hisoblash tejaladi. O'lchamlar farq qilganda — Projection ishlatiladi: y = F(x) + Wₛ·x ← bu yerda Wₛ = 1×1 conv 🔹 5. Natija Oddiy tarmoq: 20 qatlam → ✅ yaxshi 56 qatlam → ❌ yomonlashadi 152 qatlam → ❌❌ juda yomon ResNet: 20 qatlam → ✅ yaxshi 56 qatlam → ✅ hali yaxshi 152 qatlam → ✅ eng yaxshi (ImageNet 2015 🏆) ResNet-152 — ImageNetda 2015-yilda eng yaxshi natija. 🎯 Yakuniy xulosa • Degradation → chuqur tarmoq sayozdan yomon ishlaydi • Skip connection → F(x) + x gradientga to'g'ridan-to'g'ri yo'l ochadi • Identity mapping → F(x)=0 o'rganish oson → qo'shimcha qatlamlar zararlanmaydi • ResNet g'oyasi → bugungi barcha zamonaviy arxitekturalarda ishlatiladi 🤝 YouTube dars: 🎥 Havola 🖥️ Colab notebook: 📂 Havola 📘 Barcha darslar: Havola 🚨 Videolar jonli yozilgan. Matematik izohlarda xatolar bo'lishi mumkin. Oldindan uzr 🙏 @EldorML
0