Machine Learning
Real Machine Learning — simple, practical, and built on experience. Learn step by step with clear explanations and working code. Admin: @HusseinSheikho || @Hussein_Sheikho
Показати більше📈 Аналітичний огляд Telegram-каналу Machine Learning
Канал Machine Learning (@machinelearning9) у мовному сегменті Англійська є активним учасником. На даний момент спільнота об'єднує 40 170 підписників, посідаючи 3 380 місце в категорії Технології та додатки та 228 місце у регіоні Сирія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 40 170 підписників.
За останніми даними від 29 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 380, а за останні 24 години на 3, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 2.08%. Протягом перших 24 годин після публікації контент зазвичай збирає 1.91% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 837 переглядів. Протягом першої доби публікація в середньому набирає 766 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 3.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як distance, insidead, gpu, learning, degree.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Real Machine Learning — simple, practical, and built on experience.
Learn step by step with clear explanations and working code.
Admin: @HusseinSheikho || @Hussein_Sheikho”
Завдяки високій частоті оновлень (останні дані отримано 30 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
pip install torch transformers peft
✅ The packages have been successfully installed in the system and are ready for configuring lightweight training. We will create a basic Prompt Tuning configuration for training just twenty virtual tokens instead of billions of model parameters.
from peft import PromptTuningConfig, PromptTuningInit, get_peft_model
from transformers import AutoModelForCausalLM
peft_config = PromptTuningConfig(
task_type="CAUSAL_LM",
prompt_tuning_init=PromptTuningInit.TEXT,
num_virtual_tokens=20,
prompt_tuning_init_text="Classify the sentiment of this text:",
tokenizer_name_or_path="gpt2"
)
🔄 The configuration is initialized and links the text prompt to the trainable virtual embeddings. We will wrap the base model in a PEFT container to freeze the main weights and leave only the new tokens available for gradient descent.
base_model = AutoModelForCausalLM.from_pretrained("gpt2")
peft_model = get_peft_model(base_model, peft_config)
peft_model.print_trainable_parameters()
🚀 The model is ready for training, and the percentage of active parameters will be displayed on the screen (usually less than 0.01%).
python3 -c "from peft import PromptTuningConfig; print('PEFT Setup: OK')"
📝 Expected output: PEFT Setup: OK
pip uninstall peft -y
💡 Prompt Tuning — an ideal choice when you need to train a model for many different customers or tasks simultaneously. Instead of gigabyte-sized copies of neural networks, you store only lightweight configuration files weighing a few kilobytes, dynamically substituting them at inference.
#PromptTuning #PEFT #AI #MachineLearning #DeepLearning #DataScience
✨ Join Best TG Channels https://t.me/addlist/0f6vfFbEMdAwODBk
⭐️ Join Our WhatsApp Channel https://whatsapp.com/channel/0029VaC7Weq29753hpcggW2A
🚀 Level up your AI & Data Science skills with HelloEncyclo — a growing all-in-one platform featuring hands-on courses in LLMs, Deep Learning, MLOps, Data Engineering, and more.
✅ 13 courses live + 40+ coming soon
🎯 One access, lifetime updates
🔑 Use code: PRESALE-BOOK-WAVE-2GFG
👉 https://helloencyclo.com/?ref=HUSSEINSHEIKHOfit the scaler on all data → split the data → evaluate
Right:
split the data → fit the scaler only on the training set → apply it to both the training and test sets
The same idea applies to imputers, encoders, feature selection, PCA, and any preprocessing step that is trained on the data.
6. Cross-Validation 🔄
Each fold is a mini-experiment with a training and test set.
Therefore, preprocessing should be performed within each fold.
If you prepared the entire dataset once and then ran cross-validation, each fold would already have had access to its held-out data.
7. Pipelines 🛠️
A pipeline isn't just a way to make the code cleaner.
It's also a defense against data leakage.
Combine preprocessing, feature selection, and the model into a single pipeline, and then pass this pipeline to cross-validation or hyperparameter search (grid search).
8. AI Engineering Version 🤖
Data leaks also occur in RAG systems and when evaluating LLMs.
Leakage occurs when you tune chunks, prompts, re-rankers, thresholds, or examples on the same evaluation dataset that you later present as "held-out".
As a result, your benchmark turns into training data.
9. Leakage Checklist ✅
Before trusting the obtained metric, ask yourself:
- Could this feature exist at the time of prediction?
- Was any transformation (transform) step trained (fit) on the test data?
- Did cross-validation include the entire pipeline?
- Were we tuning parameters on the final evaluation dataset?
If the answer is "yes", then the metric likely doesn't reflect the actual quality of the model.
#MachineLearning #DataScience #MLOps #DataLeakage #ArtificialIntelligence #TechTips
✨ Join Best TG Channels https://t.me/addlist/0f6vfFbEMdAwODBk
⭐️ Join Our WhatsApp Channel https://whatsapp.com/channel/0029VaC7Weq29753hpcggW2A
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
