Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Ko'proq ko'rsatish📈 Telegram kanali Machinelearning analitikasi
Machinelearning (@ai_machinelearning_big_data) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 295 915 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 332-o'rinni va Rossiya mintaqasida 1 276-o'rinni egallagan.
📊 Auditoriya ko‘rsatkichlari va dinamika
невідомо sanasidan buyon loyiha tez o‘sib, 295 915 obunachiga ega bo‘ldi.
22 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -6 276 ga, so‘nggi 24 soatda esa -223 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.
- Tasdiqlash holati: Tasdiqlanmagan
- Jalb etish (ER): Auditoriya o‘rtacha 8.09% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.69% ini tashkil etuvchi reaksiyalarni to‘playdi.
- Post qamrovi: Har bir post o‘rtacha 23 927 marta ko‘riladi; birinchi sutkada odatda 16 831 ta ko‘rish yig‘iladi.
- Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 193 ta reaksiya keladi.
- Tematik yo‘nalishlar: Kontent openai, claude, api, gemini, контекст kabi asosiy mavzularga jamlangan.
📝 Tavsif va kontent siyosati
Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Yuqori yangilanish chastotasi (oxirgi ma’lumot 23 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.
+0, +60, +120, +180, +240, +300.
⚠️ Рекомендованная VRAM - 40GB, но по неподтвержденным данным из issue - запускается c 20 GB на 3090.
▶️Локальный запуск с GradioUI:
# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1
# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh
# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite
# Open in browser link http://127.0.0.1:8080/
📌Лицензирование: Tencent Hunyuan Non-Commercial License.
🟡Модель
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencenttop-k маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным.
Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой.
Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C).
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #MoE #HunyuanLarge #Tencent --enable_cpu_offload, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.
⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.
▶️Параметры инференса в CLI:
# Run inference
python single_inference.py
# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42
📌Лицензирование: Apache 2.0 license.
🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Text-to-Video #DiT #AllegroCVE-2024-39722 (CVSS score: 7.5), которая представляет собой обход пути в api/push, предоставляющий доступ к файлам, существующим на сервере и всей структуре каталогов, в которой развернута Ollama.
Две другие уязвимости могут привести к отравлению модели через /api/pull из ненадежного источника или краже модели через /api/push.
Исследователи обнаружили 9 831 уникальный экземпляр Ollama, доступный из Интернета, причем большинство из них расположено в Китае, США, Германии, Южной Корее, Тайване, Франции, Великобритании, Индии, Сингапуре и Гонконге.
Каждый четвертый сервер, доступный из Интернета, оказался уязвим.
thehackernews.com
✔️ Быстрое развитие ИИ приведет к резкому росту электронных отходов.
Исследование, опубликованное в журнале Nature Computational Science, подробно описывает 4 возможных сценария внедрения генеративного ИИ: от ограниченного до агрессивного расширения, с прогнозом потенциального увеличение электронных отходов от уровня 2023 года в 2600 тонн в год.
Модель агрессивного внедрения LLM в частных компаниях и на предприятиях приведет к образованию 2,5 млн. тонн электронных отходов в год к 2030 году. Ограниченное расширение использования ИИ приведет к образованию в общей сложности 1,2 млн. тонн электронных отходов с 2023 по 2030 год.
spectrum.ieee.org
✔️ Поколение Z и миллениалы используют ИИ для управления личными финансами.
Согласно новому отчету Experian, около 67% опрошенных представителей поколения Z и 62% опрошенных миллениалов используют искусственный интеллект для решения задач, связанных с управлением личными финансами. Большинство из них пользуются генеративным ИИ для решения финансовых вопросов не реже одного раза в неделю.
В отчете говорится, что пользователи считают, что ChatGPT, помогают им в накоплениях и составлении бюджета (60%), инвестиционном планировании (48%) и повышении кредитного рейтинга (48%).
98% взрослых представителей поколения Z и 98% миллениалов положительно оценили свой опыт работы с ИИ-сервисами.
cnbc.com
✔️ Apple представит новые исследования на конференции по эмпирическим методам обработки естественного языка (EMNLP).
EMNLP 2024 пройдет в Майами с 12 по 16 ноября. Apple представит свои исследования и выступит спонсором конференции, на которой соберутся представители научного и корпоративного сообществ, занимающихся исследованиями в области NLP и AI. На EMNLP будут представлены доклады, посвященные обработке естественного языка, машинному обучению, глубокому обучению и компьютерной лингвистике.
Среди заявленных работ - исследования, посвященные кросс-культурному машинному переводу, модели обновления для совместимой эволюции LLM и ранжированию любой степени детализации с помощью многовекторных вложений. На конференции также пройдут семинары по WiNLP и BlackboxNLP.
machinelearning.apple.com
✔️ Intel готовит к выпуску новое поколение графических процессоров Battlemage.
Intel готовится к выпуску нового поколения графических процессоров под кодовым названием Battlemage, которые, как ожидается, появятся на рынке в конце 2024 или начале 2025 года.
Intel пока не подтвердила официальные характеристики, но, по слухам, Battlemage будет основан на новой архитектуре Xe2 и будет доступен в двух вариантах: X2 и X3. Предполагается, что X2, флагманская модель, будет иметь 32 ядра Xe2, что соответствует 4096 потоковым процессорам и 512 исполнительным блокам. X3, по слухам, будет иметь 28 ядер Xe2 (3584 потоковых процессора и 448 исполнительных блоков).
Ожидается, что Intel сосредоточится на бюджетном и среднем сегментах рынка. По оценкам, цена на флагманскую модель составит от 350 до 500 долл. США. Intel заявляет, что Battlemage обеспечит 50% прирост производительности по сравнению с предыдущей архитектурой.
digitaltrends.com
@ai_machinelearning_big_data
#news #ai #mlfrom transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
📌Лицензирование: Apache 2.0 License.
🟡Коллекция моделей на HF
🟡Demo SmolLM2 1.7B
@ai_machinelearning_big_data
#AI #ML #SLM #Huggingface #SmolLM2RUNAI_STREAMER_MEMORY_LIMIT
▶️ Пример запуска с локального диска:
# Install streamer from pip
pip install runai-model-streamer
# Load the tensors to the buffer and stream to the GPU
from runai_model_streamer import SafetensorsStreamer
file_path = "/path/to/file.safetensors"
with SafetensorsStreamer() as streamer:
streamer.stream_file(file_path)
for name, tensor in streamer.get_tensors():
tensor.to('CUDA:0')
📌Лицензирование: Apache 2.0 License.
🟡Бенчмарки в блоге RunAI
🟡Документация
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #RunAI #ModelStramer# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine
# Install requirements for inference
pip install -r tools/inference/requirements.txt
# Install ONNX
pip install onnx onnxsim
# Choose a model
export model=l # s, m, x
# Inference
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4
📌Лицензирование: Apache 2.0 License.
🟡Arxiv
🖥Github
@ai_machinelearning_big_data
#AI #ML #DETR #DFine #Detectionink tokenizer", преобразующий точки в формат, удобный для обработки LLM.
Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели:
🟠Small-i - 340M (ViT B/16 + mT5-base), обучена на датасете JFT-300M;
🟢Small-p - 340М (ViT B/16 + mT5-base), обучена на датасете ImageNet-21k;
🟠Large-i - 1B (ViT L/16 + mT5-large), обучена на датасете JFT-300M.
Все модели используют контекст длиной 1024 для инференса и 128 для ввода.
Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS.
Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную.
⚠️ В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU, дополнительные материалы, упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах + пример кода для выполнения инференса.
▶️Локальный запуск клонированием InkSight Demo HF :
# Clone the huggingface space
git clone https://huggingface.co/spaces/Derendering/Model-Output-Playground
# Install the dependencies (skip if you have them already)
pip install gradio gdown
# Run the Gradio Playground
python app.py
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #InkSight #GoogleResearch
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
