Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Больше📈 Аналитический обзор Telegram-канала Machinelearning
Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 295 417 подписчиков, занимая 333 место в категории Технологии и приложения и 1 275 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 295 417 подписчиков.
Согласно последним данным от 24 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 346, а за последние 24 часа — -267, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.94%. В первые 24 часа после публикации контент обычно набирает 5.71% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 23 454 просмотров. В течение первых суток публикация набирает 16 873 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 183.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Благодаря высокой частоте обновлений (последние данные получены 25 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
–enable-experimental-jit;
🟢экспериментальный режим сборки CPython без GIL. Запуск –without-gil;
🟢интерактивный интерпретатор с многострочным редактированием, по подобию PyPy;
🟢изменена семантика locals() для функций, генераторов и сопрограмм;
🟢включена в состав модифицированная версия mimalloc от Microsoft;
🟢компилятор теперь очищает лидирующие пробелы из docstring;
🟢в модуле dbm реализован бэкенд dbm.sqlite3 по умолчанию для новых файлов;
🟢typing.TypeIs стала более интуитивной, чем typing.TypeGuard;
🟢typing.ReadOnly позволяет помечать элементы TypeDicts, доступные только для чтения;
🟢warnings.deprecated() добавлена для указания устаревших элементов в системе типов;
🟢удалены ifc, audioop, chunk, cgi, cgitb, crypt, imghdr, mailcap, msilib, nis, nntplib, ossaudiodev, pipes, sndhdr, spwd, sunau, telnetlib, uu, xdrlib и lib2to3 из стандартной библиотеки;
🟢в copy добавлена copy.replace();
🟢в os добавлены функции для работы с таймером через timerfd;
🟢random получил интерфейс CLI;
🟢macOS версий 10.9 - 10.12 больше не поддерживаются.
▶️Страница релиза 3.13 ▶️Документация 3.13
Git выпустил Git 2.47 с функциями и исправлениями ошибок от более чем 83 разработчиков, 28 из которых - новые.
В этой версии основное внимание уделяется повышению производительности и улучшению пользовательского опыта.
Основные изменения:
🟠инкрементные многопакетные индексы: экспериментальная функция, позволяющая сохранять несколько многопакетных индексов в цепочке слоев MIDX;
🟠ускорена идентификация базовой ветви : новый инструмент for-each-ref помогает определять базовую ветвь коммита, сводя к минимуму уникальные коммиты от первого родителя и упрощая идентификацию;
🟠обновлена политика поддержки: в Git 2.47 представлен новый документ, описывающий требования к поддержке для различных платформ, включая стандарты C99 или C11 и стабильные версии зависимостей;
🟠DEVELOPER=1 mode: теперь при компиляции с DEVELOPER=1 наличие неиспользуемых параметров является ошибкой времени компиляции;
🟠остальные улучшения : усовершенствования серверной части reftable, обновление платформы модульного тестирования, усовершенствование git fsck и интеграция кода Visual Studio с git mergetool.
▶️Полный список изменений
@ai_machinelearning_big_data
#AI #ML #Python #Git #Releasecpu_offload и disable_refiner.
Примерная утилизация VRAM для Gradio с использованием оптимизации выглядит следующим образом:
🟠no flags - 19 GB VRAM;
🟢cpu_offload - 13GB VRAM;
🟠disable_refiner - 15GB VRAM;
🟢cpu_offload + disable_refiner - 8 GB VRAM.
▶️Установка и запуск с Gradio или CLI:
# Clone the repository
git clone https://github.com/genforce/ctrl-x.git
# Create Conda environment
conda env create -f environment.yaml
conda activate ctrlx
# Run Gradio Demo
python app_ctrlx.py
# or run CLI inference
python run_ctrlx.py \
--structure_image assets/images/horse__point_cloud.jpg \
--appearance_image assets/images/horse.jpg \
--prompt "a photo of a horse standing on grass" \
--structure_prompt "a 3D point cloud of a horse"
🟡Страница проекта
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Diffusers #CtrlX# setting up a venv:
conda create -n depth-pro -y python=3.9
conda activate depth-pro
pip install -e .
# Download pretrained checkpoints:
source get_pretrained_models.sh
# Run the inference from CLI on a single image:
depth-pro-run -i ./data/example.jpg
# Running from python
from PIL import Image
import depth_pro
model, transform = depth_pro.create_model_and_transforms()
model.eval()
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"] # Depth in [m].
focallength_px = prediction["focallength_px"] # Focal length in pixels.
📌Лицензирование : Apple Sample Code license.
🟡Модель
🟡Demo
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ViT #Depth #Applerun_inference.py с последующей пересборкой Docker-образа.
В проекте предусмотрен файл Aptfile, содержащий список необходимых пакетов ROCm (rocm-dev, rocm-libs, rocm-cmake, miopen-hip и rocblas) , устанавливаемых в Docker-контейнере.
▶️Локальная установка и инференс:
# Clone repo:
git clone https://github.com/yourusername/amd-gpu-inference.git
cd amd-gpu-inference
# Make the run script executable:
chmod +x run-docker-amd.sh
# Run the inference engine with a specified model and prompt:
# Replace "meta-llama/Llama-2-7b-chat-hf" with the HF model you want to use, and provide your own prompt
./run-docker-amd.sh "meta-llama/Llama-2-7b-chat-hf" "Prompt"
📌Лицензирование : Apache 2.0 License.
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #ROCm #AMDrecognize_wav.py. Для каждого режима будут созданы отдельные выходные каталоги. Варианты декодирования:
🟢attention;
🟢ctc_greedy_search;
🟢ctc_prefix_beam_search;
🟢attention_rescoring;
🟢joint_decoding.
В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры).
Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного.
Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм.
Reverb diarization v1 использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 использует WavLM вместо функций SincNet в базовой модели pyannote 3.0.
Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой.
▶️Локальное использование предусматривает несколько вариантов: установка с anaconda, использование Docker-образа и масштабное развертывание.
⚠️ Для локальной установки понадобится Huggingface API KEY
🟡Набор моделей
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #Diarization #REVAIfrom_pretrained и push_to_hub.
Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.
Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.
Model2Vec работает в двух режимах:
🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;
🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.
Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).
Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.
▶️Пример дистилляции:
from model2vec.distill import distill
# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"
# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)
# Save the model
m2v_model.save_pretrained("m2v_model")
▶️Пример инференса:
from model2vec import StaticModel
# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)
# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])
📌Лицензирование : MIT License.
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Embedding #Model2Vecfrom_pretrained и push_to_hub.
Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.
Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.
Model2Vec работает в двух режимах:
🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;
🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.
Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).
Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.
▶️Пример дистилляции:
from model2vec.distill import distill
# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"
# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)
# Save the model
m2v_model.save_pretrained("m2v_model")
▶️Пример инференса:
from model2vec import StaticModel
# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)
# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])
📌Лицензирование : MIT License.
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Embedding #Model2Vec
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
