Дата-Утренник
Канал про интересное IT Находки, библиотеки, слабоосвещенные темы и полезные материалы. Автор - @Cucu_LaPraline
Больше280
Подписчики
Нет данных24 часа
Нет данных7 дней
+1530 дней
- Подписчики
- Просмотры постов
- ER - коэффициент вовлеченности
Загрузка данных...
Прирост подписчиков
Загрузка данных...
Фото недоступноПоказать в Telegram
MLC LLM
*Machine Learning Compilation for Large Language Models
🔥Коротко: движок, который помогает вам деплоить ваши модели под Android, IOS, Windows, Linux, Mac и Web Browser
Больше всего меня заинтересовал WebGPU - можно переложить часть вычислений на пользователя, чтобы разгрузить сервер. Особенно актуально для чат-ботов или небольших приложений, для которых хост с гпу - оверкилл.
@data_morning
Сайт
Github
👍 4🔥 2
00:35
Видео недоступноПоказать в Telegram
🧹Scrapper
Инструмент для парсинга страниц с JS.
Работает в докере, можно обращаться по апи, сложнее детектируется как бот, может парсить в режиме просмотра (только текст), может использовать прокси и многое другое.
Github
225941167-633576fa-c9e2-4c63-b1fd-879be2d137fa.mp44.39 MB
👍 7
Сморите что нашел
👉DragDiffusion - модель, способная редактировать изображения на основе точек, заданных юзером. Есть примеры использования, руководство по настройке и запуску модели.
@data_morning
github
примеры
CF3.mp45.04 KB
CF2.mp43.51 KB
CF1.mp44.50 KB
🔥 5👍 2
Фото недоступноПоказать в Telegram
👀 Распознавание патологий глаза
👉 FLAIR - моделька по типу клипа для распознавания 96-и классов патологий глаза. Обучена на 37 датасетах. Показывает высокие результаты при zero-shot подходе с "расшифровками" медицинских абревиатур. Для каждой аббревиатуры есть таблица с полным названием и 1-5 коротких экспертных описаний. Для анализа требуется изображение глаза в высоком разрешении.
@data_morning
Project Page | Paper | Code | Colab
👍 8🤩 1
Фото недоступноПоказать в Telegram
👉Streamsync
Достойный аналог Streamlit для деплоя Big Data приложений.
🔥Плюсы: разделение концепции UI и бизнес-логики, многократный прирост скорости за счет сокетов, скрипты запускаются только раз.
Основная проблема Streamlit - любое действие на странице требует полный прогон всего кода. Вас не спасет кеширование - если данные весят несколько гигов, то на любое действие пользователя придется создавать копию данных в памяти, а это медленно. Часто интерфейс просто отваливается.
Проект основан на Vue js, но запускается в питоне. Есть большинство необходимых компонентов. Однозначно стоит попробовать.
@data_morning
Live demo <- можно потыкать
Github
🔥 10
Фото недоступноПоказать в Telegram
Fonetika
👉Библиотека позволяет представить варианты написания одного слова как последовательность букв и цифр, может измерять расстояние между фонемами.
корован -> 3090208
караван -> 3090208
К0р0ван -> 3090208
километр -> 30708049
кoрован -> 3090208 (первая 'o' - латиница)
🔥Кейс - проверка никнейма на запрещенные слова
@data_morning
Github
🔥 16🤯 1
Фото недоступноПоказать в Telegram
🥋Парсинг кода
👉 tree-hugger - надстройка над tree-sitter (абстрактное синтаксическое дерево) для Python, PHP, Java, JavaScript, C++.
Основной плюс этого API - запуск из питона. Часто парсеры пишутся и запускаются из под одного языка (Условный парсер Go написан на Go). Это накладывает некоторые ограничения, когда приходится работать с несколькими ЯП.
🔥 Библиотека адаптирована под датамайнинг из открытых репозиториев и позволяет добавлять другие языки.
@data_morning
Github
🔥 7❤ 1
Confusion Matrix
Вероятно вы сталкивались с ней, когда изучали метрики классификации. Считать таблицу приходится крайне редко, но бывает необходимо во время собеседований.
Задача решается просто, когда мы работаем с бинарной классификацией - легко запомнить 4 случая. Но как считать матрицу, когда у нас N лейблов?
Не советую запоминать картинку как FN - строка или FP - колонка. Порешайте, потупите, но осознайте.
Сам я понял это примерно так:
Выбираем класс (пусть будет Boat)
Смотрим на советующие колонку и строку
TP - мы верно предсказали
FP - мы предсказали Boat, хотя должны что-то другое
FN - мы предсказываем что-то другое, хотя лейбл Boat
TN - все, что не попало в TP, FP, FN
Теперь нам известны значения для класса Boat.
@data_morning
Про Confusion Matrix и micro, macro усреднение (очень понравилась статья, есть примеры и иллюстрации)
👍 6
Фото недоступноПоказать в Telegram
ML Model Watermarking
SAP сделали инструмент для защиты моделей машинного обучения путем добавления водяных знаков (в веса модели) на основных фреймворках: Scikit-learn, PyTorch, HuggingFace.
Добавление водяных знаков не сильно влияет на точность модели, но позволяет доказать ее владение и предотвратить несанкционированное использование.
@data_morning
github
🔥 10🌚 2👍 1🤔 1
Фото недоступноПоказать в Telegram
Multilingual databricks dolly 15k
Набор из 15 000 высококачественных пар запросов/ответов (инструкций), созданных людьми и предназначенных для настройки больших языковых моделей. Может применяться в коммерции.
Сделал параллельный корпус на 6 языков (Russian, English, Kazakh, Spanish, Italian, French) из исходного databricks-dolly-15k. Всего около 90к строк.
Ждем Dolly v2 для русского.
@data_morning
Данные на Kaggle
Попробовать Dolly v2
🔥 8👍 1💩 1
Выберите другой тариф
Ваш текущий тарифный план позволяет посмотреть аналитику только 5 каналов. Чтобы получить больше, выберите другой план.