cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

Дата-Утренник

Канал про интересное IT Находки, библиотеки, слабоосвещенные темы и полезные материалы. Автор - @Cucu_LaPraline

Больше
Рекламные посты
280
Подписчики
Нет данных24 часа
Нет данных7 дней
+1530 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

Фото недоступноПоказать в Telegram
MLC LLM *Machine Learning Compilation for Large Language Models 🔥Коротко: движок, который помогает вам деплоить ваши модели под Android, IOS, Windows, Linux, Mac и Web Browser Больше всего меня заинтересовал WebGPU - можно переложить часть вычислений на пользователя, чтобы разгрузить сервер. Особенно актуально для чат-ботов или небольших приложений, для которых хост с гпу - оверкилл. @data_morning Сайт Github
Показать все...
👍 4🔥 2
00:35
Видео недоступноПоказать в Telegram
🧹Scrapper Инструмент для парсинга страниц с JS. Работает в докере, можно обращаться по апи, сложнее детектируется как бот, может парсить в режиме просмотра (только текст), может использовать прокси и многое другое. Github
Показать все...
225941167-633576fa-c9e2-4c63-b1fd-879be2d137fa.mp44.39 MB
👍 7
Сморите что нашел 👉DragDiffusion - модель, способная редактировать изображения на основе точек, заданных юзером. Есть примеры использования, руководство по настройке и запуску модели. @data_morning github примеры
Показать все...
CF3.mp45.04 KB
CF2.mp43.51 KB
CF1.mp44.50 KB
🔥 5👍 2
Фото недоступноПоказать в Telegram
👀 Распознавание патологий глаза 👉 FLAIR - моделька по типу клипа для распознавания 96-и классов патологий глаза. Обучена на 37 датасетах. Показывает высокие результаты при zero-shot подходе с "расшифровками" медицинских абревиатур. Для каждой аббревиатуры есть таблица с полным названием и 1-5 коротких экспертных описаний. Для анализа требуется изображение глаза в высоком разрешении. @data_morning Project Page | Paper | Code | Colab
Показать все...
👍 8🤩 1
Фото недоступноПоказать в Telegram
👉Streamsync Достойный аналог Streamlit для деплоя Big Data приложений. 🔥Плюсы: разделение концепции UI и бизнес-логики, многократный прирост скорости за счет сокетов, скрипты запускаются только раз. Основная проблема Streamlit - любое действие на странице требует полный прогон всего кода. Вас не спасет кеширование - если данные весят несколько гигов, то на любое действие пользователя придется создавать копию данных в памяти, а это медленно. Часто интерфейс просто отваливается. Проект основан на Vue js, но запускается в питоне. Есть большинство необходимых компонентов. Однозначно стоит попробовать. @data_morning Live demo <- можно потыкать Github
Показать все...
🔥 10
Фото недоступноПоказать в Telegram
Fonetika 👉Библиотека позволяет представить варианты написания одного слова как последовательность букв и цифр, может измерять расстояние между фонемами. корован -> 3090208 караван -> 3090208 К0р0ван -> 3090208 километр -> 30708049 кoрован -> 3090208 (первая 'o' - латиница) 🔥Кейс - проверка никнейма на запрещенные слова @data_morning Github
Показать все...
🔥 16🤯 1
Фото недоступноПоказать в Telegram
🥋Парсинг кода 👉 tree-hugger - надстройка над tree-sitter (абстрактное синтаксическое дерево) для Python, PHP, Java, JavaScript, C++. Основной плюс этого API - запуск из питона. Часто парсеры пишутся и запускаются из под одного языка (Условный парсер Go написан на Go). Это накладывает некоторые ограничения, когда приходится работать с несколькими ЯП. 🔥 Библиотека адаптирована под датамайнинг из открытых репозиториев и позволяет добавлять другие языки. @data_morning Github
Показать все...
🔥 7 1
Confusion Matrix Вероятно вы сталкивались с ней, когда изучали метрики классификации. Считать таблицу приходится крайне редко, но бывает необходимо во время собеседований. Задача решается просто, когда мы работаем с бинарной классификацией - легко запомнить 4 случая. Но как считать матрицу, когда у нас N лейблов? Не советую запоминать картинку как FN - строка или FP - колонка. Порешайте, потупите, но осознайте. Сам я понял это примерно так: Выбираем класс (пусть будет Boat) Смотрим на советующие колонку и строку TP - мы верно предсказали FP - мы предсказали Boat, хотя должны что-то другое FN - мы предсказываем что-то другое, хотя лейбл Boat TN - все, что не попало в TP, FP, FN Теперь нам известны значения для класса Boat. @data_morning Про Confusion Matrix и micro, macro усреднение (очень понравилась статья, есть примеры и иллюстрации)
Показать все...
👍 6
Фото недоступноПоказать в Telegram
ML Model Watermarking SAP сделали инструмент для защиты моделей машинного обучения путем добавления водяных знаков (в веса модели) на основных фреймворках: Scikit-learn, PyTorch, HuggingFace. Добавление водяных знаков не сильно влияет на точность модели, но позволяет доказать ее владение и предотвратить несанкционированное использование. @data_morning github
Показать все...
🔥 10🌚 2👍 1🤔 1
Фото недоступноПоказать в Telegram
Multilingual databricks dolly 15k Набор из 15 000 высококачественных пар запросов/ответов (инструкций), созданных людьми и предназначенных для настройки больших языковых моделей. Может применяться в коммерции. Сделал параллельный корпус на 6 языков (Russian, English, Kazakh, Spanish, Italian, French) из исходного databricks-dolly-15k. Всего около 90к строк. Ждем Dolly v2 для русского. @data_morning Данные на Kaggle Попробовать Dolly v2
Показать все...
🔥 8👍 1💩 1
Выберите другой тариф

Ваш текущий тарифный план позволяет посмотреть аналитику только 5 каналов. Чтобы получить больше, выберите другой план.