Дата-Утренник

@data_morning

Канал про интересное IT Находки, библиотеки, слабоосвещенные темы и полезные материалы. Автор - @Cucu_LaPraline

Больше

Россия225 781Русский349 467Технологии и приложения23 276

Рекламные посты

280

Подписчики

Нет данных24 часа

Нет данных7 дней

+1530 дней

2 726

Просмотры поста

Нет данных24 часа

Нет данных48 часов

973.57%

Коэффициент вовлеченности

Нет данных24 часа

Нет данных48 часов

Упоминания

Нет данных7 дней

Нет данных30 дней

Нет данных

Постов в день

~ 7

Реакции

~ 1

Комментарии

~ 56

Репосты

Подписчики
Просмотры постов
ER - коэффициент вовлеченности

Загрузка данных...

Фото недоступноПоказать в Telegram

MLC LLM *Machine Learning Compilation for Large Language Models 🔥Коротко: движок, который помогает вам деплоить ваши модели под Android, IOS, Windows, Linux, Mac и Web Browser Больше всего меня заинтересовал WebGPU - можно переложить часть вычислений на пользователя, чтобы разгрузить сервер. Особенно актуально для чат-ботов или небольших приложений, для которых хост с гпу - оверкилл. @data_morning Сайт Github

Показать все...

👍 4🔥 2

00:35

Видео недоступноПоказать в Telegram

🧹Scrapper Инструмент для парсинга страниц с JS. Работает в докере, можно обращаться по апи, сложнее детектируется как бот, может парсить в режиме просмотра (только текст), может использовать прокси и многое другое. Github

Показать все...

225941167-633576fa-c9e2-4c63-b1fd-879be2d137fa.mp44.39 MB

👍 7

00:04
Видео недоступноПоказать в Telegram
00:08
Видео недоступноПоказать в Telegram
00:06
Видео недоступноПоказать в Telegram

Сморите что нашел 👉DragDiffusion - модель, способная редактировать изображения на основе точек, заданных юзером. Есть примеры использования, руководство по настройке и запуску модели. @data_morning github примеры

Показать все...

CF3.mp45.04 KB

CF2.mp43.51 KB

CF1.mp44.50 KB

🔥 5👍 2

Фото недоступноПоказать в Telegram

👀 Распознавание патологий глаза 👉 FLAIR - моделька по типу клипа для распознавания 96-и классов патологий глаза. Обучена на 37 датасетах. Показывает высокие результаты при zero-shot подходе с "расшифровками" медицинских абревиатур. Для каждой аббревиатуры есть таблица с полным названием и 1-5 коротких экспертных описаний. Для анализа требуется изображение глаза в высоком разрешении. @data_morning Project Page | Paper | Code | Colab

Показать все...

👍 8🤩 1

Фото недоступноПоказать в Telegram

👉Streamsync Достойный аналог Streamlit для деплоя Big Data приложений. 🔥Плюсы: разделение концепции UI и бизнес-логики, многократный прирост скорости за счет сокетов, скрипты запускаются только раз. Основная проблема Streamlit - любое действие на странице требует полный прогон всего кода. Вас не спасет кеширование - если данные весят несколько гигов, то на любое действие пользователя придется создавать копию данных в памяти, а это медленно. Часто интерфейс просто отваливается. Проект основан на Vue js, но запускается в питоне. Есть большинство необходимых компонентов. Однозначно стоит попробовать. @data_morning Live demo <- можно потыкать Github

Показать все...

🔥 10

Фото недоступноПоказать в Telegram

Fonetika 👉Библиотека позволяет представить варианты написания одного слова как последовательность букв и цифр, может измерять расстояние между фонемами. корован -> 3090208 караван -> 3090208 К0р0ван -> 3090208 километр -> 30708049 кoрован -> 3090208 (первая 'o' - латиница) 🔥Кейс - проверка никнейма на запрещенные слова @data_morning Github

Показать все...

🔥 16🤯 1

Фото недоступноПоказать в Telegram

🥋Парсинг кода 👉 tree-hugger - надстройка над tree-sitter (абстрактное синтаксическое дерево) для Python, PHP, Java, JavaScript, C++. Основной плюс этого API - запуск из питона. Часто парсеры пишутся и запускаются из под одного языка (Условный парсер Go написан на Go). Это накладывает некоторые ограничения, когда приходится работать с несколькими ЯП. 🔥 Библиотека адаптирована под датамайнинг из открытых репозиториев и позволяет добавлять другие языки. @data_morning Github

Показать все...

🔥 7❤ 1

Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram

Confusion Matrix Вероятно вы сталкивались с ней, когда изучали метрики классификации. Считать таблицу приходится крайне редко, но бывает необходимо во время собеседований. Задача решается просто, когда мы работаем с бинарной классификацией - легко запомнить 4 случая. Но как считать матрицу, когда у нас N лейблов? Не советую запоминать картинку как FN - строка или FP - колонка. Порешайте, потупите, но осознайте. Сам я понял это примерно так: Выбираем класс (пусть будет Boat) Смотрим на советующие колонку и строку TP - мы верно предсказали FP - мы предсказали Boat, хотя должны что-то другое FN - мы предсказываем что-то другое, хотя лейбл Boat TN - все, что не попало в TP, FP, FN Теперь нам известны значения для класса Boat. @data_morning Про Confusion Matrix и micro, macro усреднение (очень понравилась статья, есть примеры и иллюстрации)

Показать все...

👍 6

Фото недоступноПоказать в Telegram

ML Model Watermarking SAP сделали инструмент для защиты моделей машинного обучения путем добавления водяных знаков (в веса модели) на основных фреймворках: Scikit-learn, PyTorch, HuggingFace. Добавление водяных знаков не сильно влияет на точность модели, но позволяет доказать ее владение и предотвратить несанкционированное использование. @data_morning github

Показать все...

🔥 10🌚 2👍 1🤔 1

Фото недоступноПоказать в Telegram

Multilingual databricks dolly 15k Набор из 15 000 высококачественных пар запросов/ответов (инструкций), созданных людьми и предназначенных для настройки больших языковых моделей. Может применяться в коммерции. Сделал параллельный корпус на 6 языков (Russian, English, Kazakh, Spanish, Italian, French) из исходного databricks-dolly-15k. Всего около 90к строк. Ждем Dolly v2 для русского. @data_morning Данные на Kaggle Попробовать Dolly v2

Показать все...

🔥 8👍 1💩 1

Выберите другой тариф

Ваш текущий тарифный план позволяет посмотреть аналитику только 5 каналов. Чтобы получить больше, выберите другой план.