cookie

Ми використовуємо файли cookie для покращення вашого досвіду перегляду. Натиснувши «Прийняти все», ви погоджуєтеся на використання файлів cookie.

avatar

Mashkka про Data Science

Пишу здесь про Data Science, NLP и жизнь в ИТ

Більше
Рекламні дописи
2 822
Підписники
+524 години
+37 днів
+5530 днів

Триває завантаження даних...

Приріст підписників

Триває завантаження даних...

Repost from Complete AI
⚡️Сегодня мы выпустили обновлённую версию Kandinsky Video 1.1 в публичный доступ Основные изменения коснулись качества генерации (поработали с самим пайплайном синтеза, улучшили латентный декодер, использовали значительно бОльший сет на обучении) и, конечно, скорости - видео длиной 5 секунд генерируется примерно за 1.5 минуты (это если без очереди) с FPS=30. 📖 Детали по классике в Хабре 🛜 Ссылки собрали на Project Page 🤖 Бот в телеграмм теперь и с видео @complete_ai
Показати все...
👍 7🍾 3
Repost from Master of Data Science
Фото недоступнеДивитись в Telegram
В чем разница между машинным и глубинным обучением? Про второе можно узнать на вебинаре 28 мая На вебинаре "Introduction to Neural Networks" Мария Тихонова расскажет про основы глубинного обучения (Deep Learning) и концепции нейронных сетей. Посетив вебинар, вы сможете узнать: ⭐️ Как качественно обучить нейросеть, чтобы она понимала все запросы; ⭐️ Что лежит в основе создания современных нейронных сетей; ⭐️ Можно ли создать свою нейросеть. Для кого: для всех, кто хочет разобраться в структуре нейронных сетей с самых азов. 🎙️ Спикер: Мария Тихонова, Senior Data Scientist в SberDevices 📆 Дата: 28 мая, 18:00 📕 Зарегистрироваться по ссылке ➖➖➖➖➖➖ Вебинар организован онлайн-магистратурой "Master of Data Science" и пройдет на английском языке.
Показати все...
7👍 2❤‍🔥 2
🇯🇵Невероятно, но факт: неожиданные особенности Японии Задолжала вам подборку интересных фактов про Японию. Решила, что вечер пятницы для подобного поста - отличных день. ⠀ ➖У японцев не принято говорить громко, они говорят тихо, почти шепотом. ➖Все купюры выглядят как новые, так как в банкоматах и во всех автоматах они проходят через цикл обеззараживания и отпаривания. Таких помятых банкнот как у нас тут просто не найти. ➖Японки любят носить ультракороткие юбки, но у них не принято глубокое декольте и даже плечи в городе предпочитают не оголять несмотря на жару. ➖В Японии на улице нет общественных урн от слова совсем, здесь все носят мусор с собой, выкидывая его дома. А бросать его на улице - великий грех. Мусорок крайне мало, они есть разве что в 7eleven и кафе. Общественный туалет здесь намного проще найти (и часто проще найти его и выкинуть мусор там). ➖Во многих местах, например, в традиционных ресторанах, принято снимать в обувь и надевать специальные тапочки для гостей, либо ходить в носках. В последнем случае в уборной будут стоять специальные тапочки для туалета, которыми можно воспользоваться, когда заходишь туда. ➖В Японии все унитазы в уборных с подогревом! И даже если туалет общественный, то там обязательно будет теплый унитаз, а еще многофункциональное биде и возможность включить звук воды. ➖Японцы всячески избегают солнца, и чтобы на кожу не попадали его лучи, многие местные жители, даже мужчины, ходят по городу, спрятавшись под зонтиком. ➖Япония - не страна суперсовременных технологий. Технологии здесь застряли в нулевых годах, но про это у меня был отдельный пост. А если вы вдохновитесь съездить в Японию, то @mashajapan сможет помочь вам оформить визу всего за несколько дней без горы бумажек и очередей. ⠀ #mashkka_japan
Показати все...
🥰 11👍 10🔥 5 2
Фото недоступнеДивитись в Telegram
📚Обзор с LREC-COLING'24 ⏰Day 2 ❕Обзор субъективный и составлен на усмотрение автораHas It All Been Solved? Open NLP Research Questions Not Solved by Large Language Models Большой обзор открытых вопросов и областей для исследователей, актуальных в эпоху LLM. выявляют 14 наиболее актуальных сегодня в NLP областей, включающих 45 различных направлений, которые остаются остаются актуальными сегодня. ➖NumHG: A Dataset for Number-Focused Headline Generation Статья посвящена новому датасету для генерации новостных заголовков с акцентом на числа. Корпус NumNG й содержит более 27 тысяч новостных статей с большим количеством чисел в новостных текстах. ➖Grammatical Error Correction for Code-Switched Sentences by Learners of English В работе авторы изучают применение спеллчекеров для текстов написанных на смеси языков. Они предлагают новый метод создания синтетических наборов данных на смеси языков для задачи спеллчека, исследуя методы генерации подобных данных. Automating Dataset Production Using Generative Text and Image Models Способ автоматической генерации текстово-визуальных датасетов с использованием генеративных моделей и моделей для работы с картинками. Их подход подход включает (1) генерацию текста с помощью LLMs; (2) генерацию сопутствующих изображений с помощью text-to-image моделей; и (3) человеческую оценку. @mashkka_ds #nlpобзор #новостисполей #nlp #mashkka_italy #lreccoling
Показати все...
5
📚Обзор с LREC-COLING'24 ⏰Day 1 ❕Обзор субъективный и составлен на усмотрение автора NumHG: A Dataset for Number-Focused Headline GenerationNumHG: A Dataset for Number-Focused Headline Generation Статья посвящена новому датасету для генерации новостных заголовков с акцентом на числа. Корпус NumNG й содержит более 27 тысяч новостных статей с большим количеством чисел в новостных текстах. NumHG: A Dataset for Number-Focused Headline GenerationGrammatical Error Correction for Code-Switched Sentences by Learners of English @mashkka_ds #nlpобзор #новостисполей #nlp #mashkka_italy #lreccoling
Показати все...
NumHG: A Dataset for Number-Focused Headline Generation

Jian-Tao Huang, Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen. Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). 2024.

Фото недоступнеДивитись в Telegram
#пятничныемемасы Подсмотренно у @oulenspiegel_channel
Показати все...
😁 16 3🔥 2🤣 2
Фото недоступнеДивитись в Telegram
🤖🦒Открыли двери нашего зоопарка моделей на LREC-COLING🤖🦒 Представили с коллегой наш зоопарк русскоязычных модлей на LREC-COLING, включающий 13 open-source трансформеных моделей для русского языка, которые мы обучали на протяжении последних лет. Для меня это важная работа, потому что она подводит научный итог тому, что наши команды делали на протяжении последних лет. Ведь сегодня эти модели - ведущие среди аналогичных архитектур и насчитывают десятки тысяч скачиваний в месяц на HugginFace (у ruBERT, например почти скачиваний 25к+ за апрель) и для меня крайне важно, что это в итоге оформилось в единый научный рисерч и что мы смогли представить их на ведущей мировой NLP конференции. 🤗HuggingFace repo 📚Paper #nlpобзор #новостисполей #nlp #mashkka_italy #lreccoling
Показати все...
🥰 15 5
Repost from GigaChat
Фото недоступнеДивитись в Telegram
Сбер запустил бесплатный онлайн-курс «Работа с LLM GigaChat» 🔥 Курс СберУниверситета по основам промпт-инжиниринга состоит из двух разделов: 🖥 «Промпт-инжиниринг», который даёт представление о том, как работает GigaChat, какие задачи можно решать с помощью сервиса и как писать эффективные текстовые запросы 🖥 «Продвинутый уровень: системный промптинг, GigaChain, RAG», который учит создавать системные запросы и получать предсказуемые ответы для автоматизации бизнес-задач
Обучение подходит тем, кто хочет разобраться, как работать с генеративными моделями и использовать их для решения различных задач — от анализа данных до автоматизации процессов.
А ещё у Сбера есть другие бесплатные курсы по обращению с нейросетевыми моделями на платформе Edutoria. Например, по эффективной генерации видео в Kandinsky. Посмотреть их можно здесь.
Показати все...
🔥 19 4👏 4🤮 3💩 2👎 1
Фото недоступнеДивитись в Telegram
📚Обзор с LREC-COLING'24 ⏰Day 1 ❕Обзор субъективный и составлен на усмотрение автораDiscriminative Language Model as Semantic Consistency Scorer for Prompt-based Few-Shot Text Classification - nominated for best paper awards Метод prompt-based finetuning (DLM-SCS) для few-shot классификации текстов, основанный на идее, что промпт истинного лейбла, имеет высокий показатель семантической согласованности (semantic consistency score). Авторы раскладывают промпт на компоненты, для которых по отдельности вычисляется согласованность. ➖Towards Robust In-Context Learning for Machine Translation with Large Language Models - nominated for best paper awards LLMs в задаче машинного перевода (MT) набирают популярность. Основная идея подхода заключается в том, чтобы собрать несколько демонстраций из доп. корпуса, которые затем используются для управляемой генерации. Авторы предлагают робастный метод поиска качественных демонстраций, с помощью поиска, который использует информацию на уровне слов и на уровне предложений. ➖SciNews: From Scholarly Complexities to Public Narratives – a Dataset for Scientific News Report Generation Автоматическая генерация научных сводок (scientific reports) делает науку более доступной. Авторы представляют новый параллельный корпус, состоящий из научных публикаций и сводок по 9 дисциплинам. ➖Diversifying Question Generation over Knowledge Base via External Natural Questions Авторы предложили новую метрику оценки разнообразия сгенерированных вопросов на основе KBQG. А для решения задачи генерации разнообразных вопросов они используют двойную модель с двумя стратегиями генерации. ➖ EROS:Entity-Driven Controlled Policy Document Summarization Согласия на обработку перс данных отличаются длиной и большим числом терминов. Авторы предлагают сделать их чтение проще с помощью управляемой абстрактивной суммаризации, обеспечивая при этом сохранность оригинальных сущностей и основного содержания. @mashkka_ds #nlpобзор #новостисполей #nlp #mashkka_italy #lreccoling
Показати все...
9👍 7
Фото недоступнеДивитись в Telegram
🇮🇹LREC-COLING'24 is just about to start Вот-вот начнется одна из крупнейших NLP конференций - LREC-COLING, которая в этом году объединила целых две: LREC и COLING. Почти 3,5к сабмитов, невероятное количество интересных статей по самым разным темам от LLM до графов знаний. От обилия интересных докладов разбегаются глаза. В этот раз я постараюсь не только делиться впечатлениями, но и писать краткие описания наиболее интересных статей для меня. Но предупреждаю сразу, что подборка будет крайне субъективная, так как то, что показалось интересным мне не факт, что будет настолько же актуально вам, да и в потоке статей я вполне могла что-то пропустить. #nlp #coling #nlpconference #datascience #deeplearning #mashkka_italy #носвостисполей
Показати все...
🔥 19 4