Введение в искусственный интеллект

Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей. Елена Михалькова

نمایش بیشتر

روسيا421 955روسی467 828فناوری و برنامه‌ها44 786

پست‌های تبلیغاتی

251

مشترکین

اطلاعاتی وجود ندارد24 ساعت

+17 روز

-330 روز

182

نمایش های پست

~ 8424 ساعت

~ 9248 ساعت

72.51%

نرخ مشارکت

33.5%24 ساعت

36.7%48 ساعت

اطلاعاتی وجود ندارد

یادکردها

اطلاعاتی وجود ندارد7 روز

اطلاعاتی وجود ندارد30 روز

اطلاعاتی وجود ندارد

پست های در روز

~ 6

واکنش ها

~ 4

نظرات

~ 1

بازنشرها

مشترکین
پوشش پست
ER - نسبت تعامل

در حال بارگیری داده...

Морфологический разбор с UDPipe В Карловом университете в Праге есть физико-математический факультет, в котором есть Институт формальной и прикладной… лингвистики - ÚFAL. На официальной GitHub странице Института 219 репозиториев (ИМХО, вот так должен выглядеть репозиторий здорового института комп. лингвистики), один из которых - библиотека UDPipe, написанная в основном на языке C++, но поддерживающая, среди прочего, и Python. Чем она известна? Это популярная библиотека для файлов в формате CoNLL-U, которая позволяет делать морфологический и синтаксический разбор. О формате мы писали тут. ~~Как сделать морфологический разбор с UDPipe?~~ Тут надо бы ответить сначала: а зачем вообще делать морфологический разбор? Самая частая задача - это поиск ключевых слов, который является основным шагом, например, в определении темы текста. И, конечно, определение именованных сущностей (named entities, неймд Энтитиз) - имен, географических названий, организаций. Эти задачи обычно ведут к более сложным, вроде кластеризации документов или выявлению всех упоминаний конкретной персоналии в массиве текста (хм, зачем бы кому-то искать такие упоминания? 😈) или определению авторства. А почему UDPipe, а не NLTK, например? Есть много NLP-tools, друг Горацио, что и не снилось нашим мудрецам… И среди них UDPipe отличается тем, что: а) его разработчики его обновляют, улучшают (например, к выходу готовится UDPipe 3), б) они же участвуют в разных NLP-events (мероприятиях), на которых показывают, что инструмент эффективен, в) инструмент довольно простой и поддерживает много языков, г) т.к. инструмент привязан к CONLL-U, для него есть много готовых данных. Так как же сделать морфологический разбор с UDPipe? Прожмякать мой ноутбук, конечно. Там в комментариях есть подробности, что может UDPipe. #база #notebook

نمایش همه...

ÚFAL

Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University - ÚFAL

👍 3

Дорогие подпИИсчики! Го? 💃🕺 Я там тоже буду - кормить комариков (главное, что не медведей 🐼) и читать лекцию про чат-гпт и прочих отбирателей рабочих мест у кожаных мешков. Только сначала вам нужно достичь 18 лет и пройти отборочное испытание. Подать заявку (включает выполнение задания) нужно до 20 мая включительно. #ниипетпроект

نمایش همه...

❤ 1

Repost from N/a

Поехали кодить в лес? Приглашаем принять участие в работе Мастерской анализа текстовых данных на «Летней школе» с 5 по 20 июля Интересуешься NLP, анализом текстовых данных и машинным обучением, но не знаешь, с чего начать? Начни с нашей мастерской! У нас ты получишь две недели весёлого и интенсивного изучения методов обработки естественного языка, сможешь послушать интересные лекции про все те многочисленные подходы, которые применяют NLP-специалисты, найти единомышленников, и всё это – на турбазе в Тверской области. Программа: - Основы предобработки текста; - Предпосылки компьютерной лингвистики; - Классификация и кластеризация текстов; - Дистрибутивная семантика и эмбеддинги; - Языковые модели; - BERT и трансформеры; - Нейросети; - Ансамблевые методы машинного обучения; - Извлечение именованных сущностей; - Диалоговые системы; - Немного матстата и тервера; - Визуализация данных; - Хакатон на партнёрских данных. Сроки отбора: - 17 апреля – 20 мая: подача заявок - 22 апреля – 25 мая: решение отборочных заданий - 25 мая – 30 мая: собеседование - 1 июня: финальные списки участников Требования к участникам: - Строго 18+; - Базовые знания Python и тервера+матстата; - Интерес к лингвистике, NLP и машинному обучению; - Умение жить на природе и работать в команде. У нас вы научитесь: - грамотно работать с данными; - строить пайплайны для решения задач NLP; - работать с алгоритмами и моделями машинного обучения; - красиво и доступно представлять данные и результаты анализа; - применять полученные знания на реальных данных. Контакты: https://letnyayashkola.org/nlp/ - наш сайт https://t.me/ml2024news - наш телеграм-канал [email protected] – наша почта

نمایش همه...

Экологические последствия бума искусственного интеллекта В 2020 г. пандемия COVID-19 привела к форсу одного интересного факта: некоторые языки программирования менее экологичные. А какой же самый неэкологичный? Ну, конечно, Питон. Иначе зачем бы я писала об этом целый пост. Хочу повиниться, я создала фактоид. Я люблю рассказывать одну, как оказалось, байку про то, что ученые исследовали энергозатраты на одной из айтишных конференций и пришли к выводу, что во время конференции эти энергозатраты в месте, где она проводилась, очень сильно выросли. На самом деле, все (не все), конечно (наверное), было (или не было) не совсем так (совсем не так). Недавно Ксения Собчак в своем блоге пожаловалась, что нынче толком и нельзя высказаться ни по какому вопросу. А что же было-то? В 2019 году на конференции Европейского Астрономического Общества (European Astronomical Society) ученые сделали опрос, кто как добрался до конференции, и посчитали, что они примерно равны 1,855 tCO2e (тонн (t) в углеродном (CO2) эквиваленте (e)), что равно выбросам одного среднего размера астрономического института, например, Max Planck Institute for Astronomy (MPIA) в Гейдельберге. В 2020 конференция была онлайн, и на нее потребовалось в 3 раза меньше выбросов. Но тут ученых привлек еще один вопрос экологии: сколько выбросов приходится на астрономические расчеты на разных языках программирования? Оказалось, что время на обработку запроса (time-to-solution, тайм ту солЮшн) в отношении к тому, сколько будет потрачено энергии, выше всех у Питона. Основной причиной называют то, что Питон - язык интерпретируемый. То есть, прежде чем выполнять программу, написанную на Питоне, ее нужно “интерпретировать” - перевести на промежуточный язык в отдельной программе - интерпретаторе. У Питона это CPython, написанный на языке программирования C. С другой стороны, это удобно для разработки, т.к. интерпретатор считывает код построчно. И вы можете, вместо выполнения всего скрипта, поделить его на части, как в Google Collaboratory, и выполнять программу по частям. С другой стороны, Питон очень медленный и требует много оперативной памяти. Одним из самых экологичных при этом оказался язык C++. А потом эту статью перепостил Хабр, откуда я и сделала заключение, что речь шла именно о расчете энергозатрат во время пребывания учёных на конференции. При этом есть и ещё более раннее исследование экологичности разных языков программирования. В статье “Energy efficiency across programming languages” ещё в 2017 г. авторы обнаружили, что Питон - один из самых неэкологичных. В научпоп статье “Python is destroying the planet” (Питон уничтожает планету) с портала Medium (2023 г., ссылка откроется только с VPN) утверждается, что на момент выхода статьи на Питон приходится 17.5% энергозатрат всех языков программирования. Библиотека CodeCarbon рассчитывает углеродный след вашего компьютинга. Это не для того, чтобы себя осуждать, а чтобы оптимизировать код 😇 Питон все ещё остаётся очень удобным и интуитивно понятным, на нем написано огромное количество библиотек для датасаенса, для него есть множество бесплатных курсов и тьюториалов, платформ для тестирования кода и запуска приложений. Так что, с моей точки зрения, он ещё долго останется таким популярным и причина отказаться от него полностью из-за неэкологичности не слишком весомая. Попробовать снизить энергозатраты за счёт повышения эффективности кода - это возможно. #эссеиистика #байкии

نمایش همه...

СОБЧАК

Все так. Нет ничего хуже , чем наши «новые времена» где человек просто боится хоть что-то на ЛЮБУЮ тему сказать ВНЯТНО.

❤ 8👍 1

Sora Тут новая новость: вышел музыкальный клип, полностью сгенеренный нейросетью Sora. Авторы отмечают, что почти не использовали пост-эдитинг (post-editing). То есть вручную не редактировали сгенерированные видео. Только кое-где нарезали кусочки и составили вместе. Я посмотрела, каэш, клипец. Не сказать, чтобы там все гладко. Похоже на очень яркий сон или какой-то сюрный мульт типа “В синем море, в белой пене”. Но, конечно, есть атмосфера, вайбы. Вспоминается, как исчезла в привычном понимании профессия переводчика, благодаря Google Translate. Году примерно к 2010 остались ровно столько переводчиков, чтобы делать хороший пост-эдитинг или уметь вертолет починять в Африке, если вдруг от вас понадобится не только перевод в английского, французского или суахили. Sora - это модель типа “текст-в-картинку” (text-to-image) (точнее уже в видео) на основе более раннего продукта OpenAI под названием Dalle. Нейронная архитектура модели называется diffusion (дифьЮжн, диффузия / диффузионная). Сначала по текстовому запросу модель генерирует много случайных пикселей, а потом denoises (денОйзез, обесшумливает) их. То есть оставляет “хорошие” пиксели и убирает “плохие”. Затем на месте плохих генерятся новые пиксели и снова оценивается результат. Повторяем, пока новая генерация не будет оценена как “ничем не лучше предыдущей”. В механизме денойзинга используется визуальный трансформер (vision transformer, вижн трансфОмэ). Это как для NLP, только матрица эмбеддингов строится для пикселей, а не для токенов. Весь процесс называется sampling (сЭмплинг, сэмплирование). Разные сэмплеры дают разный эффект на итоговом изображении. Особенностью Sora является способность генерить детали и перемены, например, в эмоциях, а также делать гладкие переходы между сценами. Но модель, конечно, не лишена глюков. Если раньше у моделей “текст-в-картинку” были траблы с количеством пальцев, то теперь при ходьбе периодически путаются ноги. Другие артефакты (свидетельства сгенеренности картинки) тоже попадаются. Например, у поезда на среднем плане пропадают щели между вагонами. Ну и поговаривают, что генерация оооочень долгая. Модель пока доступна только по инвайтам в режиме тестирования. #база #эссеиистика

نمایش همه...

эйай ньюз

Короче, тут недавно вышел первый клип, созданный Sora, а потом интервью с Полом Трилло, который все это генерил. Он слил интересную инфу. Похоже, не просто так все видосы, которые нам показали, сделаны в ретро/lo-fi стиле. Пол пишет, что из коробки Sora выдает картинку, будто из самых дешевых видеостоков или вообще выдаёт всратую 3D-анимацию: Initially I kind of found that it had an almost like video game aesthetic. This 1990s kind of 3D animation slash stock video look. Судя по всему, Sora страдает похожими проблемами, что и Pika с Runway т.е. низкой динамикой в кадре и/или крашем картинки в какую-то кашу. Но с правильным промптом (и достаточным количеством рероллов) с этим хотябы можно бороться. Кстати о количестве и времени генераций. Челик нагенерил 700 клипов и взял из них ~55 (что даёт понять, сколько нужно крутить сору). При этом в клипе все равно попадаются странные галлюцинации. Я боюсь представить, сколько же видосов нагенерили для фильма air head. Сейчас тестировщикам разрешают выбирать разрешение и длину клипа, но это вряд ли останется в релизе. Ожидание может занять от 15 минут до часа! Даже у опытного кинодела процесс занял 6 недель, так что за один вечер такую штуку не склепаешь. А еще оказалось, что Сора не может в диалоги. Не знаю, как вам, но мне от таких новостей даже полегчало. Теперь ясно, что Sora реально существует, и она всё-таки не решила видео генерацию! И никакими world-моделями там не пахнет тоже. 😵 Опять видим, что черипики (cherry-picks) во время релиза — это зачастую не равно реальным результатам. Sora — реальный инструмент, возможно лучший из того что есть в паблике (вот китайская копия для сравнения), но со своими косяками, над которыми нам, ресерчерам, ещё предстоит работать. Vimeo YouTube Интервью @ai_newz

❤ 8❤‍🔥 1

Repost from N/a

Photo unavailableShow in Telegram

Всем привет! Мы возобновляем активность канала и возвращаемся в эфир с новостями ⤵️ 26-го апреля в 17:00 в международный день интеллектуальной собственности мы проведем лекцию, посвященную IP для всех, чья работа связана с исследованиями и созданием новых технологических решений. Ведущий специалист отдела юридического сопровождения AIRI, патентный поверенный РФ Вита Власова расскажет теоретические и практические вопросы, связанные с интеллектуальной собственностью, а также: – переведём с «юридического» на простой понятный язык основные определения и законы в области интеллектуальной собственности – расскажем о наиболее часто встречающихся ошибках авторов и организаций при работе с интеллектуальной собственностью – обсудим особенности правовой охраны IT решений, в том числе в области искусственного интеллекта – постараемся ответить на все ваши актуальные вопросы по теме. Лекция пройдет в офисе Института AIRI в Сити, зарегистрироваться можно по ссылке. Также планируем онлайн-трансляцию, ссылку на нее пришлем ближе к мероприятию 📎

نمایش همه...

❤ 2

IP - intellectual property (интеллектуальная собственность)

نمایش همه...

Photo unavailableShow in Telegram

Пример трибанка для арабского языка.

نمایش همه...

❤ 2😱 2

Формат CoNLL-U для морфологического и синтаксического парсинга Бывают деревья. А бывают синтаксические деревья (см. подробности в посте https://t.me/freeAIintro/180). Treebanks (трибЭнкс) - это способ моделирования связи между словами в предложении и коллекции размеченных данных. Как носители языка, мы все с вами ее ощущаем интуитивно, выучиваем вместе с языком. Но чтобы ее начала понимать машина, пришлось создать модель и разметить на основе этой модели достаточно большой датасет. Достаточно большой для чего? Чтобы современные нейросети для синтаксического парсинга справлялись с разметкой на более, чем 90%. То же самое с морфологией. Для английского средний результат вот такой: fscore=96.38. Причем алгоритмы делают это вжух! как быстро. Без разметки производительность алгоритмов падает до fscore~60-70. Что за разметка и что за датасет такой? В 2000-е в Университете Стенфорда возник проект: Stanford Dependencies (стЕнфорд депЕнденсиз, Стэнфордские зависимости). Цель проекта была разметить основные характеристики синтаксиса и морфологии: части речи и некоторые их формы, а также пары слов и словосочетаний, связанные друг с другом синтаксической связью. Концептуальная основа такой разметки стала так называемся лексико-функциональная грамматика (Lexical functional grammar). Разметка оказалось полезной для многих задач NLP, таких как извлечение фактов, именованных сущностей, разрешение анафоры. Проект вышел за рамки университета и стал называться Universal Dependencies (юнивЕсал депЕнденсиз, универсальные зависимости). И в рамках уже этого большого проекта была принята универсальная система разметки: CoNLLU (кэ эн эл эл ю) формат. Формат включает универсальные теги для: 🦩 частей речи, 🐸 дополнительных лексических и грамматических свойств, 🦔 синтаксических отношений (Universal Dependency Relations), например, nsubj - номинативное подлежащее. Сегодня размечены уже 104 языка. Растет интерес к разметке древних, малоресурсных, искусственных языков (например, эсперанто). Ну и как всегда ноутбучек с примером. #база #notebook

نمایش همه...

Введение в искусственный интеллект

🖤 Синтаксическое дерево Что такое предложение (на естественном языке, например, русском)? Если посмотреть очень формально, то это набор символов между первой буквой, открывающей предложение (если письмо буквенное, а не, например, иероглифическое), и пунктуационным знаком, который сигнализирует об окончании предложения (.?!). То есть мы сами решаем, где границы предложения, а потом сигналим об этом на письме всякими значками. Если говорить со стороны смысла, то тут стоит сравнить предложения, выделяемые на письме, с устной речью. Когда говорят об устной речи, то там принято выделять даже не столько предложения, сколько высказывания. То есть какой-то интонационно завершенный отрезок, который имеет некоторое смысловое единство, вроде сообщения о факте или вопрошания или отрицания и т.д. На письме же, когда нам кажется, что мы написали более-менее законченную мысль, то мы ставим точку (или другой пунктуационный знак), чтобы разделить речь на удобоваримые отрезки. Предложение тоже ⡂⠚⠱⢤⡆ ⣠ ⢈⡤⠡⠚ ⠪⠓ ⢉⡒⢰⡤⢃⢊⡑ ⠆⠥⢔ ⠥⡔⢑⡡⢂⠓⠪…

🔥 1

Пора менять зимнюю аватарку на весеннюю 🌱

نمایش همه...

🔥 12❤ 5👀 2