Ебаный DH

@fckndh

Изнанка радужного мира Digital Humanities: боль, отчаяние, ненависть. Как тебе такое, Юрий Лотман? 18+

Rusia338 268Ruso393 403Educación97 831

Publicaciones publicitarias

391

Suscriptores

Sin datos24 horas

+37 días

+2330 días

608

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

155.50%

Tasa de compromiso

Sin datos24 horas

Sin datos48 horas

Sin datos

Menciones

Sin datos7 días

Sin datos30 días

Sin datos

Mensajes por día

~ 16

Reacciones

~ 6

Comentarios

~ 25

Republicar

Suscriptores
Cobertura postal
ER - ratio de compromiso

Carga de datos en curso...

5 коллекций данных для цифрового гуманитария Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах. 🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи… Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают. ✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе. А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂 📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design. 🏛 4. Госкаталог Музейного фонда РФ — ~~свалка~~ датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал. 🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳

Mostrar todo...

DraCor – Drama Corpora Project

DraCor is not a website. DraCor is a showcase for the concept of Programmable Corpora. It revolves around an API that provides data extracted from TEI-encoded corpora. This website – dracor.org – uses this API to showcase some of the extractable information. Some data can be downloaded through the web interface. The more powerful, direct access point is the documented API.

🔥 2❤ 16👍 1❤‍🔥 5

Photo unavailableShow in Telegram

P.S. Мир переходит на африканский английский? Избыточно вежливый расшаркивающийся английский от GPT породил в твиттере дискуссию о том, насколько на стилистику языковых моделей повлияли особенности английского в Африке. Вот например Пол Грэм получил какое-то интересное письмо с предложением, а потом увидел там конструкцию delve into и разочаровался, уверившись, что это ChatGPT. Дальше началась дискуссия (местами не вполне политкорректная), что такой вычурный английский характерен для Нигерии и других стран Африки, а еще для Индии. Ну а как известно, люди для дообучения моделей на человеческих инструкциях берутся не в Лондоне и не в Нью-Йорке.. Впрочем, с учетом демографии, переход на африканские варианты английского все равно дело времени 💯

Mostrar todo...

❤ 12🔥 3👎 1😁 1

Photo unavailableShow in Telegram

Корпусный тест Тьюринга и вежливые уши GPT Постоянно вижу новости о том, как в научных статьях, рецензиях на статьи, деловых письмах и прочих “ответственных” текстах просвечивают белыми нитками языковые модели. Вот например на картинке (из этой статьи) статистика употребления некоторых типично GPT-шных слов в рецензиях на конференции ICLR. Вежливые академические прилагательные вроде meticulous или commendable внезапно становятся теми самыми “ушами”, которые торчат из текстов. Так что пусть классификаторы пока плохо справляются с разделением отдельных текстов на сгенерированные и человеческие, но на уровне корпусов (т.е. больших массивов текстов) все видно. И меня это радует: корпусные методы вновь оказываются актуальными как вспомогательный инструмент в дивном новом мире языковых моделей (о чем уже как-то писала Таня @rybolos_channel). Глядишь и стилометрия тоже пригодится — как вы помните, она, к примеру, отличает GPT-шные имитации писателей от настоящих текстов этих писателей (хотя эта задача легче).

Mostrar todo...

🔥 6❤ 1🌚 1

Modeling Narrative Revelation (Andrew Piper, Hao Xu, Eric D. Kolaczyk, 2023) Любопытная работа из области компьютерной нарратологии с попыткой подсчитать скорость “раскрытия информации” (revelation) в художественных и нехудожественных текстах. 🕰 Авторы статьи начинают с очевидного наблюдения: время в книжном нарративе может сжиматься и удлинняться по воле автора. Вот в одной строчке прошел век, а вот на следующих десяти страницах — минута. Писатель может ускорять и замедлять развитие событий, а еще их детализацию и скорость понимания читателем всех обстоятельств происходящего. Скажем, в детективе гораздо больше всего становится понятно читателю в самом конце, а время в этом самом конце обычно быстро-быстро прокручивается вспять, хотя до этого еле-еле текло по ходу расследования… 📈Все это делает нелинейной и скорость narrative revelation — раскрытия информации читателю. Авторы статьи сделали попытку смоделировать этот самый revelation. Для измерения того, насколько каждый следующий фрагмент текста “нов” (и соответственно сколько новой “информации” он раскрывает читателю) они использовали расстояние Кульбака — Лейблера. Это такая мера близости двух вероятностных распределений, восходящая к старой доброй шенноновской энтропии. Два распределения берутся из двух последовательных фрагментов текста (текущий и предыдущий) длиной в 1000 слов каждый, вероятности — частотности слов. И так попарно перебираем весь текст с шагом в 1000 слов, смотрим, где происходят резкие изменения… Как видите, не rocket science, но авторы статьи считают, что это позволяет ответить на вопрос (цитата):

Given what has come immediately before, how surprising is any new passage?

📚 Исследование проводили на корпусе из 2700 современных (2001–2021) английских книг 12 разныж жанров (датасет CONLIT). Впрочем, “жанры” эти как обычно напоминают Борхесову классификацию: - Biography - Bestseller - History - Memoir - Middle school - Assorted non-fiction - Mystery - New York Times reviewed - Prizelists - Romance - Science-Fiction - Young Adult мда ¯\_(ツ)_/¯…но по крайней мере всё это удобно делится на Fiction и Non-fiction🙂 🍰Что в итоге удалось найти? Во-первых, что среднее “раскрытие информации” (revelation) гораздо выше в non-fiction, чем в fiction. С одной стороны, это “тривиальный” результат: от non-fiction никто не ждет интриг, саспенса и загадок, а наоборот ждут максимальной информативноcти с первых страниц. С другой — какой-никакой sanity check, что метод м.б. работает. Во-вторых, что в fiction гораздо больше новой информации раскрывают книги “престижные” (получатели премий), а бестселлеры — меньше. Авторы интерпретируют это таким образом, что “престижные” книги более сложны и готовы вываливать на читателя больше информации. Но можно и предположить, что у них меньше потребности скрывать и держать интригу, удерживая читателя дешевыми трюками и саспенсом. В-третьих, книги для детей и молодежи отличаются не только низким средним раскрытием информации, но и наиболее ровной линейной динамикой “раскрытия информации” по ходу действия: в отличие от других жанров, в них не происходит резкого роста “раскрытия” ближе к концу. 🤔 Конечно, способ моделирования/операционализации “revelation”-а в статье довольно механистический и вызывает много вопросов. Но сам заход на Modeling Narrative Revelation кажется достойным внимания. Думаю, на эту тему будут новые заходы с новым инструментарием 🔬👩‍🔬🧑‍🔬 Ссылка на статью

Mostrar todo...

👍 13❤ 6🔥 2

Когда мы готовили сегодняшний материал в Системном Блоке про удивительные экспонаты музейного Госкаталога РФ, меня совершенно покорила композиция из моржового клыка «В ожидании санрейса» 1967 года. Во-первых, это классная демонстрация ценности оцифровки, ведь чтобы увидеть этот экспонат вживую, нужно добраться (по воздуху или по воде) до самого восточного населённого пункта России — села Уэлен на Чукотке. А теперь вот он, доступен мне по клику мышки из середины Европы (ну ладно, с VPN, мы нынче недружественные 👹). Во-вторых, я был впечатлен подробностью описания экспоната в метаданных: Подставка стоит на округленных четырех ножках на ней стоят фигуры из клыка моржа: три человека, три оленя, две нарты и собака. Слева направо стоит нарта на ней лежит ребенок, укутанный до головы, с левой стороны от нее сидит на коленях человек в национальной одежде, а впереди в обеих руках держит сумку – аптечку, впереди облокоченный об полозья лежит хорей. Впереди нарты лежит олень, ноги положив под себя, а передняя правая вытянута, голова повернута влево, по левую сторону вторые нарты. Возле нарт стоит человек в национальной одежде, ноги расставлены, левая рука поставлена возле лба и смотрит вдаль, в правой руке держит хорей. Рядом с ним стоит олень, высунув язык. Третьи олень лежит, ноги убрав под себя, голова развернута в сторону стоящего оленя. Собака лежит, голову повернув влево. На одной стороне отгравировано: сцена жизни тундровых чукчей: едущие с пассажирами две собачьи упряжки, а впереди их встречают три человека возле двух яранг. Вторая сторона: самолет, люди с носилками несут больного, две оленьи упряжки едут, две яранги и пастух пасет стадо. Это ж надо было заморочиться с описанием… И ведь до ChatGPT 😅 А в третьих, просто посмотрите, как это тонко вырезано:

Mostrar todo...

Системный Блокъ

Столетний пряник и космическая матрешка: 10 необычных экспонатов Госкаталога Где можно найти и матрёшку с мордой собаки Стрелки, и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога музейного фонда России — цифрового архива экспонатов российских музеев и частных собраний. Его база данных уже содержит более 40 миллионов музейных предметов и регулярно пополняется. 🦌 Композиция из моржового клыка «В ожидании санрейса» Скульптура изображает сцену жизни тундровых чукчей — ожидание санитарного рейса. Чтобы увидеть композицию вживую, нужно добраться до самого восточного населённого пункта России — села Уэлен Чукотского автономного округа. 🕊️ Платок с надписью «Молодёжь об’единяйся в борьбе за мир, против угрозы новой войны!» Этот платок был создан в честь Третьего Всемирного фестиваля молодёжи и студентов, который проходил в 1951 году в Восточном Берлине. Слово «мир» на нём написано на двенадцати языках, а фраза из заголовка — на четырех: русском, немецком, английском и французском. 🎲 «Надежды исчезают по ходу игры»: настольная игра «Перестройка» Сатирическая игра вышла в газете «Собеседник» в 1991 году. Вместо правил там такая информация: «В начале игры все получают надежды. Надежды (их роль могут выполнять разноцветные фантики) исчезают по ходу игры. В игре также участвует несколько конфет (карамелек, кусочков сахара, чёрных сухарей — в зависимости от того, что достанете)». ✍🏼 «До чорта уроков»: объяснительная записка школьника 1937 года Школьник объясняет руководителю оркестра народных инструментов, почему не придёт на занятие: «так как у меня много (до чорта!) уроков». Но на этом не останавливается: приписывает в скобках «хорошая причина». Посмотреть на столетний пряник в виде рыбы, композицию из моржового клыка «В ожидании санрейса» и «Абевегу русских суеверий» можно в полной версии статьи. Там же найдёте ещё несколько экспонатов и их краткую историю. 🤖 «Системный Блокъ» @sysblok

❤ 18🔥 6👏 2

Repost from Некраткие содержания

💡 В сериале «Твин Пикс» 🔺 есть обаятельный персонаж — Дама с поленом. Она периодически общается с главными героями и намекает им, что ее полено, в компании с которым дама появляется, в курсе происходящих загадочных событий. А вот в «Физиологии Петербурга»:

Один мой знакомый рассказывал, что в старые годы он часто видал там одного худого, чахлого старичка, который с видимым усилием приносил под мышкой тяжелое толстое березовое полено, тщательно завернутое в клетчатый бумажный платок; садясь в лодку, он бережно клал его к себе на колени, любовно глядел на него и укутывал заботливо, словно мать ребенка. — Берегите, берегите его, Иван Иванович, — часто, смеясь, говорили старичку молодые чиновники, — неравно простудится наше полено, станет кашлять, спать не даст. — Полноте смеяться, — отвечал старичок, — оно мне и так не дает спать.

Параллель (в духе «Некратких содержаний») увидел Даниил Скоринкин и подарил нам это наблюдение. А мы в свою очередь дарим вам возможность послушать с Даниилом Андреевичем эпизод 🗣 подкаста, в котором речь идет об университетах — Казанском, Оксфорде и Потсдаме. Рекомендуем подписаться на новости этого подкаста, он называется «Лига Айвы» (игра слов с Ivy League), посвящен университетскому пространству и людям в университете. 🚀 телеграм-канал подкаста. 🌐 сайт проекта. 🎬 запись беседы с Даниилом Скоринкиным на Youtube. ✏️ транскрипт подкаста.

Mostrar todo...

Лига Айвы. Подкаст об университете

Подкаст об университете как о республике ученых

https://universitates.ru

Автор: Борис Орехов, @nevmenandr

❤ 12🔥 3🥰 2👍 1

Обнаруженная мной параллель между “Твин Пиксом” (1990) и “Физиологией Петербурга” (1845) сегодня была подсвечена прекрасным каналом “Некраткие содержания”. А еще туда нативно вставили выпуск подкаста “Лига айвы”, где я рассказываю Борису Орехову про мои университеты и чем Потсдам отличается от Вышки. И “Содержания”, и “Лигу” всем рекомендую

Mostrar todo...

Некраткие содержания

Некраткие содержания ‒ это неочевидное в прозе и поэзии. Это сам процесс чтения, заметки на полях собраний сочинений или в чертогах разума. Здесь говорят о литературе свежо и по-новому, с вниманием к деталям и без штампов. Boris Orekhov (HSE University)

🔥 7👏 1

Иногда очень хочется поставить нейро-Гоголя в исполнении GPT в настоящем театре (небольшой фрагмент пьесы, сгенерированной “в стиле Н.В. Гоголя”):

Сцена 1 (Городская площадь города. Перед кабаком собирается толпа жителей с прозрачными рожеми, содержащими некоторое закрытое осознание) ХОР 1: Толпа ждет у окна, в этот день особенный, Чтоб увидеть знаменитого приезжего, Хлестакова, монашку одурачившего, О, есть значенье это чудовищно страшное! ХОР 2: Он прибывает, этот мастер плутовства, Слышишь ли, подлый голос сладкоголосый! Он с Историей одной вместе – этот гость, Искуситель беззаветный, до последнего землевладения! (Звуки лошадничьего топота. Появляется Хлестаков на экипированной подкованной ослице, с роскошными пальто и аксессуарами) ХЛЕСТАКОВ: А-ха! Наконец-то я приехал в этот беднячий городок! Мутные регулировочные цифры, платежные квитанции, все это скучно. Пришло время позабавиться. (Люди на площади осматривают Хлестакова с тревогой и любопытством)

Звуки лошадничьего топота. Ну не прелесть ли?🐴

Mostrar todo...

🔥 14😁 1

#личное Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут. В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом: 1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал. 2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется. 3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать… 4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в русский научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run. 5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно. С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!

Mostrar todo...

❤ 66😭 12🤝 7🕊 4🤔 3💔 3🗿 2

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Литературщина от GPT: иллюстрации к посту выше ⬆️ Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller

Mostrar todo...

❤ 3🔥 2

Elige un Plan Diferente

Tu plan actual sólo permite el análisis de 5 canales. Para obtener más, elige otro plan.