e628b7b7
Kanalga Telegram’da o‘tish
1 512
Obunachilar
+124 soatlar
+17 kunlar
-430 kunlar
Postlar arxiv
1 512
За три века был опубликован обширный корпус того, что удалось прочитать, изданный в томах Collectio Prima (1793-1855), Collectio Altera (1862-1876) и Collectio Tertia (1914). В основном это философские тексты эпикурейцев, включая сочинение Эпикура О Природе (Περὶ φύσεως) и трактаты по музыке, философии, истории и этике Филодема из Гадары, который некоторое время в Геркулануме жил (вероятно, на этой же самой вилле) и там же умер еще до извержения. Текстов на древнегреческом в собрании сильно больше, хотя и на латыни тоже встречаются.
Но непрочитанных свитков еще много, а методов, с помощью которых их можно быстро прочесть, да еще желательно не уничтожив сам свиток, мало и покрывают они далеко не все случаи. Какие-то папирусы слишком хрупкие, чтобы их можно было механически развернуть, у других слипшиеся слои, которые нельзя оторвать один от другого, третьи слишком деформированные, и все в таком духе.
Рентген в данном случае не особо эффективен, потому что в античных чернилах не было свинца и других металлов, которые хорошо им засекаются (в 2013 году, правда, выяснилось, что в каких-то чернилах свинец все-таки был и часть текстов коллекции прочесть с помощью этого метода возможно).
1 512
Замечательный пост моего тезки Антона, который раскрывает детали работы с нестандартными, лучше даже сказать, уникальными источниками информации и показывает широкой аудитории неожиданные области науки, в которых компьютерное моделирование/ML может произвести настоящую революцию. Я периодически натыкался в твиттере на 3D-модели свитков и скрины из дискорда, выложенные в рамках челленджа, и очень этим проникся — особенно после врученного мне подругой буклетика магистерской программы Свободного университета Берлина Digital Studies of Ancient Texts, где люди занимаются похожими вещами. Но обо всем по порядку.
У этих папирусов довольно интересная история попыток их прочтения и дешифровки разной степени успеха. Раскопки обнаруженных в начале 18 века Помпей и Геркуланума с 1738 года были взяты под личный контроль королем Королевства Обеих Сицилий и превратились в государственный (и во многом пропагандистский) проект особой важности, к которому привлекали военных инженеров, геодезистов-самоучек и ученых-антикваров из разных европейских стран.
Раскопки такого масштаба были в то время делом очень новым, строгих методов работы с находками и картографированием местности еще не существовало, так что все было похоже на добычу зарытых в земле сокровищ, к которым нужно как можно скорее прорыть туннели через 20-метровый слоеный пирог вулканических пород. Из утерянной в результате этого археологической информации можно было бы составить увесистый многотомный каталог.
Сами папирусы раскопали в 1752 году в месте, названном затем по-итальянски Villa dei Papyri. Сначала их приняли за куски угля и относились соответствующе (выкидывали или разрушали, а иногда еще и сжигали, используя в качестве факелов или топлива для костра), пока кто-то не разглядел еле заметные греческие буквы на одном из разбившихся 'поленьев'. Тут-то все и переполошились: при ближайшем рассмотрении стало понятно, что это коллекция цельных рукописных свитков с датировкой от 3 века до н.э. до 1 века н.э.
Находок такого рода больше в мире нет: найденные греческие/римские папирусы в основном происходят из Египта, в сухом климате которого его куски могут находиться в сохранности несколько тысячелетий — но и те представляют из себя коротенькие фрагменты в лучшем случае в несколько строк длиной. Здесь же речь шла о чьей-то частной библиотеке в несколько тысяч свитков.
Стали думать, как можно прочитать содержимое. Изначальный метод, зарекомендовавший себя как наиболее эффективный, состоял в том, чтобы разрезать свиток вдоль на два полуцилиндра и начать послойно, от центра к внешнему слою, выкладывать все на плоскую поверхность (весь этот процесс получил название scorzatura). Свиток при этом, разумеется, полностью разрушался и превращался в труху, но полученный текст можно было записать и затем прочесть.
Через несколько лет священник Антонио Пьяджо изобрел машинку для разворачивания свитков, которая позволяла очень медленно, по одному дюйму в несколько часов или даже дней, разворачивать артефакты, приклеивать получившиеся куски на тканевые нити и читать их в том виде, в котором это делали греки и римляне: слева направо, снизу вверх, держа свиток по горизонтали.
В музее Неаполя до сих пор стоят такие машинки Пьяджо с приклеенными кусками папируса. В начале 19 века некоторое время экспериментировали со всякими химическими методами, но попытки были не очень удачные и до изобретения рентгена и томографа ничего лучше изобретения Пьяджо не существовало.
1 512
Repost from Generative Anton
Длинный текст про то, как я сходил с ума от отчаяния в последние 8 месяцев и начал учить древнегреческий.
Выше уже мелькали посты про непонятные белые буковки и шутки про ленивых древнегреческих писцов. Настало время собрать всё в цельную картинку и объясниться. Я не могу из-за правил публиковать и в деталях рассказать техническое решение (оно в процессе ревью), но порассказываю всякое другое.
Соревнование называется Vesuvius Challenge. Когда извергался Везувий и уничтожил Помпеи, он уничтожил еще и город Геркуланум, который находился тоже у его подножия. Нас интересует Геркуланум из-за того, что там откопали виллу, в которой была очень богатая библиотека. И в этой библиотеки уже нашли/ожидают найти около 4-5 тысяч свитков. Важное уточнение: до нас из Античности дошло очень небольшое количество текстов: Одиссея, Иллиада, вся философия — лишь небольшой процент от всех существовавших тогда текстов. Представьте, сколько знания и истории хранится в этих тысячах свитков. Но разумеется есть проблема: они выглядят как сгоревшая на углях картошка из-за консервации в лаве и пепле (но именно благодаря этому они и пролежали в земле 2000 лет).
На сцену выходит профессор из Кентуки Dr. Brent Seales, который всю карьеру потратил на пропихивание следующего метода: давайте мы сделаем этим свиткам 3D КТ, а потом как-то хитро попытаемся восстановить все и прочитать. План — надежный, как швейцарские часы, если бы не одно но: чернила, которые там были, не содержат металла (carbon-based) и на результатах МРТ не видны. Были еще попытки отсканировать один и тот же свиток с разной фазой пучка и вычтя результаты этого получить какие-то буковки. Буковок хватило на статью в Nature, но выглядит это довольно паршиво. Что же с этим делать дальше?
На сцену выходит ex-CEO Github’a Nat Friedman: меценат, организует всякие AI гранты и инвестриует в AI-стартапы. Очень приятный дядечка, который помог организовать это соревнование и завалил деньгами призовой фонд. Вот его частный фонд и вообще он мне пока кажется Илоном Маском здорового человека.
В феврале прошлого года стартует само соревнование с призовым фондом в 1M USD. Сначала на Kaggle, а потом это все продолжается в Дискорде. Есть 3D КТ-сканы свитков и нужно прочитать оттуда текст. Сам (предложенный организаторами) процесс виртуального разворачивания текста довольно сложный и хитрый, а данных сейчас уже примерно на 7-8Tb, что устанавливает довольно высокий технический барьер для входа.
После Kaggle’овского соревнования все немного затихло до момента, пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.
Очень много бессонных ночей, переживаний и всего остального было на протяжении этих месяцев. Я приходил и надоедал к каждому, кто мог мне хоть как-то помочь советом/идеей (спасибо вам всем, друзья. Без вас я бы не справился). Когда обсуждал новости и произошедшее за день с девушкой, я десятки раз думал про то, что у меня не произошло вообще ничего: я решал свитки. Как и вчера. Как и продолжу завтра.
И не смотря на то, что я не смог выполнить официальные требования для главного приза (4 куска текста по 140 читаемых символов каждый), мне кажется, что никто не смог. Со слов организаторов, всего они получили около дюжины сабмишнов. И вот уже где-то месяц мы с другими участниками ждем результатов анализа папирологов. За эти полгода я познакомился с кучей интересных людей, выиграл промежуточный приз в 5200 USD, начал учить древнегреческий и сильно прокачался в решении таких вот непонятных проблем.
1 512
Чем больше я смотрю на AI-контент и связанные с ним дискуссии, тем больше я понимаю, что его основная монетизационная модель не подразумевает конкурентоспособного качества и не ставит целью заменить собой высококвалифицированный труд (aka создать 'гениальную картину', 'шедевр', 'MtG-иллюстрацию' и все в таком духе). Напротив — как будто бы само собой получается, что нейронка генерит терабайты филлеров, чья естественная задача заключается в агрессивном вытеснении любого другого common-контента в интернете до состояния серой слизи.
Под common я имею в виду доступную, базовую информацию, которую пока еще можно нагуглить в сети и использовать затем в собственных проектах, будь это научное исследование, референс для рисования, фото кирпичной стены для текстур, музыкальный сэмпл, кусок текста на иностранном языке и так далее. За такой контент обычно не платят, либо платят не очень большие деньги, причем разово, а не по подписке. Вопрос сейчас стоит в том, как заставить людей платить за эту информацию больше и желательно регулярно.
Нейросети могут очень быстро, вероятно в пределах нескольких лет, вытеснить любое другое содержание из веба, вынудив нас начать платить за 'живой' и оригинальный контент, который будет спрятан под пэйволлом. AI не повысит планку качества интернета, а опустит уже имеющийся дефолтный уровень еще ниже — пока подписка на базовые в данный момент функции не станет чем-то само собой разумеющимся. Сознательное ухудшение общего качества для извлечения большей прибыли это очень старый прием: вспомним примеры с бытовой техникой, которую легче и дешевле купить заново, чем чинить в сервисном центре.
Плюс ко всему, такая модель очень хорошо масштабируется на продуктах и услугах абсолютно разного жанра. Представьте себе дейтинг-приложение типа тиндера, в котором 90% времени вы общаетесь с ботами, о чем вам, конечно же, сообщается юридическими намеками в многостраничном тексте пользовательского соглашения. Боты и их анкеты практически неотличимы от реальных людей (у того же тиндера было 10 лет, чтобы собрать кучу метаданных и генерить сейчас с их помощью реалистичные анкеты и стили общения), за исключением одного случая: они не могут вживую с вами встретиться. Чтобы смэтчиться с реальными людьми или повысить свои шансы попасть на живого человека, нужно будет заплатить.
Впрочем, все не так печально, как я здесь описываю и возможно рынок будет способен быстро переформатироваться даже без государственных регуляций, которые просто не успеют доехать — столь заметное ухудшение качества может привести к настолько мощной инфляции и разочарованию, что индустрия IT/развлечений просто развалится, как это было с видеоиграми в 1983 году.
1 512
Repost from Generative Anton
В 2022ом году вышла статья, которая рассказывала про то, что можно делать со звуком с микрофона лэптопа (и какую информацию тащить оттуда).
Оказалось, что можно вытащить шум GPU(!) и понять, что сейчас происходит. Например, какой сайт сейчас открыт или понять в Counter Strike (не очень понятно, в какой именно версии), что неподалеку есть засада, потому что шум GPU противника, которая рендерит окружение, будет совпадать с шумом вашей GPU, который можно вытащить локально.
Такая вот магия.
source
1 512
На drivethrurpg продают стартер сет The One Ring за $8 — в комплекте идут базовые правила (не корбук), карты персонажей, инвентаря и Шира, а также несколько приключений в этой области Средиземья.
Если давно хотели познакомиться с TTRPG по вселенной Толкина или поиграть за хоббитов, то это хорошая точка входа
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
