Ivan Begtin

Відкрити в Telegram

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc. CTO&Founder of Dateno https://dateno.io Telegram @ibegtin Facebook - https://facebook.com/ibegtin Email ivan@begtin.tech Ads/promotion agent: @k0shk

Росія69 864 Технології та додатки12 897

9 161

Підписники

+224 години

+87 днів

-530 день

1 353

Перегляди допису

~ 69924 години

~ 81348 годин

14.77%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

9 159

Очередное обновление internacia-db репозитория с базой данных по странам и межгосударственным структурам для задач их идентификации, обогащения данных и метаданных и использования в аналитических задачах. Например, она используется в задачах Dateno по разметке датасетов по странам. Что вошло в эту версию 1.8.0: - добавлено 3 новых записи межгосударственных организаций, удалена одна (две объединены как дубликаты) - обновлены данные ~500 междгосударственных структур, это около половины от общего числа. Обновлялись списки участвующих стран, классификация, тэги, описания и подтверждения происхождения информации, записи provenance и многое другое - расширен контроль качества записей для проверки наличия хотя бы 4-х provenance ссылок на каждую записи о межгосударственной структуре - исправлено множество ошибок по итогам контроля качества данных: битые ссылки на Wikidata, указания уже несуществующих стран и так далее. Особенность internacia-db в способе распространения. Это то что называется контролируемый датасет или дата-продукт. В репозитории содержатся первичные YAML файлы с описанием каждой страны и каждой международной структуры из которых собираются финальные наборы данных в форматах JSONL, YAML, Parquet и базы DuckDB. #opendata #datasets #dateno

9 159

Ещё полезных ссылок про данные технологии и не только: - Introducing MAI-Cyber-1-Flash inside MDASH свежая модель от Microsoft по поиску уязвимостей. Интересная архитектура и технические подробности про то как там устроена мультиагентность - Pi Web веб интерфейс для известного кодирующего агента pi. С ним привычно уже работать с командной строки, но UI также удобно и полезно - EU delays release of Copernicus imagery over Gulf of Oman Евросоюз установил 24 задержку в публикации снимков Оманского Залива со спутников Sentinel-1 и Sentinel-2. Конечно же по просьбе властей США😉 Подозреваю что рано или поздно крупные медиа реально будут запускать свои спутники чтобы получать оперативную информацию. Кстати, тут есть материал для хорошего фантастического рассказа #opendata #ai #eu #satellite #security #microsoft

9 159

Полезные ссылки про данные, технологии и не только: - Celeris-1 свежая LLM от одноименного стартапа, обещают уровень почти как GPT 5 и гораздо более быстрые ответы. Несколько нестандартное позиционирование, не дешевле токены, не лучше ответы, а именно лучше response time. По моему это не ключевое в LLM, но кто знает. - Agent swarms and the new model economics текст от команды Cursor который можно свести к выводу что продвинутая модель управляющая командой из непродвинутых моделей дает сравнимый результат при многократно меньших расходах. Полезное знание для тех кто ранее с этим не сталкивался - Chat2DB визуальный клиент с открытым кодом более чем 30+ СУБД. Выглядит неплохо и похоже что автор его разработал с помощью LLM в короткие сроки. Еще одна демонстрация как современное созданное с помощью ИИ агентов ПО может быстро потеснить существующее. #opensource #ai #datatools

9 159

Одно из наблюдаемых мной явлений - это как AI и Data стали почти синонимами и как взлетают по популярности новые инструменты работы с данными и как медленно умирают инструменты периферийные к трендам. К примеру, OpenRefine довольно старый проект по чистке данных, возможно лучший из тех что открытым кодом уже с марта 2026 года перестал выпускать новые релизы. Разработка в репозитории ведется, но явно гораздо медленнее чем раньше и ничего радикально нового там не появляется. Проект изначально был устроен так что работа с данными в нем ведется полностью в памяти и после определенных объемов он не справляется. При этом он позволяет вручную или с помощью синтаксисов Python или GREL (специальный язык для манипуляции данными) править данные в строках и колонках сохраняя полную историю изменений с возможностью их отката. В его текущем движке ускорить его невозможно как и невозможно просто поддержать реально большие наборы данных. В результате области применения остаются только для данных относительно небольшого размера. Поэтому его так часто используют журналисты и он активно используется в разного рода проектах цифровой гуманитаристики. Причем альтернатив ему реально очень мало, в каком-то смысле совсем нет, если нужен интерфейс не программный, а пользовательский. Интересно выживет ли он вообще? Не бросит ли его команда в какой-то момент? Я как-то рассуждал тут вслух о том что если делать подобный инструмент современными методами, то движок внутри должен быть на базе DuckDB или Polars. Практически все операции можно делать SQL запросами, а вместо кода на GREL можно использовать text-to-SQL формы запросов совмещая инструмент очистки данных с data exploration. #opensource #opendata #datatools

9 159

Я тут выложил свежие версии инструментов с открытым кодом для работы с данными iterabledata библиотеки для построчного чтения и записи данных из более чем 140 форматов файлов данных и undatum инструмент швейцарский нож для работы с данными в командной строке которые использует iterabledata для чтения, обработки и преобразования. В iterabledata добавлено: - поддержка множества новых форматов геоданных, научных данных и тд. таких как (fgdb/gdb), MapInfo MIF, Esri ASCII Grid (asc), ArcInfo E00, LAS LiDAR, BAG bathymetry, CZML, XYZ, CIF, PDB, MATLAB MAT, SEG-Y, GRIB2, miniSEED - поддержка чтения данных из озер данных и где-то записи таких как Apache Poimon и DuckLake - поддержка записи данных в DeltaLake и Iceberg - много изменений для повышения производительности чтения и записи Parquet файлов - исправление множества ошибок и мелкие правки В undatum добавлено: - новая команда repack позволяет переупаковать дата файлы для большего сжатия. Если это формат parquet/orc/avro то использует внутренний кодек, если это файл сжатый Gzip, Bzip2 и тд. то пересжимает его. Нужно, в основном, для ситуаций когда надо пересжать слабо сжатые дата файлы вроде Parquet - добавлена команда db dump по экспорту таблицы из базы данных сразу в Parquet/CSV/JSONL - добавлена опция —low-memory для ряда команд для работы с файлами большого размера без чрезмерного использования RAM - исправлен/модернизирован код генерации API на основе дата файла - добавление использования DuckDB во многие команды, там где это возможно, для ускорения их работы - множество мелких изменений и исправлений #opensource #datatools #dataengineering

9 159

Подборка ссылок про данные, технологии и не только: - Ontology Playground opensource веб приложение от Microsoft для визуального исследования онтологий. Выглядит очень хорошо, поддерживает импорт и экспорт RDF/OWL. Делает работу с онтологиями куда более доступной. Интересно откуда такой возвращающийся из небытия интерес к онтологиям? Подозреваю что природа этого в росте интереса подключения ИИ агентов к осмысленному восприятию связей между сущностями. В этом смысле ИИ агенты могут быть не только потребителями, но и инструментами упрощения построения онтологий. - How We Built Our Knowledge Base о том как Cerebras строят внутреннюю базу знаний. Технических подробностей не очень много, а смысловых и логических немало. Можно обратить внимание на том что базу знаний они строят с прицелом на ускорение онбординга, что логично - Qwen 3.8 новая модель от Alibaba с 2.4T параметров, позиционируется как сравнимая с Fable 5. Пока не открытая, подписка через QwenCloud начинается с $6. Интересны сравнения с Kimi K3 и ждем открытия модели, конечно - I burned all my tokens researching how to save tokens автор описывает оркестрацию более слабых моделей как субагентов более продвинутыми на примере исследования темы экономии токенов. И тема интересная, и подход полезно описан. #opensource #ai #readings #knowledge

9 159

Множество обновлений в internacia-db дата-продукте с метаданными по всем странам и страновым блокам таким как ЕС, СНГ, НАТО, ЕАЭС, структурам ООН и тысячи других. Я как-то рассказывал что изучение межгосударственных образований - это мое очень давнее и немного странное хобби, у которого есть практическое применение, в случаях когда надо делать разметку по странам и в случаях когда надо иметь возможность делать аналитику по международным блокам - где они пересекаются, как можно их сравнить и так далее. В последних нескольких релизах добавлено: - несколько новых международных блоков таких как Pax Silica, WAICO, WANO, ARABSAT, CDRI, BLASMBL - обновлены метаданные множества блоков, нескольких сотен. Что-то вручную, что-то с помощью LLM. Много добавлений provenance, подтверждений источников сведений. - добавлен механизм контроля качества карточек блоков и стран и исправлены многие пробелы в карточках, например, отсутствия перечней стран участников и нормализованные названия стран. Механизм правил такой же как и в реестре Dateno, в виде отдельной команды анализа по набору YAML правил и выдачей результата в виде перечня ошибок в структурированном виде. - и множество мелких изменений, подробности в CHANGELOG файле Напомню, что результатом является дата продукт и все в итоге собирается в файлы данных в форматах Parquet, JSONL, YAML и базу данных DuckDB. А сам проект является частью поисковика по датасетам Dateno и используется там для разметки датасетов по странам. #opendata #datasets #data #opensource

9 159

Pax Silica vs WAICO Читаю про WAICO свежесозданный альянс по кооперации по ИИ 29 стран по поводу ИИ где участвует и Россия все страны Центрально Азии кроме Туркменистана, и многие другие развивающиеся страны Глобального Юга. Ведущая роль там безусловно у Китая и, по сути, это объединение стран вокруг Китая и его глобальной ИИ политики. И, конечно, невозможно его не противопоставлять инициативе США Pax Silica запущенной в декабре 2025 г. с похожими целями, но еще и с акцентом на редкоземельные металлы и полупроводники, ну и ИИ конечно. Я оставлю политологам гадать являются ли эти конфигурации инициатив будущими прообразами нового разделения мира на глобальные альянсы. Пока интересно что пересекаются они только на одной стране - это Казахстан. И что более половины стран мира пока никуда не присоединились. По тому что я читаю сейчас складывается ощущение что у WAICO есть все шансы охватить почти весь Глобальный Юг, как минимум те страны в которых сильно китайское присутствие. А вот чего пока нет так это инициатив схожего масштаба от Евросоюза. И это из-за того что ЕС несопоставимы с США и Китаем по развитию технологий ИИ и чуть ли не единственная тема вокруг которой ЕС могут пытаться собрать глобальную инициативу - это ИИ этика, безопасность и другие ограничения. Что сделать будет очень непросто, учитывая приоритет на экономический эффект практически во всех странах. Правда вот мне совссем непонятно какие бенефиты власти РФ получат от участия в WAICO. Продажа российских ИТ/ИИ продуктов в страны Глобального Юга? Не особо верится. Доступ к китайским вычислительным ресурсам и покупке чипов? Про это интересно было бы узнать подробнее. А я как раз недавно обновлял и еще планировал обновить карточки страновых блоков в internacia-db и вскоре, может быть даже сегодня, добавлю их туда. #ai #china #thoughts

9 159

Добавлю ещё некоторое количество рефлексии по использовании LLM и ИИ агентов для создания базы знаний. 1. После некоторого числа экспериментов действительно Kimi K3 можно сравнить с последними моделями OpenAI и Anthropic. Созданные ей карточки в базе знаний куда более полные чем, к примеру, созданные с помощью GLM-5.2 или моделями попроще. Это важно поскольку существенно удешевляет процесс. 2. По наблюдениям наиболее эффективен двухэтапный процесс с human-in-the-loop. Вначале делать промпт на создание промпта, далее, делать его ревью и редактировать, при необходимости. и следующим шагом уже полученный промпт отдавать LLM. Первый этап можно делать и моделью попроще вроде той же GLM-5.2, а второй куда лучше отрабатывает уже более продвинутая модель. По сути это путь двухэтапного анализа поскольку при формировании комплексного промпта модель делает предварительный анализ объекта документирования. 3. Главный недостаток такого подхода в том что он существенно удлиняет процесс подготовки базы знаний, примерно в 2-3 раза и дублирует многие шаги потому что и, на предварительном анализа, и на финальном, идёт обращение к одним и тем же объектам. Например, если на вход поступает какой-то раздел сайта с набором тематических документов, то они скачиваются дважды. Может быть на стадии подготовки промпта не все, но тем не менее когда качество результата важнее скорости это лучший подход. 4. Что хорошо - это работает с любыми цифровыми объектами. Сайтами, датасетами, документами и коллекциями документов, API, текстами в иной форме, базами данных и так далее. Например, если бы я хотел не просто собрать базу данных межгосударственных организаций, но и сделать базу знаний по ним, то я сейчас вполне понимаю как это можно организовать структурно и технически. (оговорюсь - планов создавать такую базу знаний у меня пока нет). #thoughts #ai #documentation

9 159

В продолжение предыдущих размышлений про LLM модели и их применение меня всё чаще посещает что среди основанных на ИИ (LLM) инструментов пока нет (мало) инструментов для создания документации. Например, для дизайна есть Claude Design и Open Design, оба довольно продвинутые инструменты. А для документации есть только онлайн платформы вроде Mintlify или Notion в которые встроена генерация текстов с помощью ИИ, но это делает тебя зависимым от этой платформы. Вот, например, сейчас для создания базы знаний я использую Codex со сложно настроенными промптами генерации статей адаптированных под Docusaurus, но это неудобный процесс со многими запросами по последующей линковке страниц, построению целостной базы знаний и верификации сделанного. У меня есть личное предположение что тут может быть отдельный инструмент вроде того же Open Design, но для документации. Способный создавать контент по четким структурным шаблонам под разные платформы, продукты и так далее. Под Docusaurus, под Mkdocs, интегрированный с Mintlify и другими облачными провайдерами и так далее. Использующий ИИ также как это делает Open Design. В принципе Open Design для меня пример сфокусированного продукта адаптируемого под конкретные задачи достаточно гибкого в вариантах подключения LLM для решения задач. Что было бы важно в таком продукте: 1. Уметь создавать документацию под разные задачи в разных форматах - разные вики, PDF, MS Word и тд. Базово в Markdown со сборкой в нужный формат при необходимости. 2. Уметь оценивать автоматически качество документации по полноте и другим критериям. 3. Уметь формировать документацию по полученным вводным: начальным материалам, промптам, предоставленны документам, изображениям, коду и так далее 4. Уметь работать по шаблонам в зависимости от того на что документация создается: SaaS продукт, настольное приложение, клиентское приложение, дата продукт и тд. Наверняка тут можно еще немало чего добавить. #thoughts #documentation #aiagents

9 159

Я на днях смотрел внимательнее на новые китайские модели: GLM-5.2, Kimi 3, LongCat 2.0 и скажу что, конечно, большой соблазн использовать их гораздо чаще потому что прогресс виден и экономия существенная. Мои наблюдения следующие: 1. С задачами кодирования китайские модели справляются весьма неплохо. Если поставить задачу анализа репозитория, исправления ошибок или реализация понятных и четко сформулированных задач, то подходят они более чем. При этом токенов они тратят существенно больше, но и токены стоят дешевле. 2. А вот с задачами создания баз знаний гораздо лучше работают последние модели OpenAI 5.6 и Fable 5. Точно также как и с архитектурными задачами и задачами сравнения с конкурентами. По ощущениям к ним приближается Kimi 3, но в целом когда мне надо было сделать сравнительно небольшую базу знаний, то OpenAI 5.6 во всех вариациях справляется лучше. 3. В целом ощущения что все быстро меняется, все меньше критических ошибок, меньше галлюцинаций и для приведения в порядок унаследованного кода китайские модели более чем подходят. А вот когда надо спроектировать продукт или сделать сложную миграцию кода то лучше использовать OpenAI и Fable. #ai #thoughts #notes

9 159

Feasibility study European Books Data Commons еще один интересный документ для чтения, техническое обоснование создание корпуса книг / датасетов на основе книг в библиотеках Евросоюза. Называется EBDC (European Books Data Commons). В тексте смешение технической реализации и смысловых обоснований зачем это нужно и как это можно организовать, включая интеграцию с Europeana, создание корпусов текстов, датасетов и есть какое-то количество примеров подобного в мире, в основном несколько проектов в США. Собственно основное там - это массовый OCR с помощью VLM (Vision Language Model) и основные расходы идут на компьютеры с GPU для этой задачи. Задумка хорошая сама по себе, много чего интересного окажется в открытом доступе если в ЕС реально такой проект запустят. #opendata #europe #books

9 159

Для тех кто любит думать и читать про будущее свежий доклад Правительства Великобритании со Сценариями развития ИИ до 2030 года. Текст большой и подробный, ключевые выводы такие. 1. Возможности ИИ продолжат расти. Уже в 2026 году системы действуют весьма автономно и превосходят экспертов в отдельных областях. К 2030 году ожидается ещё большая автономность и способность выполнять более широкий круг когнитивных и профессиональных задач — даже при замедлении темпов прогресса рост возможен за счёт лучшей интеграции и «упаковки» существующих систем в продукты. 2. ИИ может принести масштабные позитивные эффекты: рост производительности и экономики, более широкий доступ к эффективным госуслугам, ускорение научных прорывов (например, в здравоохранении и энергетике). Для британского бизнеса потенциал значителен — ИИ рассматривается как основной будущий источник роста производительности Великобритании. 3. Без вмешательства государства ИИ может привести к серьёзному, в том числе экзистенциальному, вреду. Усилятся существующие риски и появятся новые: кибератаки с использованием ИИ, его «двойное назначение» в науке, выход систем из-под контроля человека, зависимость людей от ИИ. По мере роста возможностей систем оценивать их безопасность и эффективность станет сложнее. 4. Существенное влияние на когнитивный труд. К 2030 году возможно значительное вытеснение рабочей силы, но одновременно ИИ будет дополнять и усиливать часть работников, положительно влияя на их зарплаты и карьерные возможности. Даже при более скромных сценариях характер труда изменится: рутинные, исполнительские задачи будут всё активнее автоматизироваться. 5. Рынок передовых моделей ИИ, вероятно, останется высококонцентрированным. Несколько крупных технологических компаний уже доминируют в разработке фронтирных систем, и эта тенденция скорее усилится. Основная выгода будет доставаться этим фирмам, владельцам капитала и контролёрам ключевых ресурсов, что может усиливать неравенство. При этом «за фронтиром» многие возможности ИИ станут более доступными и массово встроенными в разные сценарии использования. 6. Внедрение ИИ продолжит расти, но неравномерно. Коммерческие стимулы и требования нацбезопасности, а также рост автономности и надёжности систем ведут к быстрому и широкому внедрению в большинстве сценариев. Но во всех сценариях сохраняются барьеры, из-за чего скорость и масштаб внедрения будут различаться между организациями, отраслями и странами — это может усиливать неравенство. 7. Глобальная конкуренция сохранится, экономики всё больше зависят от технологий как источника роста, формируются сферы влияния во главе с США и Китаем. Судьба стран вне технологического фронтира будет зависеть от доступа к технологиям, партнёрств и способности действовать в фрагментированной глобальной системе. #ai #readings #uk

9 159

Magic Extractor open source инструмент для извлечения содержимого из большого числа разных форматов образов дисков, архивов и иных цифровых контейнеров. Автор пошел по пути охвата как можно большего числа форматов и сам инструмент явным образом написан под Windows и идентификацию файлов в непонятных форматах. Применение явно преимущественно для задач цифровой форенсики, что нужно не только исследователям/дознавателям, но и цифровым архивистам которые работают с унаследованными бинарниками. Тем более что многие из поддерживаемых архивных форматов - это именно что исторические архиваторы, не самые популярные. Немного пересекается с тем что я делаю по iterabledata, например, в части работы с файлами почтовых клиентов. Но лишь немного потому как подходы разные, Magic Extractor работает на извлечение, а iterabledata на последовательное чтение. Вообще я лично очень люблю тему форенсики еще с детства, когда приходилось возиться с огромным числом незнакомых форматов файлов для вскрытия защиты игр, save файлов и тд. Практическую пользу для себя вижу пока небольшую, но всегда приятно вспомнить старое когда анализ бинарных файлов я осваивал ещё до полноценного программирования. Кстати, большая часть сигнатур для подобных инструментов идут из проектов вроде TrID который активно используется именно в задачах цифровой архивации вроде PRONOM. #opensource #tools

9 159

Не про данные, но про российскую действительность. Оказывается внезапно Google удалили приложения VK и Max из Google Play и столь же внезапно VK продают RuStore своему менеджменту. Логика в обоих случаях понятная. Google соблюдают санкции ЕС, а VK пытаются их обойти перерегистрировав значимое приложение на физ. лиц. В случае этой перерегистрации ИМХО это не поможет потому что все слишком очевидно и санкции вводятся слишком быстрыми итерациями чтобы это помогло надолго. А в отношении Google я напомню о том что они с сентября 2026 г. запускают единую сертификацию разработчиков для всех магазинов приложений для сертифицированных андроид устройств. Это не все устройства, конечно, но все самые популярные у потребителей. Лично я никаких симпатий к Max'у не питаю, но, к сожалению, российские власти вешают на него слишком много функций. Понятно что если оно будет совсем нефункционально, то будут это отыгрывать, но тем не менее. #russia #vk #sanctions

9 159

Rankless аналитический портал для изучения академического влияния (academic impact) в виде хорошо визуализированных профилей организаций, авторов, взаимосвязей и так далее. Это фактически создатели взяли базу публикаций OpenAlex и превратили их в качественно визуализированную аналитику. #opendata #dataviz

9 159

Читаю статью в NYTimes о том что власти США запретили продажу спутниковых снимков не только по территории Ирана и близлежащих стран вовлеченных в конфликт, но и много где по всему миру. Причем, и это важно, автор пишет что продавать снимки отказываются не только продавцы спутниковых снимков из США и других западных стран, но и китайские провайдеры. Интересная ситуация с тем насколько эти данные политизированы что и власти Китая не идут на конфликт с США, поскольку сложно предположить что эти ограничения коммерческих провайдеров властям страны неизвестны. Автор статьи пишет про перспективу запуска спутников некоммерческими организациями и новостными агентствами что любопытно, но сдается мне что и тут без ограничений не получится. Что я бы отметил так что насколько в современном мире именно экономическая мощь и влияние позволяют ограничивать распространение и использование информации. Полностью не получается, автор пишет про некоторые альтернативные источники информации, но тем не менее. Чем больше в мире будет конфликтов - особенно военных, тем больше будет подобных ограничений. #data #thoughts

9 159

Я тут задумался над одной из главных проблем большей части проектов/порталов с открытыми данными. Они очень редко существуют в понятиях дата продуктов (продуктов данных). Хотя, по своей сути, являются их подвидом. Должны бы являться, в каком-то идеальном мире. В реальности оказывается что только лучшие из порталов вроде французского имеют приближение к этому. Гораздо ближе к дата продуктам коммерческие порталы с данными, отдельные госпроекты где доступность данных - это одна из форма доступа к ним и коммерческие дата продукты. Поэтому важный тезис в том что продукт данных (дата продукт) можно превратить в семантические слои, ну или расширить в это направление, а данные на типовом портале открытых данных нельзя. Там почти полный отрыв от контекста, задач, пользователей, метрик и коммуникации с владельцем данных, если он вообще есть. Все это к тому что преобразование порталов открытых данных в AI-готовые продукты ограничено тем что дата продуктов на них мало, метаданные не адаптированы для работы ИИ агентов и, в целом, требуются отдельные и существенные усилия чтобы строить на них семантические слои. Картинка для привлечения внимания, честно переведена с помощью LLM, а тут первоисточник #opendata #ai #thoughts #dataengineering #datacatalogs

9 159

Flint язык для построения диаграмм от команды Microsoft Research заточенный под использование ИИ агентами. Продукт включает визуализацию 30+ видов графиков с помощью разных графических библиотек, MCP сервер для интеграции с ИИ агентами. Выглядит как полезный инструмент под MIT лицензией. #opensource #dataviz

9 159

Govviz UK government performance проект по визуализации эффективности работы Правительства Великобритании. Выглядит как красивый дашборд с большим числом графиков, внутри сбор данных из десятка источников и их наглядная визуализация Все с открытым кодом и ничто не мешает по аналогии сделать визуализацию для какой-то другой страны с не самыми большими усилиями. Сам проект весь на клаудекоденный, заточенный под использование с помощью ИИ, имеет MCP сервис, множество описаний процессов и так далее. Я бы на него смотрел как на новую форму подачи официальной статистики, довольно интересную форму. #opensource #opendata #statistics