Ivan Begtin
Відкрити в Telegram
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc. CTO&Founder of Dateno https://dateno.io Telegram @ibegtin Facebook - https://facebook.com/ibegtin Email ivan@begtin.tech Ads/promotion agent: @k0shk
Показати більше9 041
Підписники
+1024 години
+197 днів
+5030 день
Архів дописів
9 041
+1
Для тех кто любит работать с данными, я недавно залил обновления в два репозитория:
- iterabledata библиотека для Python для чтения условно любых файлов и баз данных в итеративном режиме в том числе в потоковом режиме с экономией памяти
- undatum утилита для командной строки для манипуляции условно любыми дата файлами, их конверсии, чтении данных, анализу и документированию. Внутри используется как раз библиотека iterabledata
В чем особенность этих релизов.
В iterabledata исправлена возможность записи в форматы Avro, Orc и Lance. Не самые большие изменения, но повышающие удобство работы с библиотекой.
А утилита undatum была радикально обновлена с переводом большей части функций на работу через iterabledata и отказа от части внутреннего кода. Теперь работает преобразование файлов всех форматов которые поддерживает iterabledata - это более 100 форматов.
Сами инструменты были вдохновлены утилитами xsv и qsv и были написаны для того чтобы можно было удобным образом работать с изначально с JSONl/NDJSON файлами сжатыми любым способом, а далее с форматами вроде Parquet, ORC и остальные.
Вообще у меня не так много времени остается на программирование в последнее время, это скорее как хобби, но хобби полезное.
#opensource #datatools #dataengineering
9 041
Похоже не только Anthropic попали на грабли одобрения новых ИИ моделей Белым домом (США), а и OpenAI. Их уже попросили притормозить с публичным анонсом их новой модели, до её тестирования.
Меня мучает все тот же вопрос - что будет когда появятся сравнимые по эффекту открытые и доступные китайские модели? Власти США их тоже попробуют притормозить ? Будет ли какой-то глобальный договор вроде договора о нераспространении химического или ядерного оружия? Куда мир вообще идет-то ?
#thoughts #ai
9 041
Новая популярная тема в работе с ИИ агентами в разработке loop engineering или loop prompts в основе которой последовательность шагов, если упрощенно.
discover → plan → execute → verify → (repeat until a condition is met)С одной стороны кажется очевидным, с другой это, во многом, архитектурный шаблон когда ты разделяешь программный продукт на модули и разрабатываешь каждый с четким пониманием цели изначально. discover еще описывают часто как set the goal (поставить цель). Мне подход скорее нравится, хотя я и придерживался всё это время несоклько другого. Который можно описать как.
set the goal → analyze + analyze + analyze → review → design → plan → execute → (repeat tests till conditions met) → verifyНапример, вначале есть некая идея по разработке чего-то нового или по доработке. Прежде чем это реализовывать ты скармливаешь нескольким сервисам для deep / wide research для анализа, по итогам полученных аналитических отчетов делаешь их ручной ревью, пишешь документ дизайна продукта, превращаешь его в план реализации через OpenSpec или режим планирования, запускаешь реализацию, запускаешь подготовку исчерпывающего комплекта тестов и по итогам делаешь проверку результата. Ключевое тут - многократный анализ поскольку разные сервисы и разные LLM дают разные результаты. Как по качеству, так и по направлениям даже при одинаковых промптах. Если еще год назад эта аналитика была так себе, с кучей галлюцинаций, то сейчас она выходит на вполне разумном уровне и часто закрывает пробелы в первоначальном проектировании. #thoughts #aiagents
9 041
Новая популярная тема в работе с ИИ агентами в разработке loop engineering или loop prompts в основе которой последовательность шагов, если упрощенно.
discover → plan → execute → verify → (repeat until a condition is met)С одной стороны кажется очевидным, с другой это, во многом, архитектурный шаблон когда ты разделяешь программный продукт на модули и разрабатываешь каждый с четким пониманием цели изначально. discover еще описывают часто как set the goal (поставить цель). Мне подход скорее нравится, хотя я и придерживался всё это время несоклько другого. Который можно описать как.
set the goal → analyze + analyze + analyze → review → design → plan → execute → (repeat tests till conditions met) → verifyНапример, вначале есть некая идея по разработке чего-то нового или по доработке. Прежде чем э
9 041
По поводу того что Apple убрали из апп стора приложения VK, и того что разработчики Telega (альтернативный телеграм клиент) самоудаляются с 1 июля мне много что есть сказать, но сдерживаюсь чтобы больше писать и думать про интересное (данные, ИИ и тд.), а не про злободневное. И вообще не всегда получается писать нейтрально и достаточно сухо, но я стараюсь.
Тем не менее я хочу обратить внимание на то о чем уже писал, с 30 сентября 2026 года Google постепенно начнет внедрять требование по верификации всех разработчиков приложений для андроида. Не только в рамках Google Play, а вообще всех. Это поломает многие, может быть даже все, опенсорсные сторы приложений и поставит под контроль альтернативные сторы. Это охватит не все устройства, а только сертифицированных партнеров где есть, к примеру, Samsung, но нет Huawei.
Последствием этого может быть то что Google как и Apple сможет блокировать приложения конкретных разработчиков под санкциями и альтернативами окажется, или использование несертифицированных устройств или установка приложений разными нестандартными способами с понижением безопасности устройств. В андроиде, в отличие от устройств Apple, это возможно.
В любом случае если завтра российские регуляторы публично признаются что на Apple никак повлиять не могут и начнут говорить что мол "переходите на Андроид" может оказаться что переход на андроид не поможет. Потому что Google тоже должны соблюдать санкции (отдельный вопрос почему не соблюдают сейчас, но это политика, а не технологии).
В любом случае я бы не питал иллюзий что с Apple или Google можно будет договориться через ФАС или квадрилионные судебные иски или блокировками их сервисов. Блокировать их сервисы - это как стрелять себе в колени. Понятно что не впервой, но не надо уже приводить самострел в привычку.
#russia #thoughts
9 041
По поводу того что в России изменили законопроект о регулировании ИИ и из него убрали все ограничения и запреты и добавили всякие формы поддержки для тех кто делает фундаментальные модели. В общем из законопроект про "запрещать и не пущать" он был превращён в законопроект про "не мешать и немного помогать". Редкое явление в российском регулировании в последние годы, что уж тут скажешь.
Много лет назад, работая с разными доступными данными об активности госорганов я подумывал не сделать ли российский аналог Bloomberg Government (BG), с систематизированными данными про людям, контрактам, бюджетам, законам и проектам законов. Даже сейчас, со всеми ограничениями, информации о активности госорганов если не много, то кажется что достаточно чтобы такую штуку сделать. Включая аналитические продукты, у того есть регулярные обзоры проектов биллей да и аналитика по госрасходам и госконтрактам то что я довольно хорошо знал и знаю до сих пор.
По многим причинам дальше подробного технического задания этот проект не пошел, да и хорошо это, если честно. И одной из причин было то что наблюдаемая часть GR по российским законопроектам и вообще проектам нормативных документов не имеет почти никакого отношения к реальному. В наблюдаемой среде можно посмотреть как некоторые бизнес ассоциации направляют свои позиции, выступления отдельных чиновников и депутатов и тд. Но проблема/ситуация в том что то кто и как влияет на итоговый результат можно узнать только от инсайдеров. И эти разговоры могут идти на уровне министерств (редко), Пр-ва (часто) или Администрации Пр-та (весьма вероятно), но они непубличны.
И вот эти изменения в законопроект о регулировании ИИ - это прекрасная иллюстрация этого тезиса. Законопроект, явно, вносился интересантами которым хочется чтобы "страна жила построже". А то что это такое, все тут ходят с гирями на яйцах находятся под надзором, а какие-то там ИИ разработчики обнаглели в край.
В итоге оказалось, неожиданно, 😉 что если так гайки закрутить то будет хуже настолько что лучше не будет. И кто-то кому-то смог это объяснить настолько хорошо что всё переписали. Но мы не знаем кто, не знаем какими доводами, не знаем кого переубедил, разве что можно догадываться или читать прессу ссылающуюся на инсайдеров.
А возвращаясь к аналитике по законопроектам, законам и другим НПА, то она имеет развилку прикладных сценариев для защитного GR, но с запозданием, потому что в России анонс законопроекта - это не приглашение к разговору, а сформулированная угроза (как правило прописаны новые запретительные положения). Это имеет ограниченную ценность, но какую-то могут иметь.
Второй путь в юриметрии и оценки качества НПА и законопроектов да и законов измеряя время их подготовки, степень того насколько это "закон-спагетти" состоящий из сотен правок других законов, качества содержания и тд. Это может иметь только два аспекта:
- публично политический - показать плохую работу нормотворцев наглядно и в цифрах.
- внутриполитический - выстраивать внутреннюю работу над НПА и пересматривать законодательство.
В общем-то как ни смотри, не думаю что аналог Bloomberg Government в России возможно и имеет смысл делать. Но если кто-то задумывается о применении ИИ в отношениия законов/законопроектов, то может мои мысли вслух и пригодятся.
#thoughts #laws #ai
9 041
NVIDIA выложили в открытый доступ BioNeMo Agent Toolkit инструментарий для работы специалистов-биоинформатиков с ИИ агентами. Это не LLM модель, не программный продукт, а коллекция большого числа файлов навыков (SKILL.md), документации и примеров кода оптимизированное под Claude, Codex и Nemotron и инфраструктуру сервисов NVIDIA. Все под лицензиями Apache 2.0 и CC-BY-4.0
По сути это не то чтобы радикально новый, но всё же новый подход к документированию API и сервисов. Каждый файл SKILL.md сопровождается документацией к эндпоинтам API и примерами использования с дополнительными описаниями как с ними работать.
Общаясь со спецами по биоинформатике я уже не первый раз слышу что они используют специализированные ИИ инструменты, но ощущают что от всех них откажутся в сторону general LLM, учитывая как те развиваются. Пример с NVIDIA тоже показателен. Не разработка отдельного закрытого продукта, многие из которых есть на рынке, а встраивание в собственную экосистему и экосистему Anthropic и OpenAI
#opensource #ai #biotech
9 041
Я тут регулярно рассказываю о реестре каталогов данных Dateno который доступен в виде открытого репозитория и на сайте Dateno и время от времени сетую как же так такая хорошая штука и мало кем используется. И вот нашлись живые пользователи. Поисковая система/ИИ агент по базам знаний и каталогам данных Climate Data Catalogue используют наш реестр в своем реестре каталогов данных по климатическим данным. Их там немного, но они синхронизованы с метаданными из реестра Dateno. Что тут скажешь, молодцы 😁 и для таких применений этот реестр и создавался как открытый дата-продукт. С подробными метаданными и всеми точками подключения API которые у каждого каталога данных есть.
Сам их продукт ответов на вопросы тоже интересный, правда для работы просит ключ для Mistral, но обещает что он используется только локально.
В отличии от Dateno они ищут по Wiki, SPARQL эндпоинтам и каталогам данных и заглядывают в метаданные Wikidata при поиске ответов на вопросы.
Бизнес модель их не понимаю, впрочем это академический проект WU Vienna с акцентом на связанные данные, можно сказать что монетизация через получение исследовательских грантов (это не монетизация, конечно).
#opendata #datasets #climate #datacatalogs
9 041
Пишут что Sakana Fugu, японский оркестратор разных LLM, претендует на то что может выполнять задачи близкие к уровню Fable 5. При этом Sakana нет ни в одном из рейтингов LLM (мне не удалось найти) хотя у них самих на сайте их позиции в рейтингах упоминаются что наводит некоторые сомнения.
Но главные сомнения у меня в другом, какова вероятность появления модели сравнимой в Mythos/Fable и отсутствием угроз со стороны госдепартамента США в сторону ее разработчика? Может показаться что шутка, но вот как бы нет. Если высказанные опасения по поводу применения таких моделей для кибератак правда, то надо ожидать ужесточения регулирования и мер воздействия со стороны стран имеющих влияние на процесс.
#ai
9 041
Про то как ИИ хайп влияет на открытость данных. Патентная служба США USPTO ограничила доступ к своему порталу открытых данных data.uspto.gov только для зарегистрированных пользователей. Теперь чтобы скачать большие слепки данных или подключится через API надо заполнить регистрационную форму, а с августа включать в нее еще и дополнительную информацию.
Делается это для борьбы с ботами - читай автоматизированным подключением через ИИ краулеры. Учитывая что USPTO - это крупнейшая патентная служба в мире и ранее она была одной из наиболее открытых, то и огромное число ботов обращались к ней для получения данных по патентам.
Понятно что данные не исчезают и многочисленные сервисы использующие их продолжат работу зарегистрировавшись там, но тенденция налицо. Это не первый и не последний подобный случай
#opendata #closeddata #usa #patents #ai
9 041
findgovdata.org свежий поисковик по открытым данным США, конкретно по данным портала data.gov . Кажется очень небольшим по сравнению с нашим Dateno (тут около 540 тысяч датасетов, а в Dateno больше 20 миллионов). Однако тоже любопытен по своему.
По сути проект - это демка opensource поискового движка Amgix как альтернативы Elasticsearch. Внутри него векторные базы данных (можно выбрать одну из) и набор полезных фич.
Из заметных минусов - все под лицензией AGPL-3.0, а значит что создатели явно нацелились на то чтобы вскоре запилить SaaS продукт и получить на него венчурные инвестиции.
#opensoure #opendata #search #datasets
9 041
ORD (Open Reaction Database) открытая база реакций состоящая из более 500 наборов данных и сотен тысяч реакций описанных в структурированной форме.
У проекта открытый код и открытые данные на Github.
Из необычного данные публикуются в форматах Parquet и сжатом Protobuf (.pb.gz).
Основным источником является база патентов США, а кроме того там используется некоторое число открытых датасетов к которым привязаны реакции. Внутри используется CML (Chemical Markup Language) язык разметки для химических реакций.
Применений может быть множество, например, в автоматизации моделирования создания новых веществ, поиска новых реакций и так далее. Иначе говоря так и просится для специализированных ИИ задач.
#opendata #opensource #chemistry
9 041
Новая популярная "игрушка" сервис In the weights по поиску себя или кого-угодно еще в ведущих LLM моделях.
Выглядит забавно, с одной стороны, а с другой косвенная демонстрация применимости LLM в OSINT задачах и что, к примеру, "законы о забвении" и все подобное по удалению результатов поиска будет слабо применимо к LLM, как минимум еще долгое время.
#funny #ai
9 041
Probably аналитический инструмент для работы с данными локально на своем компьютере. На вход получает датасет в одном из популярных форматов и далее позволяет в режиме чата делать к нему запросы. Позиционируется как local-first продукт где данные не загружаются в облако и облака используются только для вызовов к LLM.
Умеет делать графики и простой анализ данных.
Что нравится:
- неожиданно стабильно работает и многое может для относительно молодого продукта
- удобный и работоспособный интерфейс
Что не нравится:
- закрытый код, для меня open source вариант всегда приоритетнее
- нет режима local-only, скорее всего из-за бизнес модели подписки и кредитов
- непрозрачная работа с облачными LLM. Нет BYOK, нет поддержки локальных LLM сервисов для работы с командной строки, непонятно какая LLM используется в облаке и непонятно какой объем данных передается
- нет общедоступной информации о разработчике на сайте
Впрочем стартап этот совсем свежий, они только-только подняли $9 миллионов на Seed раунде и надо за ними внимательно понаблюдать.
#data #datatools #ai
9 041
Полезные ссылки про данные, технологии и не только:
- Digital Government Outlook 2026 обзор ОЭСР по странам ОЭСР и странам которые они мониторят о их прогрессе в части цифровой инфраструктуры. Там много разного по развитым странам, из того что стоило бы отметить так это нулевые оценки Турции по Data accessibility и крайне низкие по открытости данных в целом, общая оценка 0.06. Чему я не удивлен, потому что в Турции на редкость много порталов открытых данных отдельных регионов и отсутствует национальная инициатива. Причем очень странно почему поскольку её есть из чего собирать. По другим странам тоже много интересного, полезно почитать всем кто изучает цифровизацию гос-ва.
- Clear свежий язык разработки и спецификаций одновременно созданный специально для работы ИИ агентов. Плюсы - он простой, минусы - примерно те же, он простой. В копилку языков ориентированных на работу с LLM больше чем на людей
- Lore система контроля версий нового поколения с акцентом на хранение бинарных файлов, а не просто текстового кода. Создано внутри Epic Games и надо полагать с акцентом на их задачи, работы не только с кодом, но и большими объемами бинарных ресурсов внутри игр
- Cursor Origin преданонсированный сервис от Cursor'а в виде Git'а для агентов. Звучит как заявка на конкуренцию с Github'ом, так что любопытно, хотя и не может быть просто
#ai #opensource #government #digital
9 041
Open Laws Foundation звучит как Фонд открытых законов, слишком пафосно, но де-факто - это open source проект двух разработчиков в виде спецификации пермалинков для нормативных документов и сохранения их метаданных. Для этого они вводят понятие OLF Identifier уникальный идентификатор схожий с DOI указывающий на конкретный документ. Со многих точек зрения это выглядит как человекочитаемый аналог DOI для законов. В основе проекта стандарт Akoma Ntoso (OASIS LegalDocML), а его создатели пытаются его применять как законам Франции и Италии.
Задумка мне нравится, будет ли она рабочей и востребованной - будет понятно позже. Законодательство и вообще нормативные документы имеют неприятность в высокой вариативности и в сложностях в выработке общих принципов за пределами одной страновой юрисдикции.
С законами все непросто, еще и то что те кто хорошо разбираются в их метаданных делают коммерческие продукты и вкладываться в общие стандарты не горят желанием. А те кто пытаются делать общественные продукты часто не знают всех нюансов.
#specifications #opensource #laws
9 041
Свежая модель GLM 5.2 от Z.ai, её уже можно потестить в агентском режиме на chat.z.ai и выглядит в работе она неплохо
У меня есть набор тестовых кейсов для deep research задач которые я опробую на всех новых моделях. Они к основной работе не относятся, зато я сам очень хорошо понимаю контекстную среду и могу оценить результат. Например, промпт как на приведенном скриншоте. В результате получается отчет на 30-40 страниц, не идеальный, не так чтобы вау-вау, но так чтобы очень хорошо. Если бы я реально этим репозиторием и кодом занимался, я бы рекомендации из результатов анализа применил.
Необычное наблюдение что вместо режима выдачи результатов Markdown-по-умолчанию привычный по другим сервисам тут всегда выдается PDF или DOCX или оба файла, но не Markdown. Это скорее неудобно чем удобно, но точно не критично.
По разного рода бенчмаркам для разработки у GLM-5.2 тоже очень высокие оценки, пробовать в работе точно стоит.
#ai #tools
9 041
По поводу того что в Индии временно заблокировали Телеграм для борьбы со списыванием во вступительных экзаменах в ВУЗы, я бы думал об этом шире. Проблема не в Telegram, конечно же, она более системная и связана с доступностью цифровых устройств в целом и доступностью возможности обмена сообщениями и доступностью ИИ ассистентов в частности в экзаменах.
Это не индийская проблема, а глобальная. Студенты используют ИИ ассистенты для домашних заданий, любых текстовых работ. Никаких простых решений тут нет, кроме достаточно радикального - в создании центров предварительной экзаменационной подготовки в заведениях мало отличимых от тюрем.
В специальных зданиях, в районах далеких от основной инфраструктуры, с недоступностью в них сотовых сетей (глушилки), Wifi и спутниковой связи (тоже глушилки). С досмотром и невозможностью проноса любых цифровых устройств. С обширнейшими тематическими библиотеками на бумаге и отключенными от сети стационарными компьютерами. С тотальным видеонаблюдением. Отправлять туда студентов за несколько дней до экзамена, они там живут в режиме закрытого общежития, сдают экзамен, отправляются домой и через некоторое время (не сразу) узнают его результат.
Ну как, звучит как хороший сеттинг для фантастического рассказа или это уже не фантастика?🤣
#thoughts #ideas
9 041
Подборка ссылок про данные, технологии и не только:
- Running local models is good now - автор пишет что, внезапно, но разработка ПО с помощью локальных моделей стала реалистичной. Она приводит в пример новую LLM Gemma-4-12b-qat достаточно компактную чтобы работать на ноутбуке с 64GB памяти и достаточно эффективную чтобы решать задачи работы с кодом.
- SpaceX to acquire Cursor for $60B in stock если кратко то компания AnySphere создателей среды разработки Cursor теперь куплена SpaceX. Я бы сказал что если Grok не начнут навязывать через Cursor, то это хорошая новость. Думаю что не будут и думаю что это не последнее приобретение SpaceX
- GenSpark - стартап/сервис-ИИ агента сравнимый с Manus. В моих тестах неожиданно хорошо показал себя на Deep Research задачах. Сервисов таких до сих пор не так уж много и можно разориться уже если тестировать их все.
- Bigset агент с открытым кодом по созданию датасетов из веб-поиска. Вбиваешь что-то вроде "AI infrastructure startups hiring backend engineers" и получаешь CSV файл на выходе. Концептуально напоминает сервис Webhound, там открытого кода нет, только SaaS. Правда и Bigset хоть и с открытым кодом, но зависит от коммерческого сервиса Tinyfish через который он делает веб поиск.
#opensource #ai #tools
9 041
Для тех кто интересуется разного рода международной таксономией, новая версия internacia-db управляемого справочника по странам и международным блокам в виде открытого репозитория приведенного к формату дата-продукта.
В новом релизе 1.5.0 по совокупности изменений:
- число стран/территорий расширено до 256 и теперь включает записи по непризнанным территориям вроде Приднестровья, Абхазии и тд.
- добавлены новые международные блоки которых теперь 1070, типы международных блоков по прежнему: экономические блоки, международные соглашения, межгосударственные организации и фонды, экономические группы стран (по классификация Всемирного банка и другим) и так далее. Всего более 86 типов международных группировок стран
- добавлена лицензия для данных которая CC-BY и provenance (происхождение) по отдельным полям данных в карточках записей.
- многие карточки включают обновленные метаданные: описания, официальные названия, сведения о странах участниках, статус участия и так далее.
Все данные опубликованы в форматах Parquet, YAML, JSON lines и в виде базы DuckDB.
Для чего нужна эта база?
1. Для обогащения данных при работе с любыми данными имеющими геопривязку к стране или международному блоку
2. Для задач визуализации данных, например, статистики в привязке к странам и международным блокам
3. Для сравнения стран и международных блоков
И тому подобных задач. Этот дата-продукт можно сравнить с pycountry пакетом для Python со справочником стран, но он больше, шире, детальнее и включает данные по международным блокам.
#opendata #dataproducts #data
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
