Ivan Begtin

I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff Telegram @ibegtin Facebook - https://facebook.com/ibegtin Secure contacts [email protected] — Contact @NMBabina for ads proposals

مشاركات الإعلانات

8 081

المشتركون

-724 ساعات

-27 أيام

+730 أيام

1 966

عرض المشاهدات

~ 78124 ساعات

~ 99248 ساعات

24.33%

معدل المشاركة

9.7%24 ساعات

12.3%48 ساعات

494

الإشارات

17 أيام

530 أيام

~ 2

المشاركات في اليوم

~ 11

ردود

~ 9

تعليقات

~ 26

إعادة

المشتركون
التغطية البريدية
ER - نسبة المشاركة

جاري تحميل البيانات...

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

В рубрике как это устроено у них проект Metaspace [1] в Европейском Союзе в виде каталога данных аннотированных метаболических данных полученных через спектрометрию. Это более 11 тысячи датасетов, по большей части в форматах imzML и ibd специально для публикации такого рода данных. Помимо многих метаданных специфичных именно для этой области, ещё одна особенность этого портала в том что на нем нет постоянных ссылок на данные и когда выбираешь опцию скачать данные тебе выдаётся ссылка протухающая через полчаса. Ещё один способ бороться с краулерами и автоматической выгрузкой данных. Данных много, данные большин, но с очень узкой областью применения. Ссылки: [1] https://metaspace2020.eu #opendata #dataseta #datacatalogs #massspectrometry

إظهار الكل...

👍 3✍ 1

К вопросу о каталогах данных, которые я изучаю вот уже много лет, в особенности каталоги общедоступных и открытых данных, чем больше я наблюдаю рынок, экосистему и тд. в том числе относительно больших каталогов данных, тем больше убеждаюсь что весь этот рынок за очень короткое время может перемешать Microsoft или, с меньшей вероятностью, Gitlab, реализовав в Github/Gitlab такое понятие как репозиторий данных. По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo. Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом. 1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске. 2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT. К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno. #opendata #datasets #microsoft #github

إظهار الكل...

Photo unavailableShow in Telegram

В рубрике интересных наборов геоданных, данные по зданиям в КНР, Японии и обеих Кореях в виде датасета на 23GB в сжатом виде. Внутри SHP файлы и другие стандартизированные геоформаты, а сами данные разделены по городам. Опубликовали на Zenodo 7 китайских исследователей. Источник данных непонятен, подробностей о происхождении данных нет, но сам датасет очень интересен и изза масштаба и размера и области охвата. Данные можно отнести к научным и, одновременно, полезным не только учёным. По моему с ним связана вот эта научная статья, но это не точно. #opendata #data #datasets

إظهار الكل...

✍ 4👍 3🔥 1

Photo unavailableShow in Telegram

К вопрос о том как исчезают данные в РФ, и не только в РФ. Многие операторы баз данных онлайн - это коммерческие компании которые особенно в последнее время активно удаляют свой контент из поисковиков и агрегаторов. Какой-нибудь energybase.ru. В какой-то момент они прописали блокировку большей части поисковых и архивных ботов. Теперь все ссылки в gem.wiki, которую я только что упоминал, протухли потому что многие сайты, например, вместо ссылок на сайты давали и дают ссылки на Интернет архив. Например, https://www.gem.wiki/Nizhne-Bureyskaya_hydroelectric_plant и теперь ссылки эти протухли( Если, в какой-то момент, Правительство РФ решит что размещение информации о критической инфраструктуре недопустимо и заставит все такие сайты удалить информацию то и в интернет архиве ничего не останется. Все такие случаи не отследить( К сожалению и архивация коммерческих сайтов осложнена многим, в первую очередь, тем что они особенно оберегают свои права на контент. #data #russia #dataavailability

إظهار الكل...

😢 5✍ 1👍 1

Repost from Open Data Armenia

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

(EN) Even more data about Armenia outside Armenia. Dataset from Global Energy Monitor and it's dashboard and map. There are first datasets released and available after registration under CC-BY 4.0 International license. (RU) Еще больше данных об Армении за пределами Армении. Набор данных из Global Energy Monitor и его информационной панели и карта. Появились первые наборы данных , они выпущены и доступны после регистрации по международной лицензии CC-BY 4.0. #opendata #datasets #energy

إظهار الكل...

👍 5⚡ 3🔥 1

А также эти данные доступны по всем странам мира, почти по всем вернее. И интересное Wiki https://www.gem.wiki от той же команды на базе Semantic MediaWiki. Про полноту не знаю, но подход у ребят системный, есть что поизучать

إظهار الكل...

Main Page

Welcome to GEM Wiki, the shared resource on all things energy: fossil fuels, renewable energy sources, environmental impacts, and the global movement to transition to a clean energy system.

👍 5✍ 3

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3]. Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные. Ссылки: [1] https://golemio.cz/english [2] https://opendata.praha.eu/datasets [3] https://api.golemio.cz/docs/openapi/#/ [4] https://gitlab.com/operator-ict/golemio #opendata #dataportals #czechia #praha #eu

إظهار الكل...

👍 3

В качестве лирического отступления. Если бы я был писателем пишущим по методу Хэмингуэя, без исправления текста, то сказал бы что "аллилуйя", пришёл настоящий вызов. Но я не такой писатель, и художественное творчество моё куда как скромно, но вот работа с нефункционирующей кнопкой бэкспейса на клавиатуре и ещё рядом других кнопок накладывает свои ограничения, как минимум на скорость печати. К сожалению замена клавиатуры будет только через несколько дней, так что это писать также часто как раньше пока не выходит. Но даже так я слегка пробежался по старому коду движка metacrafter'а [1], инструмента для идентификации семантических типов данных, или более простым языком, инструмент идентификации того что за колонка в наборе данных или в базе данных и что с ней можно делать. Инструмент я потихоньку начал приводить в целевое состояние - усиление поисковых возможностей у Dateno и автодокументирование датасетов. Что нового: - правила для metacrafter'а перенесены теперь в новый репозиторий metacrafter-rules [2], их стало больше, в основном за счёт правил для других языков отличных от английского и русского; - обновился серверный и клиентский режимы работы. Теперь можно ускорить сканирование данных запустив metacrafter как сервер и обращаясь к нему через параметр remote при вызовах сканирования файлов или баз данных. Это важно для ускорения процесса поскольку правила инициализируются только один раз - добавилась команда просмотра правил 'metacrafter rules list' - и так далее Главный недостаток сейчас - это скорость работы на больших датасетах. Чем больше колонок тем дольше анализ, до нескольких минут. Это не так критично для задач вроде сканирования корпоративных СУБД, но тяжко для задач Dateno когда миллионы датасетов. На самом деле чтобы всё ускорить нужно просто много ресурсов: процессорных, хранения и памяти. А прикрутив LLM'ку можно сильно повысить качество автодокументирования данных. Понимание данных, автодокументирование датасетов, автоматизация анализа данных - это одни из наиболее любимых мной тем в дата инженерии и дата анализе. Жаль удаётся уделять немного времени. Ссылки: [1] https://github.com/apicrafter/metacrafter/ [2] https://github.com/apicrafter/metacrafter-rules/ #opensource #data #datatools #dateno #metacrafter

إظهار الكل...

GitHub - apicrafter/metacrafter: Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules

Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules - apicrafter/metacrafter

❤ 8👍 2🕊 2✍ 1

В последнее время у меня было несколько разговоров с разными людьми, но все на одну и ту же тему что открытые данные тесно связаны с развитием свобод и демократии и что без них их не существует или становится меньше. Хотя такая связь и есть, но из того что я много лет наблюдаю не только по РФ, но и по другим странам я вижу гораздо большую связь с устойчивостью государства, экономикой и качеством госуправления, которые, часто, высоки именно в развитых демократиях, но, при этом в демократиях бедных, к примеру, тема открытых данных не развита или на 100% зависит от внешних грантов. В то время как внутренние инициативы по открытости данных есть в самых разных странах: Китае, Вьетнаме, Катаре, ОАЭ, Казахстане, Таиланде и даже в России в каком-то виде. Это те страны которые, к примеру, по Democracy Matrix [1] относятся к автократиям. Про каждую страну можно не одну статью написать почему это так, и почему в этих странах, не входящих в ОЭСР или Open Government Partnership есть довольно продвинутые инициативы, законы, порталы и научные проекты про открытые данные и на их основе. Почему так происходит? Что общего в этих странах? У меня нет универсального ответа на этот вопрос, но есть несколько гипотез: 1. Вне зависимости от политического руководства страны не оспаривается нигде тезис что работа госаппарата по созданию и распределению общественного блага. По мере роста числа квалифицированных пользователей данными сотрудники госорганов как минимум часть своей работы раскрывают как данные просто потому что требуются дополнительные усилия чтобы эти материалы публиковать неудобным образом (в закрытых немашиночитаемых форматах). 2. Даже в авторитарных странах есть публичная коммуникация государства с гражданами и по мере нарастания госрасходов на информатизацию, раскрытие части данных является ответом на общественные запросы: "Зачем Вы потратили на это столько денег?", "Какая с этого польза гражданам?" 3. Коммуникация с местным и международным цифровым бизнесом, привлечение зарубежных инвесторов, демонстрация открытости рынка. В авторитарных странах чаще на порталах открытых данных речь идёт о коммуникации с бизнесом. 4. Развитие науки, создание проектов с раскрытием открытых научных данных 5. Демонстрация того что "вы называете нас авторитарными, а посмотрите, у нас качество госуправления и открытость повыше вашей" 6. Демонстрация устойчивости государства: "Мы сильные и устойчивые, нам нечего скрывать, наша открытость нас не пугает" Есть и другие, более специфичные для конкретных стран гипотезы и доводы. А есть и взгляд с другой стороны. Когда инициативы по открытости закрываются с невнятной коммуникацией ( Россия ) или когда вместо портала открытых данных есть портал закрытых данных только для граждан и с получением не более чем по 100 записей за раз (Казахстан), такие инициативы не говорят об устойчивости гос-ва, они дают только сигналы: "Мы боимся!", "Мы не умеем этим управлять!". А я ещё не раз напишу с примерами о том как данные публикуют в недемократических государствах. Ссылки: [1] https://www.democracymatrix.com/ranking #opendata #data #thoughts

إظهار الكل...

👍 20❤ 5

Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества. Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка. До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили. #privacy #scoring #uk #france #ai

إظهار الكل...

À France Travail, l’essor du contrôle algorithmique

« Score de suspicion » visant à évaluer l'honnêteté des chômeur·ses, « score d’employabilité » visant à mesurer leur « attractivité », algorithmes de détection des demandeur·ses d'emploi en situation de « perte de confiance », en « besoin de redynamisation » ou encore à « risque de dispersion »... F

👍 13

اختر خطة مختلفة

تسمح خطتك الحالية بتحليلات لما لا يزيد عن 5 قنوات. للحصول على المزيد، يُرجى اختيار خطة مختلفة.