cookie

Sizning foydalanuvchi tajribangizni yaxshilash uchun cookie-lardan foydalanamiz. Barchasini qabul qiling», bosing, cookie-lardan foydalanilishiga rozilik bildirishingiz talab qilinadi.

avatar

Ivan Begtin

I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff Telegram @ibegtin Facebook - https://facebook.com/ibegtin Secure contacts [email protected] — Contact @NMBabina for ads proposals

Ko'proq ko'rsatish
Reklama postlari
8 078
Obunachilar
-524 soatlar
-277 kunlar
-6830 kunlar

Ma'lumot yuklanmoqda...

Obunachilar o'sish tezligi

Ma'lumot yuklanmoqda...

Статистические данные Банка России в формате временных рядов теперь доступны по API и в виде машиночитаемых наборов данных Всего доступно 49 статистических показателей, среди которых можно найти: - статистику по ипотечному жилищному кредитованию - структуру денежной массы - объемы кредитов, предоставленных субъектам МСП - платежный баланс РФ - процентные ставки по вкладам физлиц в рублях - сведения по кредитам нефинансовым организациям и физлицами - и многое другое. Также на сайте Банка России доступна подробная инструкция по работе с сервисом (https://www.cbr.ru/statistics/data-service/user_guide/) и документация к API (https://www.cbr.ru/statistics/data-service/APIdocuemntation/). Отличная новость, т.к. не так часто нас балуют новыми открытыми данными, особенно финансовыми. Было бы здорово, если и другие финансовые организации возьмут пример с Банка России. Например, Сбер мог бы расширить и детализировать данные, доступные сейчас в СберИндексе, а Тинькофф - хотя бы добавить возможность скачивать данные, доступные в графиках Тинькофф Индекса. Ссылка на сервис получения данных: https://www.cbr.ru/statistics/data-service/
Hammasini ko'rsatish...
👍 14
В рубрике интересных каталогов данных, данные по астрономии и астрофизике. В РФ немало научных проектов в этой области в которых раскрываются данные используемые исследователями в разных странах. Например, SAI Open Clusters Catalog [1] базе открытых звезных класетров в Млечном Пути с экспортом данных в формате VOTable [2] продвигаемым International Virtual Observatory Alliance. По каждому кластеру отдельный файл с данными. Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4]. В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру. Ссылки: [1] http://ocl.sai.msu.ru [2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html [3] http://rcsed.sai.msu.ru/ [4] http://rcsed.sai.msu.ru/data/ [5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml #opendata #datacatalogs #astronomy #astrophysics #data
Hammasini ko'rsatish...
1🔥 1
Помимо данных о маршрутах, о которых я ранее писал [1], есть немало узкоспециализированных источников структурированных данных, не очень то полезных для дата аналитиков и data scientist'ов, но полезных кому то ещё. Например, это данные о 3D моделях, майндмапы и какое-то число других результатов активностей распространяемых в форматах с машиночитаемым экспортом. Их немало, но применение ограничено и области специфические. Куда интереснее всё становится когда мы переходим от восприятия поиска данных не через призму их обнаружения (discover), а через призму их извлечения и создания (extract). Данные есть и их много внутри чего-то что само по себе данными не является: веб-страниц, PDF файлов, офисных документов и иных документов разметки. К примеру, бесконечное число таблиц находится в научных статьях и их препринтах, или в публичных отчетах компаний, или в нормативных документах и отчетах госорганов. Иногда (редко) эти таблицы легко извлекаются тэгами в разметке, чаще они представлены в виде изображений. Есть такая очень прикладная задача и даже датасеты по извлечению таких таблиц. У IBM есть датасет FinTabNet [2] с большой коллекцией таблиц извлеченных из отчетов компаний из списка S&P 500. Есть несколько десятков исследователей в мире работающих только над темой автоматического аннотирования подобных таблиц, и есть успехи в этой работе. Так почему бы не взять один из общедоступных алгоритмов извлечения и не прикрутить к поисковой системе вроде нашего Dateno и не получить сотни миллионов таблиц для индексирования? Вот это уже на 100% вопрос масштаба. Документов в мире значительно больше чем общедоступных данных (за исключением биоинформатики, физики частиц и спутниковых снимков). При этом нужна инфраструктура чтобы хранить первичные документы, обрабатывать их и готовить таблицы. Поисковик превратится из базы метаданных в крупнейшую базу данных, из маршрутизатора на сайты с первоисточниками, в замкнутую на себя экосистему. Но очень соблазнительно и вполне реалистично. Такой подход - это одна из причин почему я давно говорю о том что превзойти поисковый индекс Google по датасетам несложно, вопрос только в размере ресурсов которые необходимо на это затратить. И всегда важно помнить что это очень много маленьких датасетов, в то время как для data science, к примеру, нужны хорошо размеченные "большие данные". Ссылки: [1] https://t.me/begtin/5616 [2] https://developer.ibm.com/data/fintabnet/ #opendata #data #thoughts #datasets #dateno
Hammasini ko'rsatish...
3👏 2🤔 2
Про последние [не]изменения в российском правительстве написать что-то сложное поскольку всё это не про изменения, а про [не]изменения госполитики. 1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки. 2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторые грёбанные монополии национальные чемпионы цифровой отрасли и силовики потому что эти самые "обезличенные" данные будут с бизнеса собирать и законопроект про это давно есть, его отложили, но не отменили. 3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет. — Иначе говоря, ничего неожиданного. #opendata #government #data #russia #govtech
Hammasini ko'rsatish...
👍 10😢 2🤨 1
Пример порталов с данными которые не порталы данных. Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах. Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов. Ссылки: [1] https://www.wikiloc.com #opendata #datasets #data #dataportals #hiking #geodata
Hammasini ko'rsatish...
🔥 11👍 4 2
Стоило мне чуток отвлечься на активный отдых на майские праздники так тут столько всего интересного не-произошло. В РФ правительство не-сменилось и в мире много чего ещё не-приключилось. А я уже очень скоро вернусь к регулярным текстам про каталоги данных, природу данных, инструменты, регулирование и не только. В ближайшее время буду рассказывать про проекты с данными которые нельзя отнести к порталам данных, но де-факто которые такими являются. И что данных количественно там может быть многократно больше чем на других ресурсах. #opendata #data #blogging
Hammasini ko'rsatish...
35
В рубрике больших интересных наборов данных Global Contract-level Public Procurement Dataset [1] единая база из 72 миллионов госконтрактов по 42 странам собранная в Central European University. Охватывают 2006-2021 годы, обещают обновления тут [2], но пока их не выкладывали. Что характерно, это не база Open Contracting, данные собирались из разных источников и в разных форматах. Много это или мало? В российском проекте Госзатраты собрано более 58 миллионов госконтрактов [3]. По стандарту Open Contracting в мире публикуют около 55 стран, точное число контрактов сказать не могу, но точно миллионы-десятки миллионов. В США на портале USASpending [4] опубликовано тоже порядка 58 миллиона федеральных контрактов, а если считать все процедуры предоставления госсредств (гранты, субсидии, прямые платежи), то около 150 миллионов. Так что 72 миллиона в датасете - это, да, много. Тем кто исследует данные такого типа может быть интересно. Ссылки: [1] https://www.sciencedirect.com/science/article/pii/S2352340924003810 [2] https://www.govtransparency.eu/category/databases/ [3] https://clearspending.ru/ [4] https://usaspending.gov #opendata #datasets #procurement #data #contracts
Hammasini ko'rsatish...
ГосЗатраты - Общественный мониторинг госзакупок в Рф

Автоматизированный мониторинг и аналитика по заключенным госконтрактам – инструменты для общественного анализа, выявления злоупотреблений, борьбы с коррупцией и неэффективным расходованием государственных средств.

3🔥 3
Repost from N/a
Сегодня 109-я годовщина Геноцида армян, первой гуманитарной катастрофы XX века. 24-е апреля – день, когда была арестована и казнена армянская интеллигенция, однако систематическая резня армян в Османской империи началась ещё в 1890-х и завершилась лишь около 1922 года, распространившись также на территорию Арцаха и нынешнего Азербайджана. Мы подготовили небольшую подборку ресурсов и источников данных о Геноциде, его последствиях, а также о быте западных армян до изгнания с исторической родины. Сайт Музея-института Геноцида армян Houshamadyan – проект, направленный на реконструкцию жизни армян в селах и городах Османской империи 3D клипы и изображения из средневекового Ани, оставшегося по ту сторону границы Историческая статистика Данные об армянах, прибывших в США морским путем с начала XX в. до 1930-х, а также элементы статистики натурализации, заключения браков. смертности и др. Статьи с деталями о демографии и миграциях в отдельных провинциях Фотографии и истории Репозиторий с оригинальными фотографиями, запечатлевшими армянский быт в Османской империи с 1860-х гг., включая портреты из лагерей и поселений беженцев Истории сбережённых семейных вещей и фотографий Архив исторических фотографий Granger Свидетельства очевидцев и СМИ Список записей о Геноциде в архивах дипломатов и миссионеров и частных коллекций Освещение Геноцида в мировой прессе в 1915-1920 и в XXI в. На сайте Armenian National Institute также доступны фотоколлекции, списки памятников жертвам Геноцида по странам, публичные заявления о Геноциде и др. Видео и аудио-свидетельства уцелевших во время Геноцида на разных языках с детальными метаданными и контекстом (требуется регистрация, многие видео с субтитрами) Не забывайте делиться с нами важными находками.
Hammasini ko'rsatish...
Home

11😢 5🔥 2👍 1💔 1
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё. Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных. И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут? Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов. В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные. Ссылки: [1] https://www.scidb.cn #opendata #datasets #datasearch #china
Hammasini ko'rsatish...
2👍 1
- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов. - мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов. - Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем. Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов. Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований. #opendata #data #datascience #ml #machinelearning
Hammasini ko'rsatish...
Dateno - datasets search engine

Search engine for datasets

👍 6🔥 2