cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

Системный Блокъ

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Show more
Advertising posts
8 300
Subscribers
+524 hours
-97 days
+430 days

Data loading in progress...

Subscriber growth rate

Data loading in progress...

От трех шагов к чтению до разговора о Большом терроре: подборка «Системного Блока» про образование Многие блогеры «Системного Блока» преподают в школах или университетах, поэтому образование – одна из ключевых тем в их текстах. В этой подборке — четыре важных материала о теории и практике в обучении. Как дети учатся читать Если речь в детстве «приходит сама», то чтению ребенка нужно научить. В своем блоге Анастасия Лопухина рассказывала, как дети учатся читать и что знают об этом современные когнитивные науки. Например, в обучении чтению есть три шага: «взлом» орфографического кода, эффективное чтение отдельных слов и понимание текста. Подробнее о каждом из них узнаете из поста. Как провести урок истории на основе цифрового архива «Прожито» Дневники цифровой коллекции «Прожито» могут превратить урок в исследование локальной истории или событий мирового масштаба. Например, в коллекции дневников можно найти целых 223 записи 1945 года о бомбардировке Хиросимы и Нагасаки и изучить, как её восприняли в СССР. О других вариантах применения «Прожито» на уроке истории узнаете из блога Юлии Папановой. Как увлечь школьников историей страны Ещё один вариант разнообразить уроки — обратиться к электронным базам по истории. Юлия Папанова рассказала о таком методе на примере цифровых архивов ХМАО. Благодаря ним в рамках разговора о большом терроре можно изучить архивно-следственные дела семей. Изучая другие темы, угадывать, как раньше применялись предметы быта и культа из музейной коллекции. Как работают цифровые гуманитарии В DH-магистратуре в ИТМО люди учатся делать и проекты, и исследования, и совмещение этих двух подходов может многому научить. Цифровые гуманитарии умеют превращать культуру в коллекцию образцов, выставленных в музее, а науку — раскладывать на схемы, которые вытравят всё живое из открытий и сомнений. О том, с какими последствиями цифровизации работают студенты и как с этим связан «Пушкин Цифровой», можно узнать из материала на сайте. 🤖 «Системный Блокъ» @sysblok
Show all...
🔥 12👍 6 5
170 лет школьной программы: проект «Список чтения» Цель проекта «Список чтения» — представить состав школьной программы по литературе на протяжении 170 лет и проследить, как он менялся. «Системный Блокъ» рассказывает о проекте Высшей школы экономики, который будет партнером на мастерской Дата-журналистики на «Летней Школе». Что такое «Список чтения»? Созданная в 2023 году интерактивная карта — результат исследования учебных программ по литературе с 1852 по 2023 год. Идея проекта — показать содержание школьной программы по литературе в детализированном и понятном формате. Авторы использовали два датасета, размещенных в электронном репозитории ИРЛИ РАН, а также некоторые данные собирали и подготавливали самостоятельно. Что мы узнали из «Списка чтения»? Сайт проекта состоит из двух разделов. В разделе «Таймлайн» находится график, отражающий количество изучаемых авторов и произведений в течение каждого года. Например, в 1870-х изучались всего 14 авторов и 40 произведений, а в 1920-х — уже 54 автора и 183 произведения. В разделе «Топы» собраны авторы и книги-долгожители, а также писатели с наибольшим количеством произведений. Например, «Евгений Онегин» Пушкина изучался практически на всем протяжении исследуемого периода, а татарского писателя К. Наджми проходили лишь в 1932 году. Что дальше? В «Списке чтения» представлены три среза: исторический, литературоведческий и социологический. Проект помогает понять, как складывается канон (устойчивый набор текстов), и изучить влияние школьного материала на социокультурную атмосферу конкретного исторического периода. Одно из возможных направлений исследования — соотнесение программыс историческими реалиями, с задачами, которые стоят или стояли перед образованием в соответствующую эпоху.  Более подробно об устройстве проекта, его ограничениях и будущих улучшениях читайте в полной версии статьи и на сайте «Списка чтения». Время чтения: 9 минут. 🤖 «Системный Блокъ» @sysblok
Show all...
Обзор проекта «Список чтения» от НИУ ВШЭ

«Системный Блокъ» рассказывает о проекте Высшей школы экономики «Список чтения», цель которого — проанализировать и визуализировать состав учебных программ по литературе с 1852 по 2023 год.

32🔥 15👍 11
Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступна новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе. Доступна обучающая выборка с 15 триллионами токенов Опубликована новая выборка текстов для обучения языковых моделей — FineWeb. Она содержит отфильтрованные англоязычные тексты разных веб-сайтов и покрывает период с лета 2013 года до начала весны 2024 года. Мультиязычную версию обещают выложить в ближайшее время. Всего в выборке 15 триллионов токенов (это часть слова или слово). Для проверки качества данных на части выборки было обучено несколько языковых моделей. Их качество получилось выше, чем у тех, которые обучали на других известных наборах данных (C4, Pile, Dolma и другие). Новая самая большая публичная LLM Компания Snowflake выпустила языковую модель Arctic с 480 миллиардами параметров. Модель использует архитектуру Mixture of Experts. Иными словами, в процессе её работы задействована только часть всех параметров (какая именно — модель выбирает в зависимости от входных данных). В случае Artic используется всего лишь 3,5% параметров. По качеству она сопоставима с LLama 3 70B. На данный момент Arctic — самая большая модель, которую можно использовать в коммерческих целях без каких-либо ограничений. Phi-3 — маленькая, но умная языковая модель Компания Microsoft выпустила третье поколение своих компактных языковых моделей Phi. Модель Phi-3 выделяется относительно небольшим размером: 3,8 миллиарда параметров (для сравнения самая большая на текущий момент публичная модель в 126 раз больше) и высокими показателями в основных тестах. По качеству она сопоставима с недавно вышедшей LLama 3 с восемью миллиардами параметров. По заявлениям Microsoft, этого удалось достичь с помощью обучения модели на данных высокого качества: часть данных — сильно отфильтрованный набор текстов из интернета, другая часть — данные, сгенерированные с помощью GPT-4. Однако в сообществе исследователей и разработчиков некоторые относятся к возможностям Phi-3 скептически: критики подозревают, что в обучающих данных присутствовали тексты, на которых её впоследствии тестировали. Такие же дискуссии вызвали и её предшественники, Phi-1 и Phi-2. 🤖 «Системный Блокъ» @sysblok
Show all...
🔥 17 8👍 1
Тест: Угадайте русского классика по одному слову! Продолжаем праздновать День рождения НКРЯ! В честь него подготовили для вас тест по словам, по которым можно узнать русских писателей.  Словари языка писателей существовали и до цифровой эпохи. Например, «Словарь языка Пушкина» создавался почти век и собирался вручную. А он насчитывает 20 тысяч слов! Сегодня на смену таким словарям пришли корпуса писателей, в первую очередь — в составе НКРЯ.  Филолог Борис Орехов использовал НКРЯ и метод извлечения ключевых слов TF-IDF  для изучения русской литературы XIX века. Если тоже хотите узнать или вспомнить уникальные слова в произведениях русских писателей, проходите тест и проверьте, в чьих текстах раздавалось «хохотание»‎ и происходило «требоисправление»‎.  🤖 «Системный Блокъ» @sysblok
Show all...
Тест: угадайте любимые слова известных писателей

«Системный Блокъ» публикует тест к 20-летию Национального корпуса русского языка (НКРЯ). Попробуйте узнать автора по характерным для него словам, которые можно найти с помощью НКРЯ.

🔥 27 11👍 9
От Гарри Поттера до Стихов.ру: лучшие материалы «‎Системного Блока»‎ о НКРЯ Национальному корпусу русского языка (НКРЯ🦆) исполнилось 20 лет!🎉 Как развивается главная цифровая коллекция текстов на русском языке, что в ней есть и что она дает науке? Корпус для всех: как используют НКРЯ Зачем нужен корпус? Ответ на этот вопрос дают школьники, студенты-лингвисты и учёные. В статье рассказано о самых разных исследованиях: от сложностей перевода на другой язык культурных реалий на примере книг Набокова до возникновения фразы «ибо нефиг» и особенностей применения частного и местного падежей в современном русском языке. От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна В последние годы НКРЯ преобразился: дизайн стал удобнее и современнее, появилась мобильная версия. Изменения были не только внешними: добавились новые инструменты и новые корпуса, например, блогов и социальных сетей (в том числе интернет-сленга), литературы для детей от 2 до 15 лет (там можно найти «Гарри Поттера» и «Вафельное сердце»). Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru НКРЯ — не единый массив текстов, а сложная структура, включающая в себя разные корпуса: параллельные, исторические, мультимедийный… Эта статья рассказывает об акцентологическом корпусе, полезном для изучения ударений. Тест: Узнаете ли вы подкорпус НКРЯ по характерным для него словам? Какие слова чаще встречаются в анекдотах, а какие — в деловых документах? Попробуйте проверить свою интуицию, разбираясь в жанрах, тематиках и стилях текстов, а заодно познакомьтесь с корпусами НКРЯ поближе🙂 Русско-китайский корпус НКРЯ, или Как превратить ботвинью в гаспачо Первый параллельный корпус — русско-английский — появился в НКРЯ в 2005 году. Сейчас в его составе уже 28 параллельных корпусов. Русско-китайский корпус был запущен в 2016 году. Он содержит более 1000 текстов и поддерживает ввод запроса кириллицей, иероглифами и пиньинем — китайской транскрипцией. Я/МЫ НКРЯ: что происходи(ло) с национальным корпусом в 2019 В 2019 году будущее НКРЯ было неясным: в какой-то момент перестали работать некоторые функции, и лингвисты забили тревогу. Проблемы в итоге решились, а материал «‎Системного Блока» про историю НКРЯ и сложности поддержки настолько масштабного проекта — остался. Сегодня это скорее исторический документ, но все равно интересно вспомнить, как лингвисты и просто неравнодушные люди встали на защиту корпуса. «Системный Блокъ» @sysblok
Show all...
21❤‍🔥 9🔥 7👍 5
«Системный Блокъ» запускает мастерскую Дата-журналистики на «Летней Школе»! Вы тоже любите данные, полевую кухню, сосны и исследования? В июле-августе «Летняя школа» на Волге открывает свой 21-й сезон. В этом году в ее программе и мастерская «Системного Блока». Что такое дата-журналистика? Данные (data) — это просто сырые сведения, зафиксированные на каком-то носителе. Например, статистика потребления воды в квартирах в течение суток. Сырые данные мало что значат для человека. Чтобы приобрести смысл, данные должны быть обработаны, обобщены и проинтерпретированы. Например, ежемесячная устойчивая корреляция потребления воды и просмотра вечерних телепрограмм по телевизору может дать нам какое-то новое знание. Обработанные данные, отвечающие на какой-то поставленный вопрос, — это уже информация. Дата-журналист работает с «датой» (данными) как с исходным материалом. Задача журналиста — как раз преобразование данных в информацию, доступную всем людям. Мы писали об этом с примерами. 🎓Для кого наша мастерская? Мы ждем журналистов, дата-журналистов, студентов и выпускников медийных и других гуманитарных специальностей, а также программистов, аналитиков данных и визуализаторов, готовых попробовать себя в новой сфере. ✍🏼 Что будем делать? Сначала учиться, а потом применять знания на практике. Программа состоит из образовательной и проектной части. В программе участники нашей мастерской узнают, каким данным можно верить и какими источниками пользоваться, как сделать материал интересным, какие бывают виды графиков и как визуализировать данные? В проектной части вас ждет хакатон. Мы сформируем из участников 10 редакций, которые пройдут полный цикл создания медиаматериала на базе подготовленных датасетов. Каждая команда завершит мастерскую с публикацией своего исследования в “Системном Блоке” или у наших партнеров. 🧑🏻‍💻 Кто делает мастерскую? Нашими партнерами будут платформа «Если быть точным» @tochno_st, фокусирующаяся на социальных проблемах в России, и «Лаборатория университетской прозрачности» @uni_loup, исследующая качество образования и политику вузов. Образовательный партнер нашей мастерской — центр научной коммуникаций ИТМО @scicomm. Нашими лекторами будут Ксюша Тихомирова — куратор дата-отдела «Системного Блока», Надя Андрианова — дизайнер в группе исследований Яндекса и дата-артист, Ксюша Орлова — дата специалистка в АНО Инфокультура, Настя Кокоурова — главный редактор «Если быть точным», Ксюша Бабихина — аналитик в проекте «Если быть точным», Илья Воронцов — исследователь, преподаватель, научный сотрудник института Общей генетики РАН 📍Когда и где? Даты проведения: с 21 июля по 5 августа 2024 года на Волге недалеко от Дубны. ❗️Как к вам попасть? Подать заявку на участие можно на странице нашей мастерской до 20 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Более подробно вы можете прочитать в FAQ. 🤖 «Системный Блокъ» @sysblok
Show all...
Мастерская дата-журналистики от издания «Системный Блокъ»

Наша цель вдохновить вас на использование технологий анализа и визуализации данных в ваших исследованиях. Мы поможем освоить нужные навыки работы с базовыми инструментами по анализу данных и визуализации. Вы получите возможность реализовать проект на мастерской, и опубликовать исследование в одном из дата-изданий. Все участники мастерской, вне зависимости от итогов проектной работы, смогут познакомиться с экспертами в области дата-журналистики и будущими коллегами, повысить культуру работы с данными

27🔥 23👍 13
Подборка каналов про культурное наследие в цифре от издания «Системный Блокъ» Когда-то слово «архив» вызывало в мыслях образ пыльного библиотечного пространства, доступного избранным по пропускам. Теперь многое оцифровано, и изучать прошлое можно по расшифровкам дневников, сканам иллюстраций старых книг или фотографиям мозаик. В этой подборке — каналы с такими данными. @prozhito — Прожито Проект, занимающийся исследованиями эго-документов, в первую очередь дневников. В электронной библиотеке представлено более 626 тысяч дневниковых записей XVIII-XX веков. «Прожито» позволяет изучать прошлое не только по учебникам истории или мемуарам известных личностей, но и через восприятие обычных людей: гимназистов, врачей, автомехаников. @vlesah — В ЛЕСАХ Медиа про культурное наследие в регионах. Если все церкви в классическом стиле и памятники Ленину слились в вашей голове в одно, приходите читать про саркофаги от тульских оружейников, дома с привидениями и музей ЖЭК-арта. Можно не только читать, но и помогать: «В ЛЕСАХ» пишут в том числе о волонтёрских экспедициях, посвящённых сохранению наследия.@okartinki — о-картинки Канал Центра исследований Оттепели посвящен книжному дизайну второй половины XX века. В коллекции много детских книг времен оттепели, например, рассказ о московском метро (тогда ещё с четырьмя ветками), чрезвычайное происшествие с обезьяной Чичи в казанском цирке и инструкция, как сделать из огурца крокодила Гену. @pishuteberu — Пишу тебе Как открытки рассказывают о прошлом? Разбирая старые открытки, авторы проекта рассказывают о популярных театральных премьерах начала XX века, благотворительных инициативах Красного креста или студенческих бунтах времён революции 1905-1907 годов. А в рубрике «Путешествие с открыткой» можно прочесть, например, о нижегородском фуникулёре или первом каменном здании в Екатеринбурге. @sysblok — Системный Блокъ В рубрике «цифровое наследие» Системный Блокъ рассказывает о технологиях и практиках цифрового сохранения культуры, будь то оцифровка граффити на храме Исиды или собрание музыки, сопровождавшей американские немые фильмы. А ещё пишет о том, как оцифровке помогают новые технологии: компьютерное зрение, 3D-моделирование и дополненная реальность.
Show all...
❤‍🔥 38 13👍 8🔥 7
Llama 3: новое поколение одной из самых популярных языковых моделей от Meta* 18 апреля компания Meta выпустила третью версию языковой модели Llama. Модель доступна в двух размерах – 8 и 70 миллиардов параметров. Максимальная длина текста, который модели Llama 3 могут обработать за раз, составляет 8192 токенов  (токен – часть слова или целое слово). Это на порядки меньше, чем могут обработать GPT-4 (128 тысяч токенов), Gemini (один миллион токенов) и многие другие современные модели. Обе версии доступны для коммерческого использования. Однако если у компании больше 700 миллионов активных пользователей в месяц и она хочет использовать Llama 3, она вынуждена запросить разрешение на использование у Meta. Меньшая модель была обучена на выборке с 15-ю триллионами токенов: для сравнения, Llama 2 обучали на выборке в 7.5 раз меньше. За счёт этого в ряде основных тестов модель превосходит все доступные модели близкого размера, включая Mistral (модель французского стартапа, который основан бывшими сотрудниками Meta, участвовавшими в создании первой версии Llama) и Gemma от Google. Версия Llama 3 с 70-ю миллиардами параметров в большинстве тестов по качеству лучше Google Gemini и Cohere Claude Sonnet, одних из лидирующих коммерческих моделей на данный момент. По многочисленным оценкам пользователей платформы LMSYS, где каждый желающий может сравнить ответы двух разных моделей, Llama 3 на английском языке уступает лишь GPT-4, текущему лидеру рейтинга. Также в процессе обучения Llama 3 с 400 миллиардами параметров. Её релиз состоится позже, однако уже сейчас по метрикам она сравнима с GPT-4. *Компания Meta признана экстремистской в России, ее деятельность запрещена 🤖 «Системный Блокъ» @sysblok
Show all...
15🔥 8👍 3
Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе Проект Cultural heritage in action собрал 60 лучших инициатив по работе с культурной памятью в 23 странах Европы. Главная цель проекта — позволить специалистам делиться своими методами по восстановлению, сохранению, цифровизации и популяризации культуры, искусства и истории. В этом посте рассказываем о трех цифровых инициативах, с которыми можно познакомиться не выходя из дома. 🇮🇹 Интерактивная карта культурных общин Национального парка Валь-Гранде Коренные жители Национального парка Валь-Гранде сделали красивую карту с достопримечательностями своих родных земель и поделились личными архивными фотографиями. Благодаря сайту можно узнать не только об истории общин, но и о праздниках, фестивалях и карнавалах, которые ежегодно проходят в Валь-Гранде. 🇸🇮 База устаревших ойконимов Культурное наследие может принимать разные формы, в том числе и лингвистические. Сохранением языковой культуры обеспокоились в Гореньской области Словении: проект Slovenska Hisna Imena создал базу ойконимов (наименований домов, усадеб и других объектов недвижимости), забытых в XX веке в результате урбанизации и других социально-экономических изменений. 🇫🇷 Сайт о культурном наследии города Нант На французском сайте Nantes Patrimonia есть энциклопедия города, интерактивная карта достопримечательностей и тематические маршруты. А ещё – мультимедийные ресурсы о городе: фотографии, видео, подкасты, архивные материалы, анекдоты и многое другое. Правда, чтобы познакомиться с ними из России вам понадобятся VPN и знание французского (или переводчик!) О цифровых и нецифровых проектах, которые придумали в Греции, Испании, Португалии и других странах, узнаете из полной версии статьи. 🤖 «Системный Блокъ» @sysblok
Show all...
Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе - Системный Блокъ

Проект Cultural heritage in action собирает хорошие решения по работе с культурным наследием в Европе и открывает доступ к получившемуся каталогу.

🔥 21 12👍 7🙏 1
Архивы, сети и шифры в дневниках и письмах: цифровые исследования эго-документов Изучение дневников и писем — это возможность услышать голоса людей из прошлого и понять, как они жили и воспринимали мир вокруг. В новой подборке мы рассказываем, как цифровые методы помогают сохранять, исследовать и публиковать исторические эго-документы. 📚 Как устроена оцифровка дневников: Интервью с основателем «Прожито» В цифровом архиве «Прожито» более 640 тысяч дневниковых записей с середины XVIII века и почти до наших дней. Из интервью с Михаилом Мельниченко, директором проекта, узнаете о том, как создавался корпус дневников, кто и почему помогает исследователям оцифровывать документы и как люди находят друг друга через сайт проекта. А еще откуда в дневнике знаменитой поэтессы Ольги Берггольц дырка посередине. 📖 «Впереди сущий сахарный голод»: что говорит о дневниках 1917 года анализ данных Мы исследовали дневники, собранные проектом «1917. Свободная история», количественными методами. Благодаря тематическому моделированию мы поняли, что переживания очевидцев революции не ограничивались восстаниями и другими политическими событиями: например, их по-прежнему волновало искусство. О ключевых словах, которыми писали о войне и культуре, а также о том, чьи дневники вошли в изученный корпус узнаете из этого поста. 💌 Chekhov Digital: как Чехов писал письма жене и куда течет время в его текстах К эго-документам относятся не только дневники, но и письма. Благодаря проекту Chekhov Digital мы изучили письма Чехова с 1899 по 1904 годы и выяснили, что многие из них стилистически похожи на эпистолярные рассказы (спойлер: кроме писем жене). А ещё – что время у Чехова представлено в трёх вариантах. О них и о других выводах узнаете здесь. А если хотите научиться самостоятельно использовать цифровые инструменты для анализа дневников или узнать о коммуникации европейских ученых XVI – XVIII веков и шифрах Марии Стюарт, переходите к полной версии подборки. Там вас ждут ещё три материала! 🤖 «Системный Блокъ» @sysblok
Show all...
Цифровые исследования эго-документов — подборка материалов

«Системный Блокъ» публикует подборку своих материалов о том, как с помощью цифровых методов изучают эго-документы — дневники и письма

👍 24🔥 12 6🙏 3