Одна из особенностей современного мира во всё большем возрастании доли материалов создаваемых только в цифровой форме. В то же время принципы долгосрочного сохранения таких материалов значительно запаздывают скорости появления и уничтожения информации.

“Цифровое сохранение” - это проект по консервации и архивации ключевых цифровых ресурсов находящихся под риском уничтожения.

Цель инициативы в поиске и сохранении веб-сайтов и иных цифровых материалов находящихся под угрозой уничтожения.

Актуальность

На сегодняшний день в России и всём русскоязычном сегменте сети Интернет отсутствуют инициативы по долгосрочной консервации материалов созданных только в цифровой форме. Многочисленные проекты, по разным причинам, исчезают из публичного пространства и становятся недоступными.

При этом, международные инициативы, такие как Archive.org обеспечивают сохранение лишь наиболее видимых веб-сайтов и только в части наименнее ресурсоёмких материалов (основных веб-страниц). Все материалы представленные в виде PDF документов, файлов MS Office, ZIP архивов и иных форматов в итоге многие материалы теряются навсегда.

Аналогичные инициативы

В мире существует несколько десятков инициативы по цифровому сохранению главным из которых остаётся Интернет-Архив. Также существуют инициативы по созданию обязательных архивов веб-сайтов и иных цифровых объектов в национальных библиотеках большинства развитых стран мира. Общий список проектов можно увидеть по ссылкам:

Проекты

Национальный цифровой архив состоит из множества проектов связанных общей идеей архивации современного цифрового наследия.

“Консервированное государство” / Preserved government

К сожалению, в России архивация официальных веб-ресурсов, социальных сетей и иных материалов полностью отсутствует. У нас нет требований к обязательному долгосрочному сохранению информации и не остается другого способа сохранять информацию кроме как делать это самостоятельно.

Мы ведем регулярную архивацию официальных материалов, по следующим направлениям:

  • oфициальных аккаунты в социальных сетях;
  • официальные сайты органов власти, официальных лиц, политических партий;
  • исторические данные — ключевые исторические документы и, особенно, базы данных;
Архивация официальных аккаунтов в социальных сетях

Списки социальных аккаунтов

На сегодняшний день собираются данные 52 официальных Twitter аккаунтов и публикуются здесь:

Старые версии официальных сайтов

Многие из государственных сайтов регулярно уничтожаются органами власти при закрытии а по окончанию финансирования, при замене движка сайта или при очередной реформе органов власти. Мы архивируем старые версии сайтов до их уничтожения и оставляем в виде архивов Httrack для общего доступа.

Совокупный объём архивов 88 сайтов составляет 22 гигабайта в запакованном виде и до 300 гигабайт в распакованном. Сейчас решается вопрос по тому как сделать все архивы доступными для широкой публики и не чтобы выходили не слишком большие расходы на трафик.

Список собранных архивов:

https://docs.google.com/spreadsheet/ccc?key=0AphaFpvgzsyhdDJlczBoc095QmdLV25pY2NtSFRDaFE&usp=sharing

Если какие-то из этих архивов срочно Вам нужны — напишите на ibegtin@infoculture.ru и вам будет переслана ссылка по которой его можно скачать.

Архивация специализированных ресурсов

Ряд ресурсов неудобных для архивации как веб-сайтов или же теряющих при этом удобство использования мы архивируем преобразуя их сразу же в базы данных.

Таким образом уже архивированы:

Исторические данные

Сейчас мы собираем такие данные как:

  • бюджеты и статистические справочники СССР, РСФСР, союзных республик;
  • любые реестры, телефонные справочники и иные исторические базы данных в бумажном виде;
  • любые исторические данные в табличной форме (пригодные для преобразоваия в открытые данные).

В ближайших планах есть запуск платформы сбора цифровых материалов для накопленных документов. Далее, документы будут последовательно преобразовываться в базы данных и над ними будет запущено API.

Специальные архивы

Проект включает инициативы по консервации онлайн сайтов по выбранным темам: религия, история, экономика, наука и многое другое.

Данные коллекции подготавливаются в формате планов архивации и последовательно консервируются.

Текущий список тем и планов архивации:
https://drive.google.com/folderview?id=0B5haFpvgzsyhWXVXQXlhdDJtXzA&usp=sharing

TODO: Планы развития
Архивация социальных аккаунтов:
  • форма для отправки аккаунтов социальных сетей для архивации;
  • организация архивации аккаунтов Youtube (завершено за исключением архивации видео);
  • организация архивации аккаунтов Facebook;
  • организация архивации аккаунтов Vkontakte;
  • организация архивации аккаунтов Slideshare;
  • организация архивации аккаунтов Instagram и других.
  • специальный сайт и API для доступа к собранным данным.
Архивация веб-сайтов:
  • переход на Heritrix или аналогичные краулеры создающие WARC файлы;
  • создание интерфейсов просмотра архивных копий онлайн;
  • преобразование накопленных архивов HTtrack в формат WARC;
  • регулярное обновление создаваемых архивов госсайтов;
  • архивация не только старых, но и обновляемых официальных сайтов.
Специализированная архивация:
  • сделать форму отправки ресурсов наиболее важных для архивации;
  • сделать специализированные API для каждого из специализированных архивов.
Похожие инициативы
  • CyberCemetery. Архивы государственных сайтов расформированных ведомств США. Поддерживается университетом Северного Техаса.
  • Pandora - Австралийский веб архив

Ресурсы