Интернет как коллективная память

28 декабря 2012, 21:23

Избирательные сайты архивируются только в момент выборов. Мы не стремимся к исчерпывающему сохранению материалов, а пытаемся выработать разные подходы к их сбору для формирования представительного образа.

С появлением интернета объемы данных, которые нужно заархивировать и сохранить, достигли таких масштабов, что скоро у нас может попросту не найтись для этого слов.

От мега- и гига- до тера- и пета- нам начинает не хватать приставок для все большего скопления "байтов". Таким образом, перед нами встает вопрос о средствах хранения заархивированных данных из сети.

Раньше в институтах коллективной памяти оставались лишь предварительно отфильтрованные вещи: всегда существовал редакторский отбор, а производство контента было затратным.

Во времена печатного станка Гуттенберга выпуск печатной продукции был гораздо дороже, чем, например, это обстояло с газетами в 19 веке. Выпуск контента на бумаге или на DVD всегда представлял собой непростую задачу с точки зрения производства и коммерции.

Сегодня же этот редакционный фильтр в большинстве случаев сошел на нет. Мы перешли от ситуации, когда лишь немногие говорили со всеми, к ситуации, когда все говорят со всеми.

Разные архивы, существующее с 16 века как обязательство для каждого издателя и производителя контента передать на хранение несколько экземпляров своей продукции, позволяют сформировать представительный образ того, как обстояли дела с потреблением и выпуском культурной продукции в определенный момент.

По задумке Национальная библиотека Франции должна была получить исчерпывающую коллекцию всего, что выпускалось в виде книг, CD, DVD, видеоигр на территории Франции.

Благодаря материалам в интернете, у нас появился такой доступ к источникам, которого попросту не было раньше. Можно сформировать так называемые архивы, которые скорее представляют собой собрания сайтов с совершенно разными взглядами по сравнению с тем, что было раньше.

Кроме того, тут нет какой-то фильтрации.

Так, во время беспорядков в пригородах в 2005 году нам удалось собрать немало сведений с сайтов на платформе Skyblog.

Писавшие там люди зачастую были жителями пригородов. Они вовсе не обязательно поддерживали участников беспорядков, однако все равно жили именно в этих городах, тогда как журналисты по большей части находились за полицейскими кордонами.

Обсуждение в этих блогах представляет огромный интерес, особенно по отношению к более "отстраненной" риторике журналистов. Разумеется, это не означает, что информация в блогах была "правдивее", однако использование нескольких источников идет только на пользу научным исследованиям.

Сейчас у нас есть доступ к заявлениям, которые раньше невозможно было увидеть в открытом доступе, и это представляет собой совершенно новый источник информации для будущих социологов и историков.

Фото atlantico.fr

Как бы то ни было, интернет-контент сейчас поистине вездесущ. Однако проблема заключается в следующем: когда контент находится в сети, он доступен для всех. Тем не менее, если эта копия исчезнет, она исчезнет целиком и для всех - в отличие от книг, которые выпускают тысячами экземпляров.

То есть эта единственная потеря ведет к потере доступа для всех. Здесь действует совершенно другая логика.

В 2012 году интернет стал главной опорой научного и культурного творчества, что подчеркивает необходимость найти способ хранения всего этого контента.

Каждый год мы сохраняем все сайты в домене .fr. Печатная продукция тоже не игнорируется: мы получили книгу последнего лауреата Гонкуровской премии, а также кроссворды и судоку.

Все библиотеки Франции купят последний роман лауреата Гонкуровской премии или последнюю книгу университетского издательства, но вряд ли кроссворды и судоку. Тем не менее, эта продукция описывает тенденции во французском потреблении в тот или другой момент. Точно так же обстоят дела и в сети.

Мы пытаемся избегать отбора, собирать как можно более широкий спектр материалов. Мы в национальной библиотеке Франции пытаемся сохранить понемногу всего - от научно подтвержденного банального.

Кроме того, банальное как раз исчезает быстрее всего. Любой появившийся в сети контент считается публикацией, в том числе - блог школьника.

Во времена архивов у нас стремились сохранить все материалы. Исчерпывающая полнота входила в список задач, хотя целиком добиться этого было невозможно. С распространением сети достичь этой цели нереально.

Полная архивация означала бы ежедневное сохранение каждого сайта, а в домене .fr их насчитывается уже 2 млн. Это невозможно. Национальная библиотека Франции и другие институты, которые занимаются архивацией сети, придерживаются разных стратегий.

Все это напоминает работу архивариусов, у которых на руках оказалось слишком много бумажных документов: часть из них они вынуждены отправить в мусор.

Мы не стремимся ничего удалять, однако отбираем необходимую для сохранения информацию: для формирования образа культурного творчества мы ежегодно сохраняем французские сайты. Кроме того, некоторые сайты автоматически архивируются на ежедневной основе.

Если бы мы сохраняли их не каждый день, это позволило бы нам понять, в каком состоянии он находился в определенный момент, однако мы бы оставили без внимания немало контента. Сайты министерств архивируются очень подробно, так как там содержится огромное количество контента.

Фото yarnovosti.com

В то же время избирательные сайты архивируются только в момент выборов. Мы не стремимся к исчерпывающему сохранению материалов, а пытаемся выработать разные подходы к их сбору для формирования представительного образа. Речь идет о больших переменах по сравнению с обычной практикой.

То же самое касается и работы Google в сфере сбора данных в сети. Некоторые сайты, как, например, те, что можно найти в рубрике "новости", сохраняются куда чаще, чем какой-либо блог. Google также использует аналогичную практику для определения того, что меняется быстрее всего, и сбора этой информации.

В Национальной библиотеке Франции хранится около 330 терабайт данных и примерно 18 млрд файлов. В бумажных архивах - около 12 млн произведений.

Речь идет о чрезвычайно больших объемах. Раньше мы не могли справиться с таким количеством данных и предложить одновременно такое количество знаний. С научной точки зрения это настоящий переворот.

Раньше мы не могли манипулировать миллиардами данных за одну операцию, тогда как сегодня мы вступаем в эру статистики огромных масштабов. В нашей библиотеке хранится более миллиарда файлов в год, что требует чрезвычайно мощных механизмов по сбору и индексации информации.

Сейчас нам нужно оперировать данными, к которым у нас раньше попросту не было доступа, а сохраненные сведения доступны исключительно в сфере научных исследований в Национальной библиотеке Франции.

Это делается по причинам интеллектуальной собственности: когда мы сохраняем сайты, мы не спрашиваем у правообладателей разрешение на их архивацию.

Все это находит отражение в ограничении доступа. Мы не можем спрашивать разрешение у каждого сайта, так как на это потребовались бы сотни людей, которым пришлось бы писать электронные письма авторам. Доступ к этим данным возможен только в самой библиотеке.

Как отмечают в национальной комиссии по информатике и свободам, архивы должны быть доступны только для специалистов, которые проводят исследования по профессиональным или личным причинам.

Речь идет не только об ученых, но и журналистах. Это позволяет контролировать использование материалов, которое противоречило бы этическим принципам.

Клеман Ури, глава службы цифрового архива Национальной библиотеки Франции

Оригинал публикации: L'explosion des données sur Internet révolutionne notre mémoire collectiveb

Перевод на русский: ИноСМИ