Интерес специалистов в области управления информацией и документацией к такому, на первый взгляд, техническому вопросу, как форматы электронных документов, не случаен. От того, кто и как выбирает форматы, зависит очень многое, начиная от удобства совместной работы над проектом документа и заканчивая затратами на обеспечение его долговременной сохранности.
В данной статье будут рассмотрены вопросы, связанные не столько с техническими особенностями форматов, сколько с правовыми и организационными рамками их применения, связанными с решением задач взаимодействия различных систем и приложений, обеспечения юридической значимости электронных документов и их доступности на всем протяжении жизненного цикла (т.е. мы отдельно поговорим о наиболее пригодных форматах для оперативной работы с документами и для их архивного хранения, об открытых форматах и о том, какие форматы распространены в Интернете).
Грамотное использование электронных форматов является важным фактором, влияющим на успешность программ построения информационного общества, электронного и открытого правительств. К сожалению, в России вопросам регулирования использования форматов до сих пор уделялось недостаточное внимание, несмотря на то, что работающие с информацией и документами специалисты различных профессий прекрасно понимают важность этого вопроса и имеется зарубежный опыт, на который можно опереться.
Затягивание разработки нормативной и методической базы, связанной с использование форматов в России, серьезно увеличивает риски утраты ключевой государственной и деловой информации. Особую остроту вопрос форматов приобретает при организации долговременного хранения документов. Здесь мы многому можем поучиться у зарубежных коллег, да и обобщить накопленный опыт также было бы полезно.
Что такое форматы
Любой компьютерный файл представляют собой набор битов. Чтобы извлечь из файла содержащуюся в нем информацию, нужно понимать, что все эти биты означают. Здесь как раз и появляется понятие формата.
Файловый формат – это структурированный способ организации и кодирования данных в файле, обеспечивающий хранение, извлечение, обработку, отображение и/или передачу данных программным обеспечением. По сути формат представляет собой свод правил, позволяющих записать, а впоследствии извлечь, интерпретировать и отобразить содержащуюся в файле информацию.
Фрагмент документа
«Типовые требования к управлению электронными документами. Спецификации MoReq2», разработанные по заказу Правительства Евросоюза, 2008 (Model Requirements for the Management of Electronic Records: MoReq Specification)
Файловый формат (file format) – внутренняя структура и/или кодировка документа или компоненты, позволяющая отобразить его в виде, воспринимаемом человеком.
Замечание: примерами могут служить:
- HTML v3.2 (файловый формат для веб-страниц);
- PDF/A v1 (архивный файловый формат для переносимых на различные платформы документов);
- TXT (файловый формат для простых текстов в кодировке ASCII);
- XML v1.0 (файловый формат для расширяемого языка разметки, в свою очередь опирающийся на формат для простых ASCII-текстов);
- Многочисленные «коммерческие» (proprietary) файловые форматы, используемые программными приложениями для персональных компьютеров – такими, например, как офисные пакеты программ.
Формат не нужно путать с расширением имени файла, которое является не более чем меткой, более или менее точно подсказывающей, в каком формате были записаны данные. За одним и тем же расширением (таким, как .doc) могут скрываться десятки различных форматов!
Форматы появились практически одновременно с первыми компьютерами, поскольку изначально многие электронные объекты были устроены достаточно сложным образом. На заре компьютерной техники чуть ли не в каждой программе использовались свои собственные уникальные форматы. Позднее потребность в обмене информацией между различными информационными системами и программами, в коллективном использовании файлов многими пользователями привела к появлению стандартизированных форматов. Число форматов уменьшилось до разумного уровня:
- типичный офисный работник использует несколько десятков форматов, а
- с учетом версий и устаревших форматов специалистам по управлению документами и электронным архивистам приходится иметь дело где-то с двумя-тремя сотнями файловых форматов.
Здесь важно иметь в виду, что прогресс информационных технологий не замедляется, все время появляются новые, все более сложные электронные объекты, для которых создаются и новые форматы. В этой связи в обозримом будущем проблема форматов и их стандартизации будет по-прежнему актуальна.
Пока компьютеры использовались в делопроизводстве только как инструмент для подготовки бумажных документов, выбор форматов не имел большого значения, поскольку готовый «продукт» создавался на бумажном носителе. Однако как только информационные технологии начинают активно использоваться для коллективной работы над проектами документов и для обмена информацией и документами и их хранения, как только встает вопрос об интероперабельности1 информационных систем и приложений, так сразу же возникает множество связанных с форматами проблем.
Помимо интероперабельности очень быстро возникла проблема того, что же делать с унаследованными документами, созданными в форматах, которые уже не поддерживаются используемым в настоящее время программным обеспечением, особенно если речь идет о юридически значимых электронных подлинниках.
Стандартизация форматов первоначально происходила «по факту», когда стандартом становились наиболее широко распространенные форматы. Поставщики, чье программное обеспечение становилось доминирующим на рынке, нередко могли использовать форматы, точное описание которых было известно только им, для того, чтобы «привязать» пользователей к своим продуктам и получить преимущество перед конкурентами. Со временем из-за этого возникли настолько серьезные проблемы, связанные как с интероперабельностью программного обеспечения, так и с завышенными ценами на продукцию поставщиков-монополистов и с препятствиями для мелких и средних производителей программного обеспечения, что данным вопросом, с одной стороны, заинтересовались государственные органы, а с другой – сами поставщики почувствовали необходимость создания коллективными усилиями открытых форматов.
Что от форматов ждут пользователи?
Если пользователь работает на компьютере в одиночку и ему не нужно ни обмениваться соответствующей информацией с другими коллегами и организациями, ни обеспечивать ее длительную сохранность, то для него не имеет большого значения выбор форматов.
Проблемы у пользователей возникают в тех случаях, когда:
- требуется обмениваться информацией с другими пользователями, коллективно работать над созданием документов, представлять документы во внешние органы и организации;
- файлы, созданные в одних программах, нужно использовать в других;
- необходимо обеспечить долговременное хранение и доступ к информации и документам без ущерба для их доказательной силы и юридической значимости.
Когда нужно обеспечить интероперабельность систем и программных приложений, возникает потребность в широко распространенных, поддерживаемых многочисленными поставщиками форматах, которые для этого должны быть хорошо стандартизованы и их описания должны быть свободно доступны всем заинтересованным сторонам.
Форматы, используемые для длительного хранения информации, должны быть стабильными, чтобы как можно реже приходилось заниматься конверсией файлов в более современные форматы....