<<
>>

Хранение и накопление документов

  Документированные ИР представляют собой стратегические ресурсы, и чрезвычайно важно эффективно организовать их хранение и накопление. При этом используются технологии баз данных (БД), хранилищ данных, электронных архивов и репозиториев данных.

База данных представляет собой совокупность взаимосвязанных данных некоторой предметной области, хранимых в памяти ЭВМ и организованных таким образом, чтобы эти данные могли быть

использованы для решения многих задач многими пользователями. БД является компьютерной информационной моделью внешнего мира, некоторой его предметной области. В ней, как правило, хранятся данные об объектах, их свойствах и характеристиках. Поскольку во внешнем мире объекты взаимосвязаны между собой, в БД эти связи находят отражение.

Успешное функционирование БД может быть осуществлено только при выполнении ряда требований к ее организации.

Неизбыточностъ данных. Это требование тесно связано с интегрированностью БД. Неизбыточность данных предполагает, что в идеале любые данные будут храниться в БД в одном экземпляре. Дублирование данных не только увеличивает объем требуемой памяти, но

и,              самое главное, может легко привести к противоречивости данных. Кроме того, дублирование данных увеличивает трудоемкость корректировки базы.

Совместное исполъзование данных. Одни и те же данные БД могут использоваться несколькими пользователями (задачами). Желательно, чтобы каждый пользователь (задача) получал эти данные в удобном для него виде. В случае одновременного использования одних и тех же данных разными пользователями (задачами) должен быть обеспечен мультидоступ к данным.

Расширяемостъ. БД должна обладать способностью к расширению, которое может быть за счет:

  1. увеличения числа экземпляров однотипных данных;
  2. введение в БД новых типов объектов или новых типов взаимосвязей.

Необходимо, чтобы введение новых типов объектов или связей не требовало каких-либо изменений в уже существующих в БД данных.

Простота работы. В условиях разработки и эксплуатации крупной системы обработки данных важное значение приобретает простота работы с данными БД, т.е. необходимо, чтобы:

  1. структура данных была логичной и ясной;
  2. операции доступа к данным обладали ясными и четко очерченными функциями;
  3. без больших трудозатрат выполнялись различные обслуживающие операции (копирование, перепись с носителя на носитель, расширение базы и др.).

Эффективностъ доступа к БД. Под эффективностью здесь понимается обеспечение временных ограничений при доступе пользователей (задач) к данным.

Целостность БД. Под целостностью в общем случае понимается готовность БД к работе. Существуют различные аспекты этого понятия:

  1. физическая целостность, т.е. сохранность информации на машинных носителях и корректность форматов данных;
  2. логическая целостность, под которой понимается непротиворечивость данных в базе;
  3. актуальность данных, т.е. соответствие данных реальному положению вещей.

Потеря целостности БД может произойти от сбоев технических средств, ошибок в программном обеспечении, при вводе и корректировке данных, низкой достоверности самих данных и т.д. Потеря целостности данных ведет к самым серьезным последствиям вплоть до полной перегрузки БД.

Конфиденциальность данных. Обеспечение защиты данных от несанкционированного доступа и модификации, заключающейся в том, что пользователю, не владеющему правами и ключом доступа, полностью закрыт доступ к БД или какой-либо ее части.

Ядро любой БД — модель данных, представляющая собой множество структур данными, ограничений целостности и операций манипулирования данных. В настоящее время наибольшее применение получили иерархическая, сетевая и реляционная модели данных.

Иерархическая модель. Часто объекты находятся в отношениях, которые принято называть иерархическими: например, отношения часть — целое (например, автомобиль состоит из кузова, двигателя, колес и т.д.); родовидовые отношения (например, автомобили бывают грузовые, легковые и др.); отношения подчиненности (например, ректор — декан и многие другие).

Объекты, связанные иерархическими отношениями, образуют дерево, у которого имеется только одна вершина, не подчиненная никакой другой вершине (эту вершину принято называть корнем дерева); любая другая вершина подчинена лишь только одной другой вершине.

Основное достоинство иерархических БД состоит в экономичном использовании ресурсов памяти и высоком быстродействии системы. Недостатком являются жесткие связи, и при изменении модели возникает необходимость в перепрограммировании БД.

Сетевая модель. В данной модели понятия главного и подчиненных объектов несколько расширены. Любой объект может быть и главным и подчиненным (главный объект обозначается термином «владелец набора», а подчиненный — термином «член набора»). Один и тот же объект может одновременно выступать и в роли владельца, и в роли члена набора. Это означает, что каждый объект может участвовать в любом числе взаимосвязей.

Реляционная модель. В данной модели объекты и взаимосвязи между ними представляются с помощью таблиц. Взаимосвязи также рассматриваются в качестве объектов. Каждая таблица представляет один объект и состоит из строк и столбцов. В реляционной базе данных каждая таблица должна иметь первичный ключ (ключевой элемент) — поле или комбинацию полей, которые единственным образом идентифицируют каждую строку в таблице.

Классические методы проектирования БД — это мощное и интересное направление со своей философией, способами восприятия реальности и способами существования в ней. В нем возникла своя прикладная математика, свое понятие предметной области (ПрО) и их моделей. В отношении проектирования БД осознаны и интегрированы в стройные схемы методы выполнения таких проектных этапов:

  • сбор сведений о ПрО (анализ потребностей и описание ПрО с использованием так называемых процессного, или UP (usage perspective), подхода и непроцессного, или ISP (information structure perspective), подхода);
  • выбор языка представления так называемой семантической модели для фиксации сведений о ПрО, их последующего анализа и синтеза модели БД;
  • анализ собранных сведений о ПрО: классификация, формализация и интеграция структурных элементов описания ПрО, формализация как структурных, так и процедурных ограничений целостности элементов в будущей модели ПрО, определение динамики экземпляров объектов ПрО;
  • синтез концептуальной модели БД: проектирование целостной концептуальной схемы БД на выбранном языке семантического моделирования;
  • выбор конкретной модели данных и СУБД для реализации БД;
  • проектирование логической схемы БД для выбранной СУБД (называющееся также проектированием реализации);
  • разработка физической структуры БД (физической, или внутренней, схемы, она же — схема размещения), включая размещение БД по узлам;
  • разработка технологии и процедур начального создания и заполнения БД;
  • разработка технологии и процедур сопровождения БД;
  • разработка универсальных программ доступа к БД и соответствующих интерфейсов пользователей;
  • информационное обеспечение разработки конкретных программ обработки данных: обеспечение метаинформацией, данными контрольных примеров и др.;

  • получение обратной связи от разработчиков прикладных программ и пользователей ИС о полноте и эффективности организации БД;
  • тестирование БД, ее развитие и улучшение (настройка) ее структуры.

Проектирование комплексной по предметной направленности, интегрированной и обычно большой по размеру БД стало сложной задачей.

Наличие целостной методологии проектирования позволило позаботиться о системах автоматизации проектирования БД. Этому способствовало наличие технологического опыта в организации и компьютерной поддержке систем разработки программного обеспечения

и,              с другой стороны, использование активных интегрированных словарей-справочников данных (DD/D, Data Dictionary/Directory). Так возникли системы CASE (Computer Aided System Engineering) — системы для структурного проектирования БД и связанных с ними ИС, ориентированные на модели данных, реализованные в различных СУБД. Наибольшую популярность получили CASE-системы для реляционных СУБД с SQL-моделями данных, а DD/D переименовался в CASE-репозиторий проектируемой ИС.

На этом пути возникло два основных направления развития CASE-систем и технологий проектирования: CASE-системы для проектирования собственно БД (или Upper-CASE) и интегрированные инструменты, позволяющие и проектировать БД, и разрабатывать использующие их прикладные программы. Важно отметить, что и Upper-CASE в общем случае имеют много средств для описания функций обработки информации (при использовании процессного подхода к сбору и анализу сведений о ПрО) и хранения этих описаний в репозитории. Это подтверждает положение о сильной связи проекта БД и проекта ИС, базирующейся на этой БД.

При создании новых корпоративных ИС предъявляются следующие требования к корпоративным БД.

  1. Обеспечение максимальных возможностей для каждого работника, т.е. поддержка выполнения всех бизнес-функций тем самым работником, который и получает конечный результат. Со стороны ИС, БД и СУБД для этого требуется:
  • средства доступа ко всем необходимым данным с использованием распределенных БД, средств репликаций данных, управления событиями в данных и процессах обработки транзакций;
  • использование архитектуры и программных средств хранилища данных, средств оперативной аналитической обработки данных (OLAP), применение средств быстрой разработки приложений (RAD) для создания ИС руководителя (EIS), средств

    поддержки принятия решений (DSS) на основе хранилища данных, OLAP и RAD/EIS;

  • применение средств DSS на основе анализа БД прецедентов, а также методов логического вывода, нейронных сетей и нейрокомпьютеров и др.;
  • предложение единого интерфейса пользователя для работы с разными компонентами данных и приложений, использование в этом интерфейсе средств, повышающих простоту поиска информации и обращения к конкретным прикладным функциям, например функции геоинформсистем, гипертекстовые, естественного языка, речевого ввода.
  1. Разработка концепции и структуры корпоративной базы данных для новой ИС, реализация структуры БД, предполагающая снятие (существенное уменьшение) ограничений на ее развитие, в том числе при смене функций или функциональных компонентов обработки информации:
  • применение методов компонентного проектирования предметных БД, как для операционных БД, так и для исторических БД хранилищ данных, архивов документов, геоинформаци- онных и иных данных;
  • разработка процедур компонентного изменения корпоративной БД при изменении бизнес-процедур, видов деятельности, применяемых приложений и географического размещения предприятия;
  • постоянная актуализация понятийной модели деятельности предприятия для учета новых понятий, возникающих при изменении прикладных компонентов на функционально сходные и при изменении видов деятельности предприятия, и построение на этой основе новых интерфейсов между компонентами ИС;
  • динамическое администрирование фрагментами распределенной корпоративной БД при изменении частоты их использования, при модификации их структуры и при изменении их размещения.

Мультиплатформенность стала нормой, многопротокольность коммуникаций для распределенных БД реализуется на основе стандартов и интероперабельных мониторов транзакций, поддерживается «интернационализация» хотя бы в части настроек на таблицы национальных кодировок данных.

Используются новые структуры и типы данных, новые операции над данными: неформатированные элементы, полнотекстовые

БД и их обработка, ГИС-данные (рис. 3.9), мультимедийные БД, гипертекстовые распределенные БД, распределенная обработка и обработка, доставляемая вместе с объектом на вход ИС.

Информационные хранилища. Системы интеграции данных должны обрабатывать запросы, для ответа на которые может потребоваться извлечение и обобщение данных из различных источников. При этом трудности интеграции обусловлены следующим.

Источники могут использовать различные модели данных и предоставлять различные интерфейсы для доступа к своим данным (реляционные, объектные или унаследованные СУБД) или данные источника могут быть не структурированными (HTML-файлы, текстовые файлы и т.д.). Источники в большинстве атомарные; взаимодействовать с ними можно только через предоставляемый им интерфейс и нет возможности повлиять на их внутренние процессы.

Наибольшую популярность приобрели два подхода к решению задачи интеграции данных — хранилища данных (Data Warehouse (DW)) и виртуальные хранилища. При использовании первого подхода хранилище заполняется данными из различных источников и затем все запросы обрабатываются с использованием этих данных. Таким образом, актуальность данных не гарантируется, поскольку никакой синхронизации с источником не происходит, но преимущество заключается в том, что время выполнения запроса невелико. DW является ядром технологии комплексного использо

вания сведений, находящихся в различных БД. Здесь процесс обработки данных физически разделяется на два этапа. Первый из них связан с обработкой транзакций в реальном времени (OLTP). В результате чего в базах данных накапливается первичная информация о функционировании предприятия, например финансового банка. На втором этапе осуществляется аналитическая обработка в реальном времени (OLAP), например, анализ снятия наличности со счетов, планирование объема оказываемых услуг, показатели эффективности работы служащих.

При создании хранилища выполняются преобразования, обеспечивающие работу баз данных различных типов и имеющих разные форматы документов. В свою очередь, информационное хранилище используется для составления нужных отчетов и выполнения прикладных процессов. Информационное хранилище обслуживает запросы, анализирует результаты их выполнения и формирует отчеты. Хранилище также обеспечивает загрузку данных и периодическое удаление информации, утратившей актуальность (рис. 3.10).

Рис. 3.10. Структура хранилища данных

Рис. 3.10. Структура хранилища данных

Хранилище характеризуется четырьмя важными особенностями:

  • объектно-ориентированная архитектура, в которой данные организованы в соответствии с их содержанием, а не прикладными программами;
  • цельность, связанная с преобразованием кодов блоков данных, полученных из различных баз данных;
  • этапность, определяющая, что информация собрана за определенный интервал времени;
  • защищенность, запрещающая изменять либо обновлять данные, помещенные в хранилище.

При использовании второго подхода данные хранятся в источниках, а запросы к системе интеграции транслируются в запросы или операции понятные источнику. Данные, полученные в ответ на эти запросы к источникам, объединяются и предоставляются пользователю. Преимущество виртуальных хранилищ заключается в гарантии того, что пользователь получает только свежие данные. Но, поскольку источники могут значительно отличаться, возникают трудности, связанные с оптимизацией запросов, и дополнительные расходы на конвертацию данных во время выполнения запроса, что существенно снижает производительность систем, использующих данный подход. Для построения систем, объединяющих большое число источников, содержание которых часто изменяется (например, Web- серверы), наиболее предпочтителным является виртуальный подход.

Рассматривая типичную организацию виртуального хранилища, выделим два уровня — логический и физический.

Логический уровенъ определяется выбором модели данных и языка запросов для этой модели. Выбранная модель используется для представления данных, извлекаемых из всех источников. Таким образом, пользователь системы интеграции получает возможность унифицированного доступа ко всем интегрируемым данным. Важным требованием к модели данных является обеспечение прозрачности доступа к внешним источникам, т.е. пользователь видит внешние данные как локальные в выбранной модели и не заботится об управлении доступом к источнику.

Данная архитектура основана на распространенной концепции посредников (mediators). Рассмотрим два типа компонентов этой архитектуры. Обертка используется для хранения информации о внешнем источнике и огранизации к нему доступа. Происходит это следующим образом. При получении запроса обертка обращается к источнику через предоставляемый им интерфейс. Полученные от источника данные конвертируются во внутренний формат данных хранилища. Для каждого источника необходима своя обертка.

Посредник осуществляет интеграцию данных из различных источников (из различных оберток). Посредник может взаимодействовать как с обертками, так и с другими посредниками. Таким образом, предоставляется возможность построения сложной сети взаимодействующих между собой посредников, что позволяет обобщать данные различными способами для удовлетворения нужд различных приложений, взаимодействующих с виртуальным хранилищем. Посредник не содержит данных, а интеграция происходит, как правило, за счет использования техники представлений.

При использовании предложенной архитектуры задача построения виртуального хранилища сводится к созданию оберток и посредников, поэтому необходимо иметь утилиты, позволяющие легко их генерировать. С этой целью разработаны специальные декларативные языки, на которых описываются обертки и посредники. По этим описаниям и происходит их генерация.

Для хранилищ данных характерны следующие особенности:

  1. неизменчивость данных (в хранилищах данных не поддерживаются операции обновления данных);
  2. проведение постоянного мониторинга и отбора (по критериям достоверности, оперативности и др.) источников данных;
  3. реструктуризация получаемых и накапливаемых документированных данных;
  4. необходимость формирования при реструктуризации каждого элементарного сообщения его полного наименования и описания;
  5. приведение к сопоставимому виду однородных данных, накапливаемых в информационном хранилище;
  6. формирование полного наименования и описания элементарных сообщений на основе согласованных информационной модели и модели данных среды хранения;
  7. каталогизация всех поступивших данных в виде словаря- справочника данных (репозитория, базы метаданных);
  8. предоставление метаданными возможности восстанавливать получаемые документы;
  9. использование информационными хранилищами эффективного аппарата формирования запросов.

Электронные архивы. В делопроизводстве архив отвечает за систематизацию хранения документов и является одной из трех ключевых делопроизводственных задач (документирование, организация работы с документами в процессе осуществления управления и систематизация документов). В России разработана Концепция информатизации архивного дела России, утвержденная Росархивом.

Компьютеризация архивного дела имеет главной своей целью развитие рациональной системы формирования, обеспечения сохранности, всестороннего использования Архивного фонда (АФ) России и защиту его информационных ресурсов.

Обеспечение права на доступ к ИР, находящимся в государственных архивах и центрах хранения документации (ЦХД), затруднено как из-за удаленности многих архивов, так и вследствие недостаточного уровня описания архивных материалов и их тематической разработки. Создание соответствующих БД, электронных копий архивных документов с возможностью удаленного доступа через телекоммуникационные сети и системы позволит расширить доступ к архивной информации.

Внутриархивные БД учетного характера повышают точность сведений и оперативность информирования об объемах и состоянии архивных документов, служат основой создания автоматизированных фондовых каталогов, различных указателей, списков учреждений — источников комплектования и т.п., в том числе межар- хивного и общеотраслевого уровня. Использование общероссийских и международных стандартов при автоматизации открывает российским архивам дорогу для интеграции в складывающееся общероссийское информационное пространство, для интенсификации международного сотрудничества.

Информатизация архивного дела Российской Федерации базируется на следующих основных принципах:

  • преемственность по отношению к традиционно сложившейся системе государственного учета документов АФ, контроля за обеспечением сохранности и учета использования документов;
  • интероперабельность автоматизированных архивных технологий: каждая последующая версия технологии определенного типа позволяет использовать ИР, накопленные в рамках предыдущей версии;
  • системность в реализации технологических и информационных решений как одного архивного учреждения, так и группы архивных учреждений;
  • внутриотраслевая унификация методов описания, представления, передачи и обработки данных в электронной форме в рамках основных направлений деятельности архивных учреждений;
  • сопряженность с информационными системами учреждений — источников комплектования и учреждений, являющихся постоянными потребителями архивной информации, с внеот- раслевыми системами передачи данных.

К настоящему времени в учреждениях и организациях накоплен значительный массив документов на магнитных носителях (ДМН),

подлежащих приему на государственное хранение. Эти массивы представляют собой числовые и текстовые банки и базы данных, проектно-конструкторскую документацию, тексты компьютерных программ и т.п. Следует констатировать, что архивная отрасль не готова к работе с ДМН в силу большой сложности проблем, в том числе и финансового характера, решение которых необходимо для обеспечения приема, хранения и использования таких материалов. Основным фактором, определяющим специфику указанных документов и порождающим трудности в их использовании, является то обстоятельство, что ДМН, в отличие от документов на традиционных носителях, неразрывно связаны с программным обеспечением (при более общем подходе — с информационной технологией), в рамках которого они создавались и трансформировались.

Крупнейшие производители ПО стараются обеспечить в своих новых продуктах преемственность по отношению к ранним версиям и возможность конвертации данных из одного формата в другой, однако это не решает проблем в отношении материалов многолетней давности, баз данных со связанными файлами, организации процедур переиндексации и т.п. Следует найти принципиальные подходы к решению этих вопросов, поскольку решение по аналогии с документами на традиционных носителях повлечет за собой комплектование множеством разнородных материалов с неопределенной перспективой их использования. Предварительный анализ показывает, что в этом случае предстоит значительная работа по созданию специфического справочного аппарата к полученным материалам, включающего описание ПО, информационного массива, лингвистического обеспечения, документов вспомогательного характера. Обеспечение сохранности в этом случае сведется в основном к периодическому копированию всей информации, записанной на единичном носителе, проблему же чтения информации пользователь должен решать самостоятельно.

Другой подход предусматривает намного более активную роль архивистов в организации приема на государственное хранение и использования документов. Принимаемые материалы, созданные в рамках любого ПО, переводятся силами самих архивистов в определенный формат, единый для всех ДМН такого рода. По запросу пользователю передается копия материалов на магнитном носителе в формате, принятом в архиве для этих материалов, или предварительно архивисты проводят конвертирование информации (на договорных условиях) в формат, удобный для пользователя.

Наконец, третий подход в более отдаленной перспективе может быть реализован с помощью создания и повсеместного внедрения

унифицированных информационных технологий в ДОУ, которые применялись бы учреждениях — источниках комплектования, а также в читальных залах архивов.

Весьма перспективным и активно развивающимся направлением информационной индустрии является в настоящее время создание гипертекстовых систем. С появлением технологий мультимедиа и включением аудио- и видеоматериалов в гипертекстовые системы можно говорить о системах, содержащих гипермедиа (или гиперзаписи), т.е. интегрирующих в одной системе документы, содержащие текстовую, графическую, звуковую и визуальную информацию. При этом необходима разработка с участием архивистов методических рекомендаций по созданию систем навигации (метаинформации), для того чтобы при передаче гипертекстовых систем на государственное хранение они могли быть включены в состав справочного аппарата архива.

Электронные архивы могут строиться с привлечением FTP-архивов, средств поиска, а также за счет предоставления веб-интерфейса традиционным системам управления документами. При этом основной задачей остается организация эффективного контекстного поиска информации. FTP-архивы являются одним из основных информационных ресурсов Интернета. Фактически это огромное распределенное хранилище всевозможной информации (программы, музыка, фильмы, текстовые файлы), доступ к этим архивам осуществляется специальной программой FTP, которая обращается к специальному серверу, управляющему файловым архивом на удаленной машине. FTP-архив — часть файловой системы, которая доступна для удаленного пользователя FTP-сервера. Важным свойством FTP-архивов является возможность так называемого анонимного доступа.

Любой пользователь может воспользоваться услугами анонимного доступа к хранилищу и скопировать интересующие его материалы. Для того чтобы получить доступ к архиву, следует отправить сообщение по адресу. Далее робот попытается установить анонимное соединение с FTP-сервером. В результате будет получен список файлов корневой директории сервера, робот прервет работу с сервером и вернет результаты пользователю.

Важным моментом, ради чего осуществляется доступ к FTP- серверу, является запрос на передачу файлов. Передавать можно текстовые и двоичные файлы. В течение одной сессии можно открывать и закрывать FTP-соединения с разными FTP-серверами, заказывать кодировку двоичных файлов, получать подсказку о своем месте в файловой системе сервера и т.д. Можно получить список FTP-архивов.

Практически любой архив строится как иерархия директорий. Многие архивы дублируют информацию из других архивов (так на

зываемые зеркала). Для того чтобы получить нужную информацию, вовсе не обязательно ждать, когда информация будет передана издалека, можно поискать зеркало где-нибудь ближе. Для этой цели существует специальная программа Archie, которая позволяет просканировать FTP-архивы и найти тот, который устраивает пользователя по составу программного обеспечения и коммуникационным условиям.

Информация в FTP-архивах разделена на три категории.

  1. Защищенная информация, режим доступа к которой определяется ее владельцами и разрешается по специальному соглашению с потребителем. К этому виду ресурсов относятся коммерческие архивы, закрытые национальные и международные некоммерческие ресурсы, частная некоммерческая информация со специальными режимами доступа.
  2. Информационные ресурсы ограниченного использования. В данный класс могут входить ресурсы ограниченного времени использования или ограниченного времени действия.
  3. Свободно распространяемые информационные ресурсы или freeware, если речь идет о программном обеспечении. К этим ресурсам относится все, что можно свободно получить по сети без специальной регистрации. Это может быть документация, программы и др.

Из перечисленных ресурсов наиболее интересными, по понятным причинам, являются две последние категории, которые, как правило, оформлены в виде FTP-архивов.

Технология FTP была разработана в рамках проекта ARPA и предназначена для обмена большими объемами информации между машинами с различной архитектурой. Главным в проекте было обеспечение надежной передачи, и поэтому с современной точки зрения FTP кажется перегруженным излишними редко используемыми возможностями. Стержень технологии составляет FTP-протокол.

FTP (File Transfer Protocol, или протокол передачи файлов) — один из старейших протоколов Интернета и входит в его стандарты. Обмен данными в FTP проходит по TCP-каналу. Построен обмен по технологии «клиент-сервер».

FTP — это интерфейс пользователя при обмене файлами по одноименному протоколу. Программа устанавливает канал управления с удаленным сервером и ожидает команд пользователя. Идентификатор удаленного сервера указывается либо аргументом программы, либо в команде интерфейса open.

Доступ по FTP-протоколу осуществляется из множества мульти- протокольных интерфейсов (например, Netscape) или графических ftp-оболочек типа ftp-tool для X-Window. Все они гораздо удобнее

и проще в использовании, но и потребляют гораздо больше ресурсов. FTP-сервер есть даже для MS-DOS, не говоря о многозадачных средах. Однако поиск нужного FTP-сервера в Интернете — задача сложная и трудоемкая. Для ее облегчения существует специальное средство — Archie. Задача Archie — сканировать FTP-архивы на предмет наличия в них требуемых файлов. Работать с Archie можно через telnet-сессию, через локального клиента или по электронной почте.

В РФ создано и функционирует общеотраслевое программное обеспечение — программные комплексы «Архивный фонд» и «Фондовый каталог», данные в едином электронном формате аккумулируются в автоматизированном ЦФК Росархива. Ввод данных осуществляют 12 федеральных архивов, 96 архивов субъектов РФ, 325 муниципальных архивов в 54 субъектах РФ. БД «Фондовый каталог» ведется в 18 субъектах РФ. Темпы ввода информации архивами ежегодно увеличиваются. Общий объем накопленных данных в 2008 г. составил более 398,3 тыс. описаний фондов (84,3%).

Репозитории и метаданные. Метаданные — данные о данных — один из элементов общей информационной культуры, этап или предпосылка всякой успешной информационной деятельности. Наиболее эффективным средством организации метаданных следует считать базы метаданных (БМД), предназначенные для упорядочения и описания структурных элементов единиц хранения информации в их цифровом и нецифровом виде в целях обеспечения поиска и обмена между ее владельцами (производителями) и пользователями (потребителями). Метаданные и их структурированные представления («бумажные» каталоги, инвентории, реестры, справочники, БМД) могут рассматриваться по крайней мере в трех аспектах.

Во-первых, метаданные как средство инвентаризации ИР. В этом смысле они представляют собой систематизированные сводки любой тематики, каталоги или БД со специализированным описанием единиц хранения, их частей, элементов и групп элементов. Наличие метаданных — условие целенаправленного и успешного поиска источников, их оценки с точки зрения требований пользователя и разработчика, а также проблемной ориентации ИС в целом. Крупные долгосрочные проекты могут включать в себя процедуры сбора метаданных в качестве одного из обязательных этапов проектирования ИС. Многоцелевой характер их использования при решении разнообразных задач предполагает достаточно универсальный и по возможности наиболее полный перечень характеристик описываемых данных.

Второй аспект — метаданные как элемент ИС. Инвентаризация и оценка ИР обычно является одним из первых этапов проектиро

вания ИС, в существенной мере определяющих (наряду с анализом спектра задач, решаемых потенциальными пользователями) содержание БД ИС. Возможно формализованное описание и хранение информации о материалах-источниках на машинных носителях и манипулирование ими в рамках стандартных СУБД (т.е. организация в виде БМД). Наконец, метаданные могут включаться в виде особого блока в эксплуатируемую ИС, где БМД наряду с объектными БД будет обслуживать специфические задачи администрирования БД ИС, аккумулируя и обеспечивая доступ к данным об источниках, о производных и результирующих данных, генерируемых системой в процессе ее использования.

Третий аспект связан с обменом и передачей данных среди владельцев и пользователей данных в локальных или глобальных информационно-вычислительных сетях. Удаленность взаимодействующих сторон предъявляет к передаваемым данным — томам, наборам, файлам, записям, полям и иным элементам — естественное требование детального метасопровождения. Оно представляет собой развернутую спецификацию по происхождению, принадлежности, качеству, актуальности, непротиворечивости, полноте, доступности. Образуется семантически полное окружение собственно данных (данных об объектах). Это обеспечивает жесткую связь данных и метаданных, исключающую необходимость какого-либо дополнительного сопровождения или комментирования передаваемых данных, включенных в их состав. Тем более что процесс обмена или передачи обычно сопровождается конвертированием в иные форматы, и однозначность и выполнимость такого конвертирования должна быть заложена в соответствующих разделах БМД. Таким образом, в механизме обмена можно выделить часть, касающуюся проблематики БМД, а сами стандарты обмена должны содержать исчерпывающее описание данных. БМД представляют интерес с точки зрения проектирования распределенных БД, систем, поддерживающих режим коллективного пользования, а также в плане регламентации эффективного межведомственного и межрегионального обмена данными в национальных и региональных масштабах.

Одним из примеров обстоятельного описания национальных информационных ресурсов может служить инвенторий, подготовленный Австралийской геологической службой, включающий стандартизованные и индексированные описания 253 БД (из них 57 библиографических и 196 фактографических), созданных 37 организациями страны по позициям, представленным ниже: data base name — имя БД; acronim — ее сокращенное наименование;

data base type/status — тип: библиографическая/фактографическая, «закрытая», (более не обновляемая/активная (с регулярным обновлением данных);

subject coverage — тематика;

geographical coverage — территориальная привязка данных; time coverage — период времени, охватываемый данными; keywords — ключевые слова-дескрипторы, относящиеся к тематике и местоположению;

database system — тип компьютера, используемой СУБД, магнитного носителя;

volume of data in database — число единиц хранения; outputs products — тип выходной документации (текст, таблицы, графика, карты и т.п.);

database availability/accessibility — свободный доступ к данным/ приобретение на определенных условиях;

documentation — ссылки на руководства пользователя и другие инструктивные материалы, описания из литературных источников; comment — комментарии и дополнительная информация; contact person — адрес для контактов; information current to — дата составления описания.

Другим примером создания системы инвентаризации крупных информационных массивов субконтинентального уровня являются работы в рамках проектирования и реализации ГИС CORINE ЕЭС. Предполагается, что формируемый в ней каталог исходных данных DSC будет обеспечивать доступ к внешним ИР всех заинтересованных служб, поскольку данные, аккумулируемые непосредственно системой, составляют лишь небольшую часть всех информационных ресурсов, требуемых для решаемых задач. Каталог будет реализован средствами интегрированной системы ISIS (программного средства, включающего функции ведения баз данных и рекомендованного ЮНЕСКО для свободного использования как public domain) и обеспечит доступ в режиме on-line к не менее чем 100 коллективным банкам данных.

Его содержание включает три взаимосвязанные части. Частъ А будет включать текстовые сведения об организациях-держателях данных, в том числе:

  • цели деятельности и структура;
  • ключевые слова по классификaтopy MDS;
  • уникальное ключевое слово (имя организации);
  • территории, включенные в сферу ее деятельности;

  • текстовой комментарий нерегламентированного объема и содержания.

Часть В будет представлять собой описание деятельности организации по сбору данных (наличие и характеристики измерительнонаблюдательных систем).

В части С будет содержаться описание генерируемой организацией выходной документации аналогового и цифрового типов, включая публикации, каталоги, цифровые данные. Доступ к каталогу будет производиться с использованием коммуникационного языка CCL (Common Command Language) и графического интерфейса, одним из элементов которого будут видеоэкранные карты, позволяющие представить пространственную локализацию данных, экстрагированных из каталога по запросу пользователя.

Управление корпоративными метаданными с помощью репозиториев — это активно развивающаяся ИТ, приобретающая все большее значение и играющая ключевую роль в создании надежных высокоразвитых ИС. Корни технологии репозиториев — это системы словарей-справочников данных (Data Dictionary/Directory), сначала автономные, а затем включаемые в состав СУБД. По мере того как словари данных расширяли свои функции, они все больше приобретали черты репозиториев. Одна из усиленно развивающихся областей — создание инструментов разработчиков и пользователей для просмотра содержимого репозиториев.

К функциям управления, необходимым для репозиториев, относятся:

  • поддержка модели копирования/возврата (check-in/check-out) и некоторых формальных процедур для объектов, находящихся под управлением репозитория;
  • поддержка множественных версий объектов, а также процедуры управления конфигурациями таких объектов;
  • способность оповещать инструментальные средства и системы стадии исполнения о событиях, представляющих для них интерес, например об изменениях форматов или семантики объектов, контролируемых репозиторием;
  • контекстное управление или разные способы видения объектов репозитория;
  • возможность определения потоков работ для объектов, контролируемых репозиторием и управления ими;
  • независимость от поставщика;
  • расширяемость.

Структура репозитория приведена на рис. 3.11.

 

<< | >>
Источник: Гринберг А.С., Горбачев Н.Н., Мухаметшина О.А.. Документационное обеспечение управления. Учебник. 2010

Еще по теме Хранение и накопление документов:

  1. Операционная практика и хранение документов
  2. Действительное накопление и денежное накопление
  3. ФАЛЬСИФИКАЦИЯ ИЗБИРАТЕЛЬНЫХ ДОКУМЕНТОВ, ДОКУМЕНТОВ РЕФЕРЕНДУМА (ст. 142 УК РФ).
  4. Счета накопления
  5. Первоначальное накопление
  6. Внешнеэкономические счета накопления
  7. Статья 80. Содержание определения суда о назначении экспертизы Статья 81. Получение образцов почерка для сравнительного исследования документа и подписи на документе
  8. Накопление изменений и внезапные прорывы
  9. Документы. Электронные документы
  10. Препятствия накоплению знания и организационная политика социологии
  11. РАЗРАБОТКА, ПРОИЗВОДСТВО, НАКОПЛЕНИЕ, ПРИОБРЕТЕНИЕ ИЛИ СБЫТ ОРУЖИЯ МАССОВОГО ПОРАЖЕНИЯ (ст. 355 УК РФ).
  12. Современная банковская система и ее роль в накоплении и концентрации ссудного капитала
  13. 21.5. ХРАНЕНИЕ ЦЕННОСТЕЙ
  14. § 2. Договоры хранения