Индексирование документов. Тема: Теоретические основы индексирования документов Что представляет собой индексирование документов его этапы

Раздел IV. Индексирование документа

Индексирование документов. Тема: Теоретические основы индексирования документов Что представляет собой индексирование документов его этапы

Однойиз важнейших операций аналитико-синтетическойобработки документов как средстваинформационного поиска являетсяиндексирование документов и информационныхзапросов.

Индексирование– процесс выражения содержания документаи (или) запроса на информационно-поисковомязыке (ИПЯ) с помощью терминов индексирования(классификационных индексов, предметныхрубрик (ПР), ключевых слов, дескрипторов,кодов).

Иными словами, индексирование– процесс перевода содержания документови запросов с естественного языка наИПЯ, в результате чего создается поисковыйобраз документа (ПОД) и поисковый образзапроса (ПОЗ).

Таким образом, происходит«свертывание» информации, содержащейсяв документе и изложение ее на ИПЯ в видеиндекса, рубрики, кода (на классификационномязыке) или дескриптора, ключевого слова(на дескрипторном языке).

Поисковыйобраз документа– это выраженное в терминах формализованногоинформационно-поискового языка основноесмысловое содержание документа (а невся информация, содержащаяся в документе),которое поставлено в однозначноесоответствие этому документу, по которомупроизводится отыскание данного документав массиве других документов.

Индексированиезапроса осуществляется путем переводаего содержания на информационно-поисковыйязык. Совокупность терминов индексирования,выражающих смысловое содержание запроса,называетсяпоисковым образом запроса (ПОЗ).

Вэтом случае поиск документов ведетсяпо совокупности терминов индексирования.

Чтобы повысить эффективность поискаинформации по запросу, поисковый образзапроса можно дополнить специальнымиуказаниями о последовательностивыполнения логических операций впроцессе информационного поиска, которыеявляютсяпоисковым предписанием.

Методикаиндексирования запросов за счет включениев поисковое предписание дополнительныхтерминов, понятий или дополнительныхуказаний позволяет расширить областьпоиска информации (например, за счетвключения видовых и ассоциативныхтерминов) и в конечном итоге повыситьфункциональную возможностьинформационно-поисковой системы.

Индексированиереализуется в следующих процессах:предметизации, систематизации икоординатном индексировании.

Систематизация– вид индексирования, при которомсодержание документа и (или) запросавыражено классификационными индексамив соответствии с правилами какого-либоклассификационного ИПЯ (классификационнойсистемы). Такой принцип индексированияпринято считать классификационным.Классификационный принцип индексированияобеспечивает возможность организацииинформационного поиска по иерархическомупризнаку.

Предметизация– вид индексирования, при которомсодержание документа и (или) запросавыражено предметной рубрикой (ПР) всоответствии с правилами соответствующегопредметизационного ИПЯ.

Предметизационныйпринцип индексирования базируется напредставлении содержания документа впонятийной системе определенногоестественного языка и на использованиив качестве терминов индексированиялексических единиц (ЛЕ) естественногоязыка.

Предметизационныйпринцип индексирования обеспечиваетвозможность организации информационногопоиска по алфавитному признаку.

Координатноеиндексирование– вид индексирования, при которомсмысловое содержание документа и (или)запроса многоаспектно выражаетсямножеством ключевых слов или дескрипторов.Информационно-поисковый язык,предназначенный для координатногоиндексирования документов (или частейдокументов) и запросов посредствомключевых слов и (или) дескрипторов,называется дескрипторным языком.

Термины«индексирование» и «индексатор»распространены в англоязычной литературеи широко применяются в международнойи отечественной библиотечной практике.

Взависимости от того, какой принципиндексирования является ведущим (илиединственным) различаютпредметизационные, классификационныеи дескрипторныеинформационно-поисковые языки. Всоответствии с характером ИПЯиндексирование осуществляется какпредметизация, систематизация икоординатное индексирование.

Ав качестве терминов этих видовиндексирования используют предметныерубрики, классификационные индексы,дескрипторы, ключевые слова.

Взависимости от типа используемого ИПЯ,различают два режима индексирования:предкоординатное(классификационное) и посткоординатное.

Впредкоординатном индексировании связимежду терминами индексированияустанавливаются заранее – при разработкесоответствующего ИПЯ. К предкоординатнымИПЯ можно отнести следующие:

  • перечислительные классификации;
  • иерархические классификации;
  • предметные классификации;
  • фасетные классификации.

Впосткоординатном индексировании связи(координация) между терминами индексированияустанавливаются во время индексированиядокументов или в процессе их поиска. Кпосткоординируемым ИПЯ относят:

  • дескрипторные языки;
  • посткоординируемые фасетные классификации.

Теоретическиеосновы и методика процессов индексирования

(предметизации,систематизации, координатногоиндексирования) подробно изложены впоследующих главах методическогопособия.

Источник: https://studfile.net/preview/2957462/page:47/

Сканирование и индексирование: 5 способов сделать оцифровку дешевле

Индексирование документов. Тема: Теоретические основы индексирования документов Что представляет собой индексирование документов его этапы

В предыдущихстатьях уже не раз говорилось, что сканирование документов и переводинформации в формат баз данных в большинстве случаев играет определяющеезначение для деятельности организаций:

  • в коммерческом секторе оцифровкой решаетсяпотребность основных бизнес-подразделений в быстром и качественном доступе к информации,
  • в госструктурах наполненность учетных систем и реестровиграет ключевую роль в предоставлении услуг,
  • создание цифровых коллекций – эволюционный шаглюбого учреждения культуры, направленный на привлечение посетителей.

В большинстве случаев оцифровка – это обязательныйэтап, без которого невозможно осуществить запланированные шаги по модернизациипроизводственного цикла, взаимодействия с контрагентами или подведомственнымиорганизациями, обслуживания граждан.

Производственное предприятие, входящее в крупный промышленный холдинг, переводило в электронный вид чертежи по старым проектам. В первоочередную выборку не попали многие чертежи небольших сборочных единиц (элементов итогового изделия).

Не имея доступа к ним с рабочих компьютеров, сотрудники были вынуждены обращаться в архив. Планы по возобновлению производства деталей в ускоренном режиме были сорваны.

Оцифровка недостающих чертежей была проведена спустя восемь месяцев в рамках второго запланированного этапа оцифровки.

Соответственно, заранее определяется массив востребованных документов – приказы, счета,товарные накладные, договоры, чертежи, книги, архивные дела, описи, актовыекниги, картины, музейные предметы, – который обязательно надо перевести в электронный вид. Причем перевести именно в полном объеме, иначе результата не будет. К сожалению, часто про это забывают.

Отсюда первая рекомендация: необходимо измерять подлежащие оцифровкемассивы целыми величинами.

Даже разбивая работы на этапы, делать это надо так,чтобы получать по результатам каждого этапа готовый к использованию ресурс.

Недостаток информации (как скан-образов, так и извлеченных данных) можетпривести к невозможности пользоваться всем подготовленным электронным ресурсом.А исправить ошибку, как обычно, получается только на следующем финансируемом этапе.

Способ экономии №0. Поэтапность

Разбиение работ на этапы – эточасто применяемый способ, но скорее не экономии, а оптимизации. Благодаря емуреализуется «ступенчатая» оцифровка, когда полный эффект достигается за несколько шагов.

Ширина шага может быть абсолютно любой, как в финансовом, таки временном выражении. Наиболее часто, особенно в государственных учреждениях,применяется годовая схема, основанная на ежегодном бюджетировании.

Способ №1. А нужно ли?

Частой причиной выхода за рамки бюджета являются необоснованно высокие требования к создаваемому ресурсу. Показательныйпример – желание отсканировать приказы и распоряжения в качестве 600dpi и/или цветном режиме. Этоусловие удорожает работы, так как делает процесс медленней, требует поставки и обслуживания оборудования более высокого класса.

А по факту в большинстве случаеворганизационно-распорядительные документы надо сканировать в режиме,достаточном для воспроизведения копий без потери качества (300dpi, градации серого). Здесь есть ещеодин немаловажный фактор – объем одного файла. Хранить электронные массивыобъемом 100 Гб или 1 Тб – это, как говорится, две большие разницы.

Указать в техническом заданииможно любые требования – этого никто не запретит. Однако взвешенно подойдя к выбору качества сканирования, можно значительносократить стоимость работ. Если вдруг самостоятельно определить необходимыекритерии не удается, придется обратиться за экспертизойдокументов в крупную аутсорсинговую компанию и бесплатно получитьконсультацию.

Способ №2. Индекс больший и индекс маленький

Гораздо более сложный выбор ожидает в определениикритериев индексирования. С одной стороны, хочется извлечь из документов максимумзначимых реквизитов и информации для поиска и анализа информации. С другой,индексирование – дорогой процесс, и в случае ручного извлечения данных егостоимость может составлять 70–80% от бюджета оцифровки.

Сложный выбор пришлось делать Главархиву Москвы, когда появилась задача оцифровать фонды правоустанавливающих документов и договоров аренды для ускорения процессов, связанных с управлением землей и имуществом. Классическое индексирование документов только по номерам и датам не решало задачу.

Нужен был поиск по персоналиям, то есть из документов надо было извлечь все ФИО. Ручное индексирование одного Постановления со списком, скажем, участников гаражного кооператива, выходило в копеечку.

Задача была решена разработкой специальных технологий анализа текста и автоматического извлечения данных.

Найти оптимальный баланс бывает очень сложно. Главное – исходить из задачи. Для привязки распорядительного документа к карточке СЭД достаточно номера. А вотдля добавления того же документа в электронное дело по объекту недвижимости илилицу необходимо проиндексировать адрес и ФИО.

Что уж говорить про наполнение отраслевых систем, где вариантов создания электронного ресурса множество. На первыйплан выходят сами документы и технологии их обработки.

Если надо индексироватьбольшой объем документов вручную, то для оптимизации финансирования вместополного переноса информации в базу данных можно сделать частичноеиндексирование и создать электронный архив с возможностью мгновенного доступа к электронной копии документа.

Если документы печатные и можно использовать программы распознавания текста, то, возможно, дешевле будет решитьзадачу альтернативными способами – например, полнотекстовым распознаванием и применением корпоративной поисковой системы.

В каждой отрасли свои особенности. Наилучший вариант выбираетсясложными расчетами, которые также можно переложить на плечи аутсорсера в рамках экспертизы.

Способ №3. Кооперация

Аутсорсинговую компанию можно привлекать только на сложные работы, выполняя все простые и привычные задачи своими силами. Темсамым можно значительно снизить стоимость закупки услуг. Естественно, поступатьтак можно только при наличии соответствующего по размерам и квалификации штата сотрудников.

Уже классическим стал подход, когда все работы по подготовке документов, включая расшивку, сортировку по востребованности и обратную сшивку выполняют свои сотрудники архива и канцелярии, а на аутсорсинг передаются только сканирование и индексирование.

Самостоятельно можно выполнять широчайший спектр работ:

  • расшивку и обратную сшивку документов (расшитыесканировать гораздо дешевле),
  • систематизацию (зачастую компании параллельно с оцифровкой проводят инвентаризацию и архивную обработку),
  • маркировку штрих-кодами и RFID-метками,
  • непосредственно сканирование с приглашением внешнего исполнителя только на сложное индексирование,
  • перевозку фондов и т.д.

Крупные аутсорсинговые компании в большинстве случаев идут навстречу, так как наибольший интерес для них составляют профильные услуги. Поэтому всегда можно договориться. Главное – не забыть отразить эти условия в конкурсной документации. Это реальная возможность действительно снизить номинальную стоимость работ.

Способ №4. Один раз в год…

Обычным способом сокращения стоимости для сектора услуг являются долгосрочныеотношения. Этот вопрос уже рассматривался с точки зрения выездногосканирования, но он равнозначно применим для всего широкого рынка оцифровки.

Снижение стоимости может быть особенно заметно при оцифровке печатных документов с использованием автоматического извлечения данных или штрих-кодирования. Отработав технологию на первых массивах, исполнитель может уже не тратиться каждый раз на настройку оборудования и программных средств. Тем самым снижается себестоимость работ, что и отражается в скидках долгосрочных договоров.

Аутсорсинговые компании в рамкахдолгосрочного договора или соглашения могут предложить разные вариантысотрудничества:

  • регулярную оцифровку по окончанию отчетныхпериодов с выездом бригады на территорию клиента или забором документов на своепроизводство,
  • поэтапную оцифровку определенных объемовдокументов с шагом в месяц, квартал, полугодие, год,
  • создание участков автоматической обработки с предварительной адаптацией под печатные документы заказчика и сервиснойподдержкой, в состав которой входит настойка на новые виды документов, обслуживаниеоборудования и т.д.

Это основные способы, которые помогут предварительносократить стоимость оцифровки. Но нельзя забывать также создавать необходимыеусловия для проведения работ, без которых стоимость может возрасти уже в процессе проведения сканирования или ретроконверсии.

Короткая ссылка на материал: //cnews.ru/link/a4353

Источник: https://scan.cnews.ru/articles/2015-12-02_skanirovanie_i_indeksirovanie_5_sposobov_sdelat_otsifrovku

Поделиться:
Нет комментариев

    Добавить комментарий

    Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.