Создание системы автоматического индексирования предполагает разработку ИПЯ, создание на его базе автоматического словаря-тезауруса и составление алгоритма перевода с естественного языка на ИПЯ. ИПЯ является основным элементом, определяющим эффективность системы индексирования в целом. В настоящее время автоматизация индексирования возможна только на базе языка дескрипторного типа. Назначение системы индексирования влияет на характер используемого в ней ИПЯ (широту тематики, глубину разработки, характер базисных отношений).

Для обеспечения последующего избирательного распределения текущих поступлений патентной документации в основу системы должен быть положен общетехнический ИПЯ. Такой язык может быть создан совместными усилиями центральных и отраслевых органов информации. Этот язык, кроме своего прямого назначения, будет также служить структурной основой при разработке отраслевых ИПЯ. До создания общетехнического языка система индексирования может основываться на одном из отраслевых ИПЯ, что обеспечит переработку текущей патентной информации в интересах одной из отраслей техники.

Наконец, система индексирования может использовать комплекс узкотематических ИПЯ. В этом случае ее назначение будет заключаться во вводе материалов ретроспективного фонда и текущего поступления в узкотематические ИПС с целью последующего поиска по запросам. В ЦНИИПИ изучаются все эти варианты систем индексирования. Однако практически пока разрабатываются системы индексирования, базирующиеся на узкотематических ИПЯ. При этом разрабатывается два варианта: системы для обработки патентной документации на русском и на английском языках.

Первая экспериментальная система индексирования была создана и реализована на вычислительной машине «Урал-4» в Ш65-1966 гг. Она предназначена для индексирования русских текстов и работает в комплексе с системой автоматического перевода публикаций из патентного еженедельника США «Official Gazette». Система состоит из двух основных элементов (Л4-11): автоматического словаря в котором лексические единицы русского языка расположены в соответствии с единицами информационно-поискового языка, и алгоритма индексирования, представляющего собой последовательность правил перевода содержания документов на ИПЯ. В основе системы лежит язык дескрипторного типа без грамматики по теме «Двигатели внутреннего сгорания», насчитывающий около 450 дескрипторов. Дескрипторам поставлены в соответствие термины: ключевые слова и сочетания.

Эти термины помечены в русской части словаря, предназначенного для автоматического перевода. После завершения процесса перевода (но до вывода текста на печать) слова переведенного текста проверяются на наличие пометы «ключевое слово». При нахождении таких слов из словаря извлекают данные о соотнесенных с ними дескрипторах и под текстом перевода печатается набор дескрипторов, отображающий содержание документа с указанием частоты появления в тексте каждого из них, а инвертированный поисковый обзор документа заносится в долговременную память вычислительной машины.

Описанная система находится в стадии экспериментальной проверки. Поскольку подавляющая часть текущей патентной информации публикуется на иностранных языках, наиболее сложную проблему представляет индексирование зарубежных материалов.

Учитывая большую сложность автоматизации перевода с одного языка на другой, представляется целесообразным разработать такую систему, которая индексировала бы тексты непосредственно на иностранном языке, минуя этап перевода. В 1966 г в ЦНИИПИ начата разработка экспериментальной автоматизированной системы, ориентированной на иностранную патентную документацию (П4-12) Эта система должна обеспечить возможность индексирования на английском языке и последующего поиска по запросам, сформулированным в терминах русского языка.

Описанная система представляет собой второй этап автоматизации обработки патентной документации. Она значительно сложнее системы обработки библиографических данных и заглавий патентов, так как ее создание связано с решением довольно трудных семантических проблем. Фактически это упрощенный вариант системы автоматического перевода, в котором наряду с раскрытием основного содержания иностранного источника информации обеспечивается его ввод в ИПС. Рассмотренный вариант системы реализуется на вычислительной машине «Раздан-3». Алгоритм индексирования сделан не зависимым от машинного словаря, поэтому в системе индексирования в принципе может быть использован отраслевой словарь любой тематики.

Дальнейшее развитие этой системы в значительной степени (обусловлено разработкой дескрипторных словарей различной тематики.