Проблемы распознавания речи: что еще предстоит решить. Обзор существующих методов распознавания образов

В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и различными - на все объекты различных образов. Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов без каких-либо других подсказок. В качестве объектов обучения могут быть либо картинки, либо другие визуальные изображения (буквы), либо различные явления внешнего мира, например звуки, состояния организма при медицинском диагнозе, состояние технического объекта в системах управления и др. Важно, что в процессе обучения указываются только сами объекты и их принадлежность образу. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов. В том случае, когда человек сам разгадывает или придумывает, а затем навязывает машине правило классификации, проблема распознавания решается частично, так как основную и главную часть проблемы (обучение) человек берет на себя.
Проблема обучения распознаванию образов интересна как с прикладной, так и с принципиальной точки зрения. С прикладной точки зрения решение этой проблемы важно прежде всего потому, что оно открывает возможность автоматизировать многие процессы, которые до сих пор связывали лишь с деятельностью живого мозга. Принципиальное значение проблемы тесно связано с вопросом, который все чаще возникает в связи с развитием идей кибернетики: что может и что принципиально не может делать машина? В какой мере возможности машины могут быть приближены к возможностям живого мозга? В частности, может ли машина развить в себе способность перенять у человека умение производить определенные действия в зависимости от ситуаций, возникающих в окружающей среде? Пока стало ясно только то, что если человек может сначала сам осознать свое умение, а потом его описать, т. е. указать, почему он производит действия в ответ на каждое состояние внешней среды или как (по какому правилу) он объединяет отдельные объекты в образы, то такое умение без принципиальных трудностей может быть передано машине. Если же человек обладает умением, но не может объяснить его, то остается только один путь передачи умения машине - обучение примерами.
Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями. В каждой из таких задач анализируются некоторые явления, процессы, состояния внешнего мира, всюду далее называемые объектами наблюдения. Прежде чем начать анализ какого-либо объекта, нужно получить о нем определенную, каким-либо способом упорядоченную информацию. Такая информация представляет собой характеристику объектов, их отображение на множестве воспринимающих органов распознающей системы.
Но каждый объект наблюдения может воздействовать по-разному, в зависимости от условий восприятия. Например, какая-либо буква, даже одинаково написанная, может в принципе как угодно смещаться относительно воспринимающих органов. Кроме того, объекты одного и того же образа могут достаточно сильно отличаться друг от друга и, естественно, по-разному воздействовать на воспринимающие органы.
Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы.
При решении задач управления методами распознавания образов вместо термина "изображение" применяют термин "состояние". Состояние - это определенной формы отображение измеряемых текущих (или мгновенных) характеристик наблюдаемого объекта. Совокупность состояний определяет ситуацию. Понятие "ситуация" является аналогом понятия "образ". Но эта аналогия не полная, так как не всякий образ можно назвать ситуацией, хотя всякую ситуацию можно назвать образом.
Ситуацией принято называть некоторую совокупность состояний сложного объекта, каждая из которых характеризуется одними и теми же или схожими характеристиками объекта. Например, если в качестве объекта наблюдения рассматривается некоторый объект управления, то ситуация объединяет такие состояния этого объекта, в которых следует применять одни и те же управляющие воздействия. Если объектом наблюдения является военная игра, то ситуация объединяет все состояния игры, которые требуют, например, мощного танкового удара при поддержке авиации.
Выбор исходного описания объектов является одной из центральных задач проблемы ОРО. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной и, наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработке информации, либо вообще к отсутствию решения. Например, если решается задача распознавания объектов, отличающихся по цвету, а в качестве исходного описания выбраны сигналы, получаемые от датчиков веса, то задача распознавания в принципе не может быть решена.

Свойства объектов отличаются своим качеством и измеряются с помощью различных органов восприятия или измерительных приборов в различных единицах измерения.

Результатом измерения является снижение неопределенности в наших знаниях о значении свойств объекта. Значения свойств конкретизируются путем их сопоставления определенным градациям соответствующих измерительных шкал: номинальных, порядковых или отношений.

В номинальных шкалах отсутствуют отношения порядка, начало отсчета и единица измерения.

На порядковых шкалах определены отношения "больше – меньше", но отсутствуют начало отсчета и единица измерения.

На шкалах отношений определены отношения порядка, все арифметические операции, есть начало отсчета и единица измерения.

Можно представить себе, что шкалы образуют оси координат некоторого абстрактного многомерного пространства, которое будем называть "фазовым пространством".

В этом фазовом пространстве каждый конкретный объект представляется определенной точкой, имеющей координаты, соответствующие значениям его свойств по осям координат, т.е. градациям описательных шкал.

Оси координат фазового пространства в общем случае не являются взаимно-перпендикулярными шкалами отношений, т.е. в общем случае это пространство неортонормированное, более того – неметрическое. Следовательно, в нем в общем случае не применима Евклидова мера расстояний, т.е. не действует Евклидова метрика. Применение этой меры расстояний корректно, если одновременно выполняются два условия:

1. Все оси координат фазового пространства являются шкалами отношений.

2. Все оси координат взаимно-перпендикулярны или очень близки к этому.

1.3.2.1.2. Признаки и обобщенные образы классов

Обобщенные образы классов формализуются (кодируются) путем использования классификационных шкал и градаций, которые могут быть тех же типов, что и описательные, т.е. номинальные, порядковые и отношений.

Сама принадлежность конкретных объектов к данному классу определятся либо человеком-учителем, после чего фиксируется в обучающей выборке, либо самой системой автоматически на основе кластерного анализа конкретных объектов.

1.3.2.1.3. Обучающая выборка и ее репрезентативность по отношению к генеральной совокупности. Ремонт (взвешивание) данных

Рассмотрим, как зависит степень достоверности выводов о генеральной совокупности от объема обучающей выборки.

Если обучающая выборка включает все объекты генеральной совокупности, т.е. они совпадают, то достоверность выводов будет наиболее высокой (при всех прочих равных условиях).

Если же обучающая выборка очень мала, то вряд ли на ее основе могут быть сделаны достоверные выводы о генеральной совокупности, т.к. в этом случае в обучающую выборку могут даже не входить примеры объектов всех или подавляющего большинства классов.

Под репрезентативностью обучающей выборки будем понимать ее способность адекватно представлять генеральную совокупность, так что изучение самой генеральной совокупности можно корректно заменить исследованием обучающей выборки.

Но репрезентативность зависит не только от объема, но и от структуры обучающей выборки, т.е. от того, насколько полно представлены все категории объектов генеральной совокупности (классы) и от того, насколько полно они описаны признаками.

Взвешивание данных или ремонт обучающей выборки – это операция, в результате которой частное распределение объектов по классам в обучающей выборке максимально, на сколько это возможно, приближается либо к частотному распределению генеральной совокупности (если оно известно из независимых источников), либо к равномерному.

В системе "Эйдос" режим взвешивания данных реализован.

1.3.2.1.4. Основные операции: обобщение и распознавание

Сразу необходимо отметить, что операция обобщения реализуется далеко не во всех моделях систем распознавания (например, в методе k-ближайших соседей), а в тех, в которых оно реализуется, – это делается по-разному.

Обычно, пока не реализовано обобщение нет возможности определить ценность признаков для решения задачи идентификации.

Например, если у нас есть 10 конкретных мячей разного размера и цвета, состоящих из разных материалов и предназначенных для разных игр, и мы рассматриваем их как совершенно независимые друг от друга объекты, наряду с другими, то у нас нет возможности определить, какие признаки являются наиболее характерными для мячей и наиболее сильно отличают их от этих других объектов. Но как только мы сформируем обобщенные образы "мяч", "стул", и т.д., сразу выясниться, что цвет мяча и материал, из которого он сделан, не является жестко связанными с обобщенным образом класса "мяч", а наиболее существенно то, что он круглый и его можно бросать или бить во время игры.

Распознавание – это операция сравнения и определения степени сходства образа данного конкретного объекта с образами других конкретных объектов или с обобщенными образами классов, в результате которой формируется рейтинг объектов или классов по убыванию сходства с распознаваемым объектом.

Ключевым моментом при реализации операции распознавания в математической модели является выбор вида интегрального критерия или меры сходства , который бы на основе знания о признаках конкретного объекта позволил бы количественно определить степень его сходства с другими объектами или обобщенными образами классов.

В ортонормированном пространстве, осями которого являются шкалы отношений, вполне естественным является использовать в качестве такой меры сходства Евклидово расстояние. Однако, такие пространства на практике встречаются скорее как исключение из правила, а операция ортонормирования является довольно трудоемкой в вычислительном отношении и приводит к обеднению модели, а значит ее не всегда удобно и целесообразно осуществлять.

Поэтому актуальной является задача выбора или конструирования интегрального критерия сходства, применение которого было бы корректно и в неортонормированных пространствах. Кроме того, этот интегральный критерий должен быть устойчив к наличию шума, т.е. к неполноте и искажению как в исходных данных, так и самой численной модели.

Требование устойчивости к наличию шума математически означает, что результат применения интегрального критерия к сигналу, состоящему только из белого шума, должен быть равным нулю. Это значит, что в качестве интегрального критерия может быть применена функция, используемая при определении самого понятия "белый шум", т.е. свертка, скалярное произведение, корреляция.

Такой интегральный критерий предложен в математической модели системно-когнитивного анализа и реализован в системе "Эйдос".

1.3.2.1.5. Обучение с учителем (экспертом) и самообучение (кластерный анализ)

Причем, если описательные характеристики могут формироваться с помощью информационно-измерительной системы автоматически, то классификационные – представляют собой результат вообще говоря неформализуемого процесса оценки степени принадлежности данных объектов к различным классам, который осуществляется человеком-экспертом или, как традиционно говорят специалисты по распознаванию образов, "учителем". В этом случае не возникает вопроса о том, для формирования обобщенного образа каких классов использовать описание данного конкретного объекта.

Обучение без учителя или самообучение – это процесс формирования обобщенных образов классов, на основе обучающей выборки, содержащей характеристики конкретных объектов, причем только в описательных шкалах и градациях.

Поэтому этот процесс реализуется в три этапа:

1. Кластерный анализ объектов обучающей выборки, в результате которого определяются группы наиболее сходных их них по их признакам (кластеры).

2. Присвоение кластерам статуса обобщенных классов, для формирования обобщенных образов которых используются конкретные объекты, входящие именно в эти кластеры.

3. Формирование обобщенных образов классов, аналогично тому, как это делалось при обучении с учителем.

1.3.2.1.6. Верификация, адаптация и синтез модели

Верификация модели – это операция установления степени ее адекватности (валидности) путем сравнения результатов идентификации конкретных объектов с их фактической принадлежностью к обобщенным образам классов.

Различают внутреннюю и внешнюю, интегральную и дифференциальную валидность.

Внутренняя валидность – это способность модели верно идентифицировать объекты обучающей выборки.

Если модель имеет низкую внутреннюю валидность, то модель нельзя считать удачно сформированной.

Внешняя валидность – это способность модели верно идентифицировать объекты, не входящие в обучающую выборку.

Интегральная валидность – это средневзвешенная достоверность идентификации по всем классам и распознаваемым объектам.

Дифференциальная валидность – это способность модели верно идентифицировать объекты в разрезе по классам.

Адаптация модели – это учет в модели объектов, не входящих в обучающую выборку, но входящих в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна.

Если моделью верно идентифицируются объекты, не входящие в обучающую выборку, то это означает, что эти объекты входят в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна. Следовательно, на основе обучающей выборки удалось выявить закономерности взаимосвязей между признаками и принадлежностью объектов к классам, которые действуют не только в обучающей выборке, но имеют силу и для генеральной совокупности.

Адаптация модели не требует изменения классификационных и описательных шкал и градаций, а лишь объема обучающей выборки, и приводит к количественному изменению модели .

Синтез (или повторный синтез – пересинтез) модели – это учет в модели объектов, не входящих ни в обучающую выборку, ни в генеральную совокупность, по отношению к которой данная обучающая выборка репрезентативна.

Это объекты с новыми, ранее неизвестными закономерностями взаимосвязей признаков с принадлежностью этих объектов к тем или иным классам. Причем и признаки, и классы, могут быть как те, которые уже были отражены в модели ранее, так и новые. Пересинтез модели приводит к ее качественному изменению.

1.3.2.2. Проблема распознавания образов

Простейшим вариантом распознавания является строгий запрос на поиск объекта в базе данных по его признакам, который реализуется в информационно-поисковых системах. При этом каждому полю соответствует признак (описательная шкала), а значению поля – значение признака (градация описательной шкалы). Если в базе данных есть записи, все значения заданных полей которых точно совпадают со значениями, заданными в запросе на поиск, то эти записи извлекаются в отчет, иначе запись не извлекается.

Более сложными вариантами распознавания является нечеткий запрос с неполнотой информации , когда не все признаки искомых объектов задаются в запросе на поиск, т.к. не все они известны, и нечеткий запрос с шумом , когда не все признаки объекта известны, а некоторые считаются известными ошибочно. В этих случаях из базы данных извлекаются все объекты, у которых совпадает хотя бы один признак и в отчете объекты сортируются (ранжируются) в порядке убывания количества совпавших признаков. При этом при определении ранга объекта в отсортированном списке все признаки считаются имеющими одинаковый "вес" и учитывается только их количество.

Однако:

– во-первых, на самом деле признаки имеют разный вес, т.е. один и тот же признак в разной степени характерен для различных объектов ;

– во-вторых, нас могут интересовать не столько сами объекты, извлекаемые из базы данных прецедентов по запросам, сколько классификация самого запроса , т.е. отнесение его к определенной категории, т.е. к тому или иному обобщенному образу класса.

Если реализация строгих и даже нечетких запросов не вызывает особых сложностей, то распознавание как идентификация с обобщенными образами классов, причем с учетом различия весов признаков представляет собой определенную проблему.

Обучение осуществляется путем предъявления системе отдельных объектов, описанных на языке признаков, с указанием их принадлежности тому или другому классу. При этом сама принадлежность к классам сообщается системе человеком – Учителем (экспертом).

В результате обучения распознающая система должна приобрести способность:

1. Относить объекты к классам, к которым они принадлежат (идентифицировать объекты верно).

2. Не относить объекты к классам, к которым они не принадлежат (неидентифицировать объекты ошибочно).

Эта и есть проблема обучения распознаванию образов, и состоит она в следующем:

1. В разработке математической модели, обеспечивающей: обобщение образов конкретных объектов и формирование обобщенных образов классов; расчет весов признаков; определение степени сходства конкретных объектов с классами и ранжирование классов по степени сходства с конкретным объектом, включая и положительное, и отрицательное сходство.

2. В наполнении этой модели конкретной информацией, характеризующей определенную предметную область.

1.3.2.3. Классификация методов распознавания образов

Идентификация и прогнозирование часто практически ничем друг от друга не отличаются по математическим моделям и алгоритмам. Основное различие между ними состоит в том, что при идентификации признаки и состояния объекта относятся к одному времени, тогда как при прогнозировании признаки (факторы) относятся к прошлому, а состояния объекта – к будущему.

Это означает, что системы распознавания образов с успехом могут применяться не только для решения задач идентификации, но и прогнозирования.

1.3.2.5. Роль и место распознавания образов в автоматизации управления сложными системами

1.3.2.5.1. Обобщенная структура системы управления

Автоматизированная система управления состоит из двух основных частей: объекта управления и управляющей системы (рисунок 71).

Управляющая система осуществляет следующие функции:

– идентификация состояния объекта управления;

– выработка управляющего воздействия исходя из целей управления с учетом состояния объекта управления и окружающей среды;

– оказание управляющего воздействия на объект управления.

Рисунок 71 . Обобщенная схема рефлексивной системы управления
активными объектами

1.3.2.5.2. Место системы идентификации в системе управления

Распознавание образов есть не что иное, как идентификация состояния некоторого объекта. Автоматизированная система управления АСУ), построенная на традиционных принципах, может работать только на основе параметров, закономерности связей которых уже известны, изучены и отражены в математической модели. В итоге АСУ, основанные на традиционном подходе, практически не эффективны с активными многопараметрическими слабодетерминированными объектами управления, такими, например, как макро– и микро– социально-экономические системы в условиях динамичной экономики "переходного периода", иерархические элитные и этнические группы, социум и электорат, физиология и психика человека, природные и искусственные экосистемы и многие другие.

Поэтому, в состав перспективных АСУ, обеспечивающих устойчивое управление активными объектами в качестве существенных функциональных звеньев должны войти подсистемы идентификации и прогнозирования состояний среды и объекта управления, основанные на методах искусственного интеллекта (прежде всего распознавания образов), методах поддержки принятия решений и теории информации.

1.3.2.5.3. Управление как задача, обратная идентификации и прогнозированию

Кратко рассмотрим вопрос о применении систем распознавания образов для принятия решений об управляющем воздействии. Очевидно, что применение систем распознавания для прогнозирования результатов управления при различных сочетаниях управляющих факторов позволяет рассмотреть и сравнить различные варианты управления и выбрать наилучшие из них по определенным критериям. Однако, этот подход на практике малоэффективен, особенно если факторов много, т.к. в этом случае количество сочетаний их значений может быть чрезвычайно большим.

Если в качестве классов распознавания взять целевые и иные будущие состояния объекта управления, а в качестве признаков – факторы, влияющие на него, то в модели распознавания образов может быть сформирована количественная мера причинно-следственной связи факторов и состояний.

Это позволяет по заданному целевому состоянию объекта управления получить информацию о силе и направлении влияния факторов, способствующих или препятствующих переходу объекта в это состояние, и, на этой основе, выработать решение об управляющем воздействии.

Задача выбора факторов по состоянию является обратной задачей прогнозирования, т.к. при прогнозировании, наоборот, определяется состояние по факторам.

Факторы могут быть разделены на следующие группы:

– характеризующие предысторию объекта управления и его актуальное состояние управления;

– технологические (управляющие) факторы;

– факторы окружающей среды;

Таким образом, системы распознавания образов могут быть применены в составе АСУ в подсистемах:

– идентификации состояния объекта управления;

– выработки управляющих воздействий.

Это целесообразно в случае, когда объект управления представляет собой сложную или активную систему.

Кластеризация – это операция автоматической классификации, в ходе которойобъекты объединяются в группы (кластеры) таким образом, что внутри групп различия между объектами минимальны, а между группами – максимальны. При этом в ходе кластеризации не только определяется состав кластеров, но и сам их набор и границы.

Поэтому вполне обоснованно считается, что методы кластерного анализа используются в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов, т.е. исследование находится на первой эмпирической стадии: описательной.

Существует большое количество различных алгоритмов кластеризации, которые обычно связаны с полным перебором объектов и весьма трудоемки в вычислительном отношении, здесь же мы упомянем лишь о трех из них:

– объединение (древовидная класт ризация);

– двухвходовое объединение;

– метод K средних .

Рассмотрим кратко эти алгоритмы (описание взято с сайта http://StatSoft.ru) .

1.3.2.6.1. Древовидная кластеризация

Древовидная диаграмма (диаграмму (рисунок 72) начинается с конкретных объектов (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете ) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе.

1.3.2.6.2. Двухвходовое объединение

Исследователь может кластеризовать конкретные образы наблюдаемых объектов для определения кластеров объектов со сходными признаками.

Он может также кластеризовать признаки для определения кластеров признаков, которые связаны со сходными конкретными объектами.

В двувходовом алгоритме эти процессы осуществляются одновременно.

1.3.2.6.3. Метод K средних

В этом методе принадлежность объектов к кластерам определяется таким образом, чтобы:

– минимизировать изменчивость (различия) объектов внутри кластеров;

– максимизировать изменчивость объектов между кластерами.

Контрольные вопросы

1. Основные понятия и определения, связанные с системами распознавания образов.

2. Признаки и образы конкретных объектов, метафора фазового пространства.

3. Признаки и обобщенные образы классов.

4. Обучающая выборка и ее репрезентативность по отношению к генеральной совокупности. Ремонт (взвешивание) данных.

5. Основные операции: обобщение и распознавание.

6. Обучение с учителем (экспертом) и самообучение (кластерный анализ).

7. Верификация, адаптация и синтез модели.

8. Проблема распознавания образов.

9. Классификация методов распознавания образов.

10. Применение распознавания образов для идентификации и прогнозирования. Сходство и различие в содержании понятий "идентификация" и "прогнозирование".

11. Роль и место распознавания образов в автоматизации управления сложными системами.

12. Обобщенная структура системы управления.

13. Место системы идентификации в системе управления.

14. Управление как задача, обратная идентификации и прогнозированию.

15. Методы кластерного анализа.

16. Метод кластеризации: "Древовидная кластеризация".

17. Метод кластеризации: "Двувходовое объединение".

18. Метод кластеризации: "Метод K средних".

1. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280с.

2. Луценко Е. В.Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). – Краснодар:КубГАУ. 2002. – 605 с.

Cтраница 2

При обучении распознаванию образов известны некоторые т изображений и их принадлежность образу. Проблема распознавания образов состоит в том, чтобы по тренировочной последовательности построить алгоритм, определяющий значение у для любого набора из области определения функции.

Распознающая система на основании данных о процессе и внешних воздействий на этот процесс оценивает производственную ситуацию и выдает команды на управление процессом. С проблемой распознавания образов тесно связана проблема создания обучающихся автоматов, которые должны уметь оценивать сложившуюся ситуацию и на основании этого принимать наилучшее решение. Поэтому большая часть задач по обучению автоматов может быть сведена к задачам обучения распознавания образов.

Есть много действительно серьезных, по-настоящему захватывающих проблем, над которыми работают сейчас тысячи ученых. Это - и проблема распознавания образа, и обработка информации, лингвистические проблемы и многие другие.

Эффективность решения задачи распознавания в конечном счете определяется тем, насколько эффективно организовано обучение распознающего устройства процедуре классификации. Поэтому основное внимание в проблеме распознавания образов уделяется задаче обучения распознаванию.

Кажется логичным изучение архитектур, соответствующих нашему пониманию организации и функций мозга. Человеческий мозг представляет существующее доказательство того факта, что решение проблемы распознавания образов возможно. Кажется разумным эмулировать работу мозга, если мы хотим повторить его работу. Однако контраргументом является история полетов; человек не смог оторваться от земли до тех пор, пока не перестал имитировать движения крыльев и полет птиц.

Использование топографических принципов позволяет создать самую быстродействующую и самую емкую машинную память. Голограммная память разыскивает нужную информацию по законам ассоциации, что свойственно человеческой памяти. Голография может решить проблему распознавания образов, над которой много лет бьются кибернетики. Если голограмме предъявить группу предметов, она мгновенно ответит (путем отождествления) на те из них, изображения которых она хранит. Причем, чем сложнее предмет, тем надежнее голограмма узнает его.

В четвертой главе излагаются основы теории дискретных самоорганизующихся систем. Определяется количественная мера самоорганизации и самообучения, исследуется поведение случайных автоматов и автоматов, работающих в условиях случайных внешних воздействий. Особое место уделяется проблеме распознавания образов и теории одного класса устройств (так называемых а-персептронов), предназначенных для решения этой проблемы. Рассматриваются некоторые вопросы моделирования условных рефлексов, а также процессов обучения распознаванию смысла и выработки новых понятий.

На рис. 12.11 представлен пример, в котором в качестве образа выбрана заглавная буква А. Нетрудно видеть, что при сохранении соответствующей емкости памяти уже после нескольких релаксационных шагов из сильно искаженных шумами букв возникает четкий образ, изначально записанный в памяти. Именно в этом и заключается взаимосвязь между ассоциативной памятью изложенного выше типа и проблемой распознавания образа. В настоящее время не существует точных представлений относительно того, каким образом можно было бы обобщить и расширить изложенную выше модель ассоциативной памяти на основе спиновых стекол, чтобы она была применима и к сложной проблеме распознования повернутых или сдвинутых образов. Как показывает пример изображения на рис. 12.11, буква А, перевернутая вверх тормашками, не была бы распознана, так как даже смещение неискаженного образа на несколько узлов решетки (растра) превращает его распознавание в проблему, решение которой выходит за рамки ассоциативных возможностей модели Хопфидда. Будущее покажет, удастся ли решить и этот класс проблем с помощью ассоциативных запоминающих устройств.

Сложность экологических проблем требует обработки больших массивов данных. Необходимы исследования, направленные на облегчение интерпретации и разумного применения накопленной информации. Существенную помощь в этом могут оказать работы в области искусственного интеллекта, связанные с проблемой распознавания образов. Новейшие достижения микропроцессорной и микрокомпьютерной техники начинают использоваться при конструировании разумных измерительных приборов. Необходимо обратить внимание на организацию, накопление и сбор данных об окружающей среде.

Как видим, понятие симметрии приобретает поистине глобальный смысл. Впрочем, можно пойти еще дальше и обратить внимание на то, что, по большому счету, мы имеем дело с симметрией всякий раз, когда решаем проблему распознавания образов, проблему диагностики.

Распознавание образов является одной из форм обработки информации, поступающей от системы или объекта. Классы характеризуются тем, что принадлежащие им объекты обладают некоторой общностью (сходством), например характеризуются одинаковой структурой функционального оператора. То общее, что объединяет объекты в класс, принято называть образом. К задаче построения математического описания объекта или системы с точки зрения проблемы распознавания образов можно подходить двояко. Один из подходов заключается в том, что в качестве образа, который необходимо опознать, выступает сам функциональный оператор ФХС. С другой стороны, вместо функционального оператора Ф строится кибернетическое распознающее устройство, которое прогнозирует поведение системы так же, как это делал бы соответствующий функциональный оператор.

Из сказанного выше очевидно, что существует множество алгоритмов выделения признаков в процессе предварительной обработки информации; их число непрерывно и быстро растет, поскольку выбор способов решения конкретной задачи в большой степени обусловлен характером самой задачи. Успех всего исследования по проблеме распознавания образов определяется тем, насколько удачно выполнен этап выделения признаков. Общее признание получила точка зрения, согласно которой новых крупных достижений в этой области следует ожидать как раз на стадии выделения признаков при предварительной обработке информации.

Я лично считаю, что такая трактовка дает современному специалисту по кибернетике ключ к более глубокому исследованию проблемы памяти, которая рассматривается в этой книге в другом разделе. Далее, хотя Лейбницу не удалось создать релятивистскую логику, его философские взгляды на проблему восприятия (являющуюся одним из важнейших вопросов кибернетики) примерно на три столетия опередили его эпоху. Ведь только с появлением работ Уайтхеда (Whitehead) в нашем веке был обоснован взгляд, что некоторый объект, не обладающий сам по себе сознанием, в состоянии реагировать в определенном смысле на связанные с ним события. Наконец, особенно характерно то, что в своих исследованиях всех этих связей Лейбниц стоял на принципиальных позициях теории исследования операций. Он гораздо меньше интересовался причинно-следственным истолкованием связей, чем динамическим, и считал, что часть является выражением целого, а не просто содержится в нем. Такой подход хорошо согласуется с гештальт-проблемами в современной психологии, с подходом к решению всех задач промышленной кибернетики с позиций органического единства, а также с современными кибернетическими исследованиями проблемы распознавания образов.

20 Проблема распознавания образов

Человеческий мозг, так же как и мозг животных, с самого рождения и на протяжении всей жизни ежеминутно решает задачи распознавания образов. Ребенок или детеныш животного с первых минут своего появления на свет узнает пищу, мать, ее голос, окружающие предметы. По мере взросления ребенок учится узнавать свои игрушки, комнату, дом, множество необходимых предметов, лица друзей, их речь, музыку, буквы, слова, книги и т.д.

В своей повседневной жизни человек настолько легко справляется с задачами распознавания, что это считается само собой разумеющимся. Между тем, попытки моделирования на компьютерах этих высокоинтеллектуальных функций наталкиваются на весьма серьёзные трудности.

Для того чтобы человек сознательно воспринял информацию, она должна пройти довольно длительный цикл предварительной обработки. Рассмотрим на примере восприятия зрительного образа:

1. Вначале свет попадает в глаз. Пройдя через всю оптическую систему фотоны попадают на сетчатку (слой светочувствительных клеток). Здесь происходит первый этап обработки информации. У млекопитающих, сразу за светочувствительными клетками находится обычно два слоя нервных клеток, которые выполняют сравнительно несложную обработку.

2. По зрительному нерву информация поступает в головной мозг, в так называемые "зрительные бугры".

3. Далее зрительная информация поступает в отделы мозга, которые уже выделяют из неё отдельные составляющие (горизонтальные, вертикальные, диагональные линии; контуры; области светлого, темного, цветного). До этих пор можно без труда смоделировать работу мозга применяя различные графические фильтры.

4. Постепенно образы становятся все более сложными и размытыми, но графический образ пройдет еще долгий путь, прежде чем достигнет уровня сознания. Причём на уровне сознания к образу могут примешаться еще звуки, запахи и вкусовые ощущения.

В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путём показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы.

В настоящее время наибольших успехов удалось добиться в распознавании зрительных образов, таких как печатные символы. Не вызывает сомнений полезность известных программ распознавания текстовой информации FineReader и CuneiForm . Функции обнаружения и распознавания военных объектов противника уже давно закладываются в бортовые компьютеры ракет, самолетов, кораблей и подводных лодок.

Какие идеи и принципы могут быть заложены в основу распознающих систем? Первое, что приходит в голову, действовать "с позиции грубой силы": заложить в компьютер как можно больше известных образов-шаблонов и сравнивать их с поступающими для распознавания неизвестными образами. Однако этот путь сразу заводит в тупик. Предположим, что зрительное изображение считывается с помощью стандартной системы светочувствительных элементов 32 позиции по ширине и 48 по высоте, т.е. всего 1536 элементов. Но даже на такой грубой сетке можно воспринять порядка 10 460 возможных образов. Хранить в памяти такое число шаблонных изображений и осуществлять с ними сравнение поступающих на вход образов невозможно.

Поэтому на практике системы распознавания на первой стадии обязательно обрабатывают изображение и выделяют характерные признаки, качественные или количественные. Таким образом, количество информации для распознавания существенно уменьшается.

Следующая идея, которая обычно используется в распознающих системах, это идея обучения. Она является обязательным элементом многих современных интеллектуальных систем.

Образ, класс - классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку.

Образное восприятие мира - одно из загадочных свойств живого мозга, позволяющее разобраться в бесконечном потоке воспринимаемой информации и сохранять ориентацию в океане разрозненных данных о внешнем мире. Воспринимая внешний мир, мы всегда производим классификацию воспринимаемых ощущений, т. е. разбиваем их на группы похожих, но не тождественных явлений. Например, несмотря на существенное различие, к одной группе относятся все буквы А, написанные различными почерками, или все звуки, которые соответствуют одной и той же ноте, взятой в любой октаве и на любом инструменте, а оператор, управляющий техническим объектом, на целое множество состояний объекта реагирует одной и той же реакцией. Характерно, что для составления понятия о группе восприятий определенного класса достаточно ознакомиться с незначительным количеством ее представителей. Ребенку можно показать всего один раз какую-либо букву, чтобы он смог найти эту букву в тексте, написанном различными шрифтами, или узнать ее, даже если она написана в умышленно искаженном виде. Это свойство мозга позволяет сформулировать такое понятие, как образ.

Образы обладают характерным свойством, проявляющимся в том, что ознакомление с конечным числом явлений из одного и того же множества дает возможность узнавать сколь угодно большое число его представителей. Примерами образов могут быть: река, море, жидкость, музыка Чайковского, стихи Маяковского и т. д. В качестве образа можно рассматривать и некоторую совокупность состояний объекта управления, причем вся эта совокупность состояний характеризуется тем, что для достижения заданной цели требуется одинаковое воздействие на объект . Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты. Именно эта объективность образов позволяет людям всего мира понимать друг друга.

Способность восприятия внешнего мира в форме образов позволяет с определенной достоверностью узнавать бесконечное число объектов на основании ознакомления с конечным их числом, а объективный характер основного свойства образов позволяет моделировать процесс их распознавания. Будучи отражением объективной реальности, понятие образа столь же объективно, как и сама реальность, а поэтому может быть само по себе объектом специального исследования.

В литературе, посвященной проблеме обучения распознавания образов (ОРО), часто вместо понятия образа вводится понятие класса.

Проблема обучения распознаванию образов (ОРО)

Одним из самых интересных свойств человеческого мозга является способность отвечать на бесконечное множество состояний внешней среды конечным числом реакций. Может быть, именно это свойство позволило человеку достигнуть высшей формы существования живой материи, выражающейся в способности к мышлению, т. е. активному отражению объективного мира в виде образов, понятий, суждений и т. д. Поэтому проблема ОРО возникла при изучении физиологических свойств мозга.

Рассмотрим пример задач из области ОРО.

Рис. 3.1.

Здесь представлены 12 изображений, и следует отобрать признаки, при помощи которых можно отличить левую триаду картинок от правой. Решение данных задач требует моделирования логического мышления в полном объеме.

Проблема обучения распознаванию образов интересна как с прикладной, так и с принципиальной точки зрения. С прикладной точки зрения решение этой проблемы важно прежде всего потому, что оно открывает возможность автоматизировать многие процессы, которые до сих пор связывали лишь с деятельностью живого мозга. Принципиальное значение проблемы тесно связано с вопросом, который все чаще возникает в связи с развитием идей кибернетики: что может и что принципиально не может делать машина? В какой мере возможности машины могут быть приближены к возможностям живого мозга? В частности, может ли машина развить в себе способность перенять у человека умение производить определенные действия в зависимости от ситуаций, возникающих в окружающей среде? Пока стало ясно только то, что если человек может сначала сам осознать свое умение, а потом его описать, т. е. указать, почему он производит действия в ответ на каждое состояние внешней среды или как (по какому правилу) он объединяет отдельные объекты в образы, то такое умение без принципиальных трудностей может быть передано машине. Если же человек обладает умением, но не может объяснить его, то остается только один путь передачи умения машине - обучение примерами.

Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями. В каждой из таких задач анализируются некоторые явления, процессы, состояния внешнего мира, всюду далее называемые объектами наблюдения. Прежде чем начать анализ какого-либо объекта, нужно получить о нем определенную, каким-либо способом упорядоченную информацию. Такая информация представляет собой характеристику объектов, их отображение на множестве воспринимающих органов распознающей системы.

Но каждый объект наблюдения может воздействовать на нас по-разному, в зависимости от условий восприятия. Например, какая-либо буква, даже одинаково написанная, может в принципе как угодно смещаться относительно воспринимающих органов. Кроме того, объекты одного и того же образа могут достаточно сильно отличаться друг от друга и, естественно, по-разному воздействовать на воспринимающие органы.

Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы.

При решении задач управления методами распознавания образов вместо термина "изображение" применяют термин "состояние". Состояние - это определенной формы отображение измеряемых текущих (или мгновенных) характеристик наблюдаемого объекта. Совокупность состояний определяет ситуацию. Понятие "ситуация" является аналогом понятия "образ". Но эта аналогия не полная, так как не всякий образ можно назвать ситуацией, хотя всякую ситуацию можно назвать образом.

Ситуацией принято называть некоторую совокупность состояний сложного объекта, каждая из которых характеризуется одними и теми же или схожими характеристиками объекта. Например, если в качестве объекта наблюдения рассматривается некоторый объект управления, то ситуация объединяет такие состояния этого объекта, в которых следует применять одни и те же управляющие воздействия. Если объектом наблюдения является военная игра , то ситуация объединяет все состояния игры, которые требуют, например, мощного танкового удара при поддержке авиации.

Выбор исходного описания объектов является одной из центральных задач проблемы ОРО. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной, и наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработке информации, либо вообще к отсутствию решения. Например, если решается задача распознавания объектов, отличающихся по цвету, а в качестве исходного описания выбраны сигналы, получаемые от датчиков веса, то задача распознавания в принципе не может быть решена.