Главная страница «Первого сентября»Главная страница журнала «Информатика»Содержание №20/2009


Теоретические основы информатики

Искусственный интеллект: популярное введение для учителей и школьников

Дальнейшее развитие идеи персептрона

Нейронная сеть простейшего типа — персептрон, которую мы рассмотрели в предыдущем изложении, была предназначена для классификации цифр и распознавания букв. Можно попытаться использовать персептрон для решения других практических задач, например, ставить диагнозы болезней. Все зависит от того, какой смысл придавать входному вектору xj и выходному вектору yi. Однако для таких задач, как прогнозирование погоды, температуры воздуха, прогнозирование котировок акций и курсов валют, такой персептрон не годится, т.к. он может выдавать только бинарные результаты типа “ноль” и “единица”.

Круг решаемых задач значительно расширится, если научить персептрон выдавать не только бинарные выходные сигналы, но и аналоговые, т.е. имеющие непрерывные значения. Такое развитие персептрона было сделано американскими учеными Б.Уидроу и М.Е. Хоффом, которые вместо ступенчатой ввели непрерывную нелинейную функцию активации

                                                      (13)

график которой изображен на рис. 1.

Эту функцию назвали сигмоидой, за то, что ее графическое изображение напоминает латинскую букву “S”. Другое название сигмоиды — логистическая функция. Для сигмоиды приняли обозначение .

 

Рис. 1. Сигмоидная активационная функция

Появление персептронов с непрерывными активационными функциями обусловило появление новых подходов к их обучению. Уидроу и Хофф предложили минимизировать квадратичную ошибку, определяемую формулой:

                                           (14)

в которой, как и раньше, di — требуемый (желаемый) выход i-го нейрона, а yi — выход, который получился в результате вычислений персептрона.

Рассмотрим алгоритм коррекции весовых коэффициентов персептрона, имеющего J входов и I выходов (рис. 2 на с. 27).

Квадратичная ошибка обучения персептрона зависит от того, какими являются весовые коэффициенты wij. Другими словами, является функцией от весовых коэффициентов: .

В школьных курсах обычно изучаются функции только от одного аргумента: y = y(x), которые на координатной плоскости x, y изображаются в виде кривых линий. Если функция z зависит от двух аргументов: z = z(x, y), то она изображается в трехмерной системе координат x, y, z в виде поверхности. Функция-ошибка персептрона зависит от большого количества аргументов wij, поэтому для ее графического представления требуется многомерная система координат, которую мы в нашем трехмерном мире представить себе не можем. В этой многомерной системе координат функция изображается в виде многомерной поверхности, называемой гиперповерхностью.

Чтобы хоть как-то представить себе гиперповерхность, предположим, что все аргументы wij “заморожены”, т.е. не меняются, за исключением двух, например, w11 и w12, которые являются переменными. Тогда в трехмерной системе координат w11, w12 гиперповерхность будет иметь вид фигуры, напоминающей параболоид, которую назовем псевдопараболоидом (рис. 3). Процесс обучения персептрона теперь можно представить как отыскание такого сочетания весовых коэффициентов wij, которому соответствует самая нижняя точка гиперпсевдопараболоида. Задачи подобного рода называются оптимизационными. Говорят, что оптимизационная задача состоит в минимизации функции в многомерном пространстве параметров wij.

 

Рис. 2. Однослойный персептрон с J входами и I выходами

 

Рис. 3. Графическое изображение функции-ошибки персептрона  в трехмерной системе координат w11, w12, (wij)

Таким образом, если раньше говорили, что персептрон обучают методом “поощрения–наказания”, то теперь стали говорить, что задача обучения персептрона — это задача оптимизации (минимизации) персептронной ошибки (иногда ее называют погрешностью).

Существует множество методов решения оптимизационных задач. Наиболее простым методом является перебор весовых коэффициентов wij с последующими вычислениями и сравнениями между собой соответствующих этим коэффициентам значений функции . Более эффективен метод градиентного спуска, согласно которому изменение (коррекция) каждого весового коэффициента wij производится в сторону, противоположную градиенту функции .

Градиент функции является очень важным математическим понятием, которое обычно проходят на первых курсах вузов. Здесь мы не будем на нем останавливаться, а только укажем, что градиент функции представляет собой вектор, проекциями которого на оси координат являются производные от функции e по этим координатам (их обозначают ), и что градиент функции всегда направлен в сторону ее наибольшего возрастания. Поскольку наша задача состоит в отыскании минимума функции , то нам надо опускаться по поверхности ошибок, что обеспечивается движением в сторону, противоположную градиенту этой функции. Отсюда и упомянутое выше название — метод градиентного спуска.

Движение в сторону, противоположную градиенту (т.е. противоположную направлению возрастания функции), будет осуществляться, если на каждой итерации к координатам текущей точки wij мы будем добавлять величину, прямо пропорциональную производной по координате wij, взятую с противоположным знаком:

                                                (15)

где — некоторый коэффициент, обычно задаваемый в пределах от 0,05 до 1, и называемый, как и раньше, коэффициентом скорости обучения.

Обратите внимание, что согласно формуле (15) мы движемся не только в сторону убывания функции, но и со скоростью, прямо пропорциональной скорости убывания (крутизне) функции, т.к. делаем шаг wij , пропорциональный производной, взятой со знаком минус.

Квадратичная ошибка e является сложной функцией, зависящей в первую очередь от выходных сигналов персептрона yi, которые, в свою очередь, зависят от wij, т.е. . По правилу дифференцирования сложной функции

                                                  (16)

 Выходные сигналы нейронов вычисляются с помощью сигмоидных активационных функций , аргументом которых являются суммы . Следовательно,

                             (17)

Кроме того, если продифференцировать (14) по yn, где то получится , значит,

                                                (18)

Подставив (17) и (18) в (16) и затем полученное выражение в (15), окончательно будем иметь

               (19)

Это выражение получено для нейронов с активационными функциями любого вида. Если — сигмоида, заданная формулой (13), то

                           (20)

Подставив это выражение в (19), получим:

                              (21)

Итак, мы получили итерационную формулу для обучения персептрона

                    (22)-(24)

Введенную здесь с помощью формулы (24) величину в дальнейшем будем называть нейронной ошибкой. Алгоритм (22)–(24) называют обобщенным дельта-правилом. Его преимущество по сравнению с обычным дельта-правилом состоит в более быстрой сходимости и в возможности более точной обработки входных и выходных непрерывных сигналов, т.е. в расширении круга решаемых персептронами задач.

Коротко о главном

Введение сигмоидной функции активации вместо функции-ступеньки и появление нового алгоритма обучения — обобщенного дельта-правила, расширило область применения персептрона. Теперь он может оперировать не только с бинарными (типа “ноль” и “единица”), но и с непрерывными (аналоговыми) выходными сигналами.

Рекомендации по проведению урока

Начните урок с повторения пройденного материала. Напомните школьникам (или спросите их), с какими свойствами персептрона они познакомились, выполняя лабораторные работы.

Ответ должен быть примерно таким.

Выполняя лабораторные работы, школьники убедились в том, что гипотеза Мак-Каллока – Питтса подтвердилась: нейронная сеть (персептрон), сконструированная из математических нейронов, научилась решать сложнейшую интеллектуальную задачу — распознавать образы (буквы алфавита).

Каждый из нас с задачами распознавания образов обычно справляется с легкостью. Наш мозг решает эти задачи ежеминутно и ежесекундно, когда мы узнаем окружающую обстановку, узнаем друг друга. Мы узнаем друг друга, несмотря на то, что наши лица и мы сами со временем изменяемся, а кое-кто пользуется макияжем. Макияж искажает запомненные ранее образы, но мы все равно их узнаем. Мы узнаем их потому, что наш мозг обладает свойством обобщения.

Выполнив лабораторные работы, мы убедились, что свойством обобщения обладает не только мозг, но и модель мозга — персептрон.

Далее приступайте к изложению нового материала, который полезно излагать в историческом ракурсе. Отметьте, что успех первого персептрона в решении задачи распознавания букв латинского алфавита был впечатляющим. Появились надежды, что персептрон сможет решать и другие интеллектуальные задачи, такие, как прогнозирование погоды, предсказание курсов валют и котировок акций, постановка диагнозов заболеваний и др. Но персептрон мог оперировать только с бинарными входными и выходными значениями типа “ноль” и “единица”. Для расширения области его применения была введена сигмоидная активационная функция.

Далее идет изложение приведенного выше теоретического материала. Написав на доске формулу (15), проанализируйте ее. Пусть школьники вспомнят геометрический и физический смысл производной. Задайте им этот вопрос и, получив в ответ: “производная — это тангенс угла наклона касательной к кривой, изображающей функцию; она характеризует скорость возрастания функции, т.е. ее крутизну”, обратите внимание, что согласно формуле (15) мы даем приращение весовым коэффициентам прямо пропорциональное величине производной, взятой со знаком минус. Следовательно, мы движемся в сторону убывания функции со скоростью, пропорциональной скорости убывания, т.к. чем круче функция, тем больше по модулю ее производная, и тем больше мы делаем шаг в сторону ее убывания.

Изложение материала заканчивается выводом: введение сигмоидной функции активации вместо функции-ступеньки и появление нового алгоритма обучения — обобщенного дельта-правила, расширило область применения персептрона. Теперь он может оперировать не только с бинарными, но и с непрерывными выходными сигналами.

Примечание. Понятие градиента функции нескольких переменных и операции с дифференцированием сложных функций могут вызвать у школьников затруднения. Поэтому математические выкладки (16)–(21) можно опустить, а привести только заключительные формулы алгоритма обобщенного дельта-правила: (22)–(24).

Вопросы и задания с ответами и комментариями

1. Нарисуйте графическое изображение сигмоидной активационной функции и напишите ее математическую формулу.

Ответ: См. рис. 1 на с. 26 и формулу (13).

2. Чем сигмоидная функция активации лучше (или хуже) функции-ступеньки?

Ответ: Функция-ступенька может принимать только два значения: 0 и 1 (иногда 1 и –1), а сигмоидная активационная функция принимает любые значения из интервала (0, 1) (иногда –1, 1). Поэтому с помощью нейросетей с сигмоидными нейронами можно моделировать процессы и явления, характеризующиеся не бинарными, а непрерывными величинами. Например — температура воздуха, курс доллара и т.д.

3. Чем сигмоидная активационная функция отличается от логистической?

Ответ: Ничем. Это синонимы.

4. Напишите формулу для вычисления квадратичной ошибки персептрона. От каких величин она зависит?

Ответ: См. формулу (14). Согласно этой формуле квадратичная ошибка персептрона e зависит от суммы квадратов разностей между желаемыми значениями выходных сигналов всех нейронов di и их прогнозными выходными сигналами yi. Однако эти разности, в свою очередь, зависят от того, какими являются весовые коэффициенты wij. Таким образом, является функцией от весовых коэффициентов wij, т.е. .

5. Для чего нужен множитель 1/2 в формуле для квадратичной ошибки обучения персептрона? Что будет, если этот множитель не использовать?

Ответ: Множитель 1/2 в формуле для квадратичной ошибки позволяет избавиться от двойки, которая появляется в последующих выкладках при дифференцировании этой формулы. Если множитель 1/2 не вводить, то появляющаяся при дифференцировании двойка вошла бы в окончательные итерационные формулы, однако от нее можно было бы избавиться, например, введя ее в коэффициент скорости обучения .

6. В виде какой геометрической фигуры изображается квадратичная ошибка обучения персептрона?

Ответ: В виде гиперпсевдопараболоида. Приставка “гипер-” означает, что фигура является многомерной, а приставка “псевдо-” означает, что вертикальными сечениями гиперпсевдопараболоида являются не параболы, а линии, весьма отдаленно напоминающие параболы.

7. Чем гиперпсевдопараболоид отличается от псевдопараболоида?

Ответ: Псевдопараболоид — это поверхность в трехмерном пространстве, напоминающая параболоид. Гиперпсевдопараболоид — это поверхность в n-мерном пространстве, проекцией которой на трехмерное пространство является псевдопараболоид.

8. Что собой представляет градиент функции? В какую сторону он направлен?

Ответ: Градиент функции y = y(xi) представляет собой вектор, проекциями которого на оси координат являются производные от y по этим координатным осям. Градиент функции всегда направлен в сторону ее наибольшего возрастания.

9. В чем суть метода градиентного спуска?

Ответ: Метод градиентного спуска — это итерационный метод поиска точки минимума функции многих переменных. Направление итерационного движения текущей точки выбирается в сторону антиградиента, а само движение осуществляется со скоростью, пропорциональной его величине.

10. Попробуйте применить алгоритм метода градиентного спуска к задаче поиска точки минимума функции y = x2

Ответ: Согласно методу градиентного спуска организуется вычислительный процесс по итерационной формуле: . (При выводе этих формул можно опираться на формулу (15).) Задавшись, например, коэффициентом =0,4 и начальным приближением x(0) = 5, применяя итерационную формулу, получим: x(1) = 1, x(2) = 0,2, x(3) = 0,04 и т.д. Видим, что вычислительный процесс быстро сходится к решению оптимизационной задачи: x = 0.

11. Напишите формулы итерационного процесса, соответствующего обобщенному дельта-правилу.

Ответ: См. формулы (22)–(24).

12. Можно ли применять алгоритм обычного (необобщенного) дельта-правила для обучения персептрона с сигмоидными активационными функциями?

Ответ: Можно, но обобщенное дельта-правило эффективнее.

13. Можно ли применять обобщенное дельта-правило для обучения персептрона со ступенчатыми активационными функциями?

Ответ: Нельзя, т.к. при выводе итерационных формул необходимо найти производную от активационной функции, а производная может быть определена только от непрерывных функций.

14. Какие преимущества и какие недостатки имеет обобщенное дельта-правило перед необобщенным?

Ответ: Преимущество обобщенного дельта-пра­вила состоит в том, что этот метод обучения является градиентным и потому обеспечивает более быструю сходимость. В качестве недостатка обобщенного дельта-правила можно указать на невозможность его применения для обучения нейросетей, нейроны которых имеют ступенчатые активационные функции.

Ограниченность однослойного персептрона

Как уже отмечалось ранее, Ф.Розенблатту удалось обучить свой персептрон распознавать буквы алфавита. Это был колоссальный успех: Электронное устройство, созданное по образу и подобию человеческого мозга, обученное подобно человеку, успешно моделировало интеллектуальные функции человека. Это был успех в познании самой природы человеческого мышления. Мозг начал раскрывать свои тайны. Появилась возможность исследовать мозг методами моделирования, не прибегая к сложнейшим антигуманным и мало что дающим натурным экспериментам. Это была сенсация, приковавшая к себе внимание мыслящих людей всего мира. Казалось, что ключ к интеллекту был найден и полное воспроизведение человеческого мозга и всех его функций — всего лишь вопрос времени. Писателям-фантастам, ученым, инженерам, бизнесменам, политикам виделись самые радужные перспективы практического применения идей искусственного интеллекта. Правительство Соединенных Штатов Америки выделило крупные субсидии на развитие нового перспективного научного направления.

Класс решаемых нейросетями задач расширялся. Делались попытки применения персептронов для решения задач прогнозирования, таких, как предсказание погоды, курсов валют и акций. Персептроны пытались применять для анализа электрокардиограмм, для решения задач медицинской диагностики.

Но по мере расширения фронта научных исследований появлялись трудности. Неожиданно оказалось, что многие новые задачи персептрон решить не мог. Причем эти новые задачи внешне практически ничем не отличались от тех, с которыми персептрон успешно справлялся ранее. Возникла необходимость объяснения парадоксов, глубокого анализа и создания теоретической базы нейроинформатики.

Следующий период истории искусственного интеллекта начался с появления в 1969 г. книги двух известных американских математиков М.Минского и С.Пейперта “Персептроны”. Авторы этой книги математически строго доказали, что использовавшиеся в то время однослойные персептроны в принципе не способны решать многие простые задачи. Одну из таких задач, вошедшую в историю нейроинформатики под названием «проблемы “Исключающего ИЛИ”», мы рассмотрим подробно.

“Исключающее ИЛИ” — это логическая функция двух аргументов, каждый из которых может иметь значение “истинно” либо “ложно”. Сама она принимает значение “истинно”, когда только один из аргументов имеет значение “истинно”. Во всех остальных случаях эта функция принимает значение “ложно”. Если закодировать значение “истинно” единицей, а значение “ложно” — нулем, то требуемое соответствие между аргументами x1, x2 и самой функцией y можно представить в виде табл. 3, называемой “таблицей истинности логической функции”.

Таблица 3

Задача состоит в том, чтобы научиться моделировать функцию “Исключающее ИЛИ” с помощью однонейронного персептрона с двумя входами x1 и x2 и одним выходом y (рис. 4).

 

Рис. 4. Однонейронный персептрон с двумя входами и одлним выходом

М.Минский и С.Пейперт в своей книге предложили геометрическую интерпретацию к проблеме “Исключающего ИЛИ”, состоящую в следующем. Они предложили изобразить на координатной плоскости , все возможные комбинации входных сигналов в виде четырех точек: A, B, C, D, как показано на рис. 5. Точка A имеет координаты x1 = 0, x2 = 0; точка B имеет координаты x1 = 0, x2 = 1 и т.д. согласно табл. 4.

Рис. 5. Геометрическая интерпретация к объяснению проблемы "Исключающего ИЛИ"

Таблица 4

Таблица истинности логической функции
“Исключающее ИЛИ”, дополненная точками A, B, C, D

Тогда в точке A выход персептрона y должен быть равен нулю, в точке B — единице, в точке C — единице и в точке D — нулю.

Как известно, однонейронный персептрон (рис. 4) со ступенчатой активационной функцией осуществляет преобразование

                                        (26-27) 

Заменим в уравнении (26) S на :

                                            (28)

Если в этом уравнении величины x1 и x2 считать переменными, а , w1 и w2 — константами, то на координатной плоскости x1, x2 рассматриваемое уравнение изобразится в виде прямой линии, положение и наклон которой определяются значениями коэффициентов w1, w2 и порога . Для всех точек плоскости x1, x2, лежащих на этой линии, выполняется равенство S = и поэтому, согласно формуле (27), выход персептрона равен единице. Для точек, лежащих выше указанной линии, сумма x1w1 + x2w2 больше чем , и поэтому по формулам (26)–(27) выход персептрона также равен единице, а для точек, лежащих ниже этой линии, сумма x1w1 + x2w2 меньше чем , и выход персептрона равен нулю. Поэтому линию, изображающую уравнение (28), называют пороговой прямой.

А теперь посмотрим на таблицу истинности функции “Исключающее ИЛИ” (табл. 4). Согласно этой таблице в точках A и D выход персептрона должен быть нулевым, а в точках B и C — единичным. Но для этого надо расположить пороговую прямую так, чтобы точки A и D лежали ниже этой линии, а точки B и C — выше, что невозможно. Это значит, что, сколько бы персептрон ни обучали, какие бы значения ни придавали его синаптическим весам и порогу, персептрон в принципе не способен воспроизвести соотношение между входами и выходом, требуемое таблицей истинности функции “Исключающее ИЛИ”.

Помимо проблемы “Исключающего ИЛИ”, в упомянутой выше книге М.Минский и С.Пейперт привели ряд других задач, в которых точки, изображающие входные сигналы, не могут быть разделены пороговой прямой (в многомерных случаях — плоскостью, гиперплоскостью). Такие задачи получили название линейно неразделимых.

После выхода в свет книги М.Минского и С.Пейперта “Персептроны” всем стало ясно, что активно предпринимавшиеся в то время попытки обучать персептроны решению многих задач, которые, как оказалось, относятся к классу линейно неразделимых, с самого начала были обречены на провал. Это была пустая трата времени, сил и финансовых ресурсов.

Коротко о главном

Однонейронный персептрон не позволяет моделировать логическую функцию “Исключающее ИЛИ” и решать другие линейно неразделимые задачи.

Рекомендации по проведению урока

Снова напомните школьникам об успехах персептрона, о его способности решать сложные интеллектуальные задачи, такие, как распознавание букв алфавита. Напомните о способности персептрона узнавать образы, которые он никогда “не видел”. Спросите школьников, как называется это свойство мозга и почему оно передалось персептрону.

Ответ: Это свойство называется свойством обобщения. Оно передалось персептрону от мозга, потому что персептрон является моделью мозга, выполненной по его образу и подобию.

Напомните школьникам (или попросите их вспомнить) о том, что благодаря введению сигмоидной функции активации и изобретению обобщенного дельта-правила персептрон стал способен оперировать не только с бинарными, но и с непрерывными сигналами.

И опять советуем обратиться к историческим фактам, которые состоят в следующем.

Получив первые обнадеживающие результаты, ученые стали пытаться применять персептрон для решения более широкого круга важных в практическом отношении задач, таких, как прогнозирование погоды, прогнозирование курсов валют и котировок акций и др. Решение этих задач сулило большие прибыли бизнесменам, и они наряду с правительством США не скупились инвестировать в новое перспективное научное направление. Они мечтали научиться предсказывать поведение финансовых рынков, мечтали использовать умные машины в качестве советчиков при принятии важных экономических решений. Но решение новых задач натолкнулось на новые проблемы. Почему-то персептрон успешно справлялся с одними задачами, но не мог решать другие, казалось, ничем не отличающиеся по сложности задачи. Предпринимались отчаянные попытки обучения персептронов за счет наращивания мощности электронно-вычислительных машин. Но эти попытки приводили к затратам денег и времени, но не к успеху.

Разобраться в проблеме помогли геометрические интерпретации, предложенные американскими математиками М.Минским и С.Пейпертом, изложенные ими в печально знаменитой книге “Персептроны”. Почему “печально” — потому что эта книга чуть было не положила конец нейроинформатике, задержав ее развитие на более чем двадцатилетний срок. Но об этом позже.

А пока напомните школьникам о первой лабораторной работе. Напомните им, что практически все они успешно подобрали параметры нейрона, моделирующего логические функции “И” и “ИЛИ”, но у них ничего не получилось с подбором параметров для нейрона, моделирующего функцию “Исключающее ИЛИ”. Нарисуйте на доске таблицы истинности (см. табл. 5) всех трех функций и предложите школьникам объяснить, почему с первыми двумя задачами они успешно справились, а с третьей — нет. Ведь внешне таблицы истинности всех трех функций мало чем различаются между собой.

Таблица 5

Маловероятно, что кто-нибудь из школьников предложит самостоятельное объяснение. Важно, чтобы они над этим задумались и с интересом восприняли ваше объяснение, суть которого заключается в следующем.

Добавьте к таблице истинности логических функций (табл. 5) слева еще один столбик и впишите туда названия точек: A, B, C, D (см. табл. 6).

Таблица 6

В координатной системе x1 x2 точка A имеет координаты x1 = 0, x2 = 0; точка B имеет координаты x1 = 0, x2 = 1 и т.д. согласно табл. 6. Расставьте эти точки в плоскости координат x1 x2  и проведите прямую линию, описываемую уравнением x1w1 + x2w2 = (см. рис. 5). Эта линия называется пороговой прямой. Для точек, лежащих на этой прямой, выполняется равенство x1w1 + x2w2 = и, значит, S = . Поэтому согласно формуле (27) для таких параметров персептрона его выход равен единице. Для точек, лежащих выше пороговой прямой, выполняется неравенство S > , поэтому выход персептрона тоже равен единице, а для точек, лежащих ниже пороговой прямой, S < , и поэтому выход персептрона равен нулю.

После этого предложите школьникам провести пороговую прямую так, чтобы соответствующий ей однонейронный персептрон моделировал функцию “ИЛИ”. Это значит, что согласно табл. 6 точки B, C и D должны лежать выше, а точка A — ниже пороговой прямой. Такое расположение пороговой прямой показано на рис. 6.

 

Рис. 6. Геометрическая интерпретация персептрона, моделирующего логическую функцию "ИЛИ"

Теперь предложите школьникам провести пороговую прямую так, чтобы соответствующий ей однонейронный персептрон моделировал функцию “И”. Это значит, что согласно табл. 6 точка D должна лежать выше, а точки A, B и C — ниже пороговой прямой, как показано на рис. 7.

 

Рис. 7. Геометрическая интерпретация персептрона, моделирующего логическую функцию "И"

И, наконец, предложите школьникам провести пороговую прямую так, чтобы соответствующий ей однонейронный персептрон моделировал функцию “Исключающее ИЛИ”. Это значит, что согласно табл. 6 точки B и C должны лежать выше пороговой прямой, а точки A и D — ниже этой прямой.

В ответ вы услышите: “Это сделать невозможно”.

Вам осталось подвести итог. Спросите школьников, понятно ли им, почему на 1-й лабораторной работе никому из них не удалось подобрать параметры нейрона, моделирующего функцию “Исключающее ИЛИ”. Успокойте школьников, сообщив им, что не одни они напрасно тратили время. В середине XX в. многие ученые, имеющие отношение к компьютерным наукам, пытались обучить однослойные персептроны решать аналогичные проблемы. И только два математика — М.Минский и С.Пейперт — с помощью приведенной выше геометрической интерпретации объяснили всему миру, почему не следует этим заниматься.

Теперь было бы очень полезно усадить учащихся за компьютеры и предложить им повторно выполнить лабораторную работу № 1. Теперь они должны понимать, что означают фигуры в нижней части экрана. Это геометрические интерпретации Минского – Пейперта: справа — в плоском исполнении, по середине — в объемном. Пороговая прямая отделяет красную область от зеленой. В красной области нейрон возбужден и на его выходе — единица. В зеленой области — ноль. Варьируя параметрами W1, W2, q, школьники меняют положение пороговой прямой, добиваясь, чтобы персептрон моделировал функции “И” и “ИЛИ”.

В итоге учащиеся должны понимать, почему однонейронный персептрон не способен моделировать функцию “Исключающее ИЛИ”, должны знать, что означает термин “линейно неразделимая задача”. Они должны уметь давать геометрическую интерпретацию процесса работы персептрона при моделировании логических функций.

Вопросы и задания с ответами и комментариями

1. Нарисуйте таблицы истинности логических функций “И”, “ИЛИ”, “Исключающее ИЛИ”.

Ответ: См. табл. 6.

2. Перерисуйте рис. 5 и начертите на нем пороговую прямую так, чтобы однонейронный персептрон, параметры которого соответствуют нарисованной вами пороговой прямой, моделировал:

— логическую функцию “ИЛИ”,

— логическую функцию “И”.

Ответ: См. рис. 6 и 7.

3. Пользуясь вашим рисунком, объясните, почему однонейронный персептрон не может моделировать функцию “Исключающее ИЛИ”.

Ответ: Потому что невозможно провести пороговую прямую так, чтобы точки A и D лежали по одну сторону от нее, а точки B и C — по другую.

4. Дайте определение линейно неразделимых задач.

Ответ: Задачи, для которых точки, изображающие входные сигналы, не могут быть разделены пороговой прямой (пороговой плоскостью или пороговой гиперплоскостью), называются линейно неразделимыми.

5. Дайте определение пороговой прямой.

Ответ: Пороговая прямая — это линия на плоскости x1x2, которая отделяет возбужденное состояние нейрона от невозбужденного.

6. Подумайте над тем, как заставить персептрон решать линейно неразделимые задачи.

Ответ: Этот вопрос является предметом следующего урока.

Решение проблемы “Исключающего ИЛИ”

Появление книги М.Минского и С.Пейперта “Персептроны” вызвало шок в научном мире. Строгие математические доказательства М.Минского и С.Пейперта были неуязвимы. Всеобщий энтузиазм сменился не менее всеобщим пессимизмом. В газетах стали появляться критические статьи с сообщениями о том, что ученые мужи в своих исследованиях зашли в тупик, впустую израсходовав деньги налогоплательщиков. Правительство США немедленно прекратило финансирование нейропроектов и приступило к поискам виновных в растрате государственных денег. Бизнесмены, потерявшие надежду вернуть вложенные капиталы, отвернулись от ученых, и нейроинформатика была предана забвению, длившемуся более 20 лет.

Тем не менее работы в области нейросетевых и нейрокомпьютерных технологий продолжались отдельными энтузиастами. Работы продолжались в засекреченных научно-исследовательских институтах Советского Союза, отделенного в то время от Запада “железным занавесом”. Не имея информации о настроениях зарубежных коллег, советские ученые спокойно продолжали заниматься захватившей их умы темой и к началу 80-х гг. удивили мир появлением ракет и самолетов, управлявшихся компьютерами нового поколения — нейрокомпьютерами. Советские компьютеры в отличие от американских стойко переносили довольно серьезные повреждения, продолжая работать в сложных условиях, что было особенно важно для объектов военного назначения. Выявилось еще одно свойство нейрокомпьюторов, унаследованное ими от мозга, — свойство живучести.

Советским ученым С.О. Мкртчаном была издана книга “Нейроны и нейронные сети. Введение в теорию формальных нейронов”, в которой он показал, что с помощью многослойных персептронов может быть смоделирована любая логическая функция, если только известна ее логическая формула. Более того, им был разработан специальный математический аппарат, позволяющий конструировать такие персептроны. Оказалось, что проблема “Исключающего ИЛИ”, явившаяся камнем преткновения для однонейронного персептрона, может быть разрешена с помощью нейронной сети, состоящей из трех нейронов — трехнейронного персептрона, изображенного на рис. 8.

 

Рис. 8. Нейронная сеть, моделирующая функцию "Исключающее ИЛИ"

Работа этого персептрона происходит по следующему алгоритму.

Задавшись значением порога = 0,05 и заполнив с помощью этих формул табл. 7, легко убедиться, что трехнейронный персептрон успешно моделирует функцию “Исключающее ИЛИ”.

Таблица 7

Впоследствии было показано, что и другие линейно неразделимые задачи, приведенные в книге М.Минского и С.Пейперта, могут быть решены с помощью нейросетей, содержащих один или несколько скрытых нейронных слоев, т.е. слоев нейронов, расположенных между входным и выходным слоями.

Многие исследователи понимали, что нужно создавать нейросети более сложной архитектуры, содержащие скрытые слои нейронов, но не представляли, как такие сети обучать. Правила Хебба и дельта-правило годились только для корректировки синаптических весов нейронов выходного слоя, тогда как вопрос о настройке параметров скрытых нейронных слоев оставался открытым.

Коротко о главном

Логическую функцию “Исключающее ИЛИ” может моделировать нейронная сеть, состоящая из трех нейронов, изображенная на рис. 8.

Рекомендации по проведению урока

Опытные преподаватели знают, что изложение теоретического материала иногда полезно вести в историческом ракурсе, украшать его интересными историческими фактами и легендами.

Школьники только что убедились в силе и пользе геометрических интерпретаций М.Минского и С.Пейперта, объяснивших причины неудач, постигших их при выполнении 1-й лабораторной работы. Более полувека назад в глупом положении оказались не только школьники, но и множество ученых и инженеров всего мира, пытавшихся решать проблемы, не имеющие решений. В весьма затруднительном положении оказались политические деятели и бизнесмены, вкладывающие деньги в “бесперспективное научное направление”.

Но этот интересный исторический факт имел не менее интересное продолжение. Американские политические деятели и бизнесмены незамедлительно отреагировали на книгу М.Минского и С.Пейперта, прекратив всякое финансирование “авантюрных” научных работ. Развитие нейроинформатики на Западе было практически остановлено на более чем 20-летний срок.

По-другому складывалась ситуация в СССР. Между СССР и США шла холодная война, набирала обороты гонка вооружений. Советские ученые были отделены от Запада “железным занавесом”. Не имея информации о настроениях иностранных коллег, они продолжали спокойно заниматься проблемами искусственного интеллекта в своих засекреченных научно-исследовательских институтах. И каково же было удивление американцев, когда в 80-х гг. они узнали о появлении советских ракет, управляемых нейрокомпьютерами. Причем советские ракеты и самолеты обладали большей неуязвимостью по сравнению с иностранными, поскольку нейрокомпьютеры унаследовали от мозга еще одно замечательное качество. Они, как и мозг, продолжали работать и выдавать верные решения при выходе из строя довольно значительной части нейронов.

Виноватыми в случившемся опять оказались ученые. Спустя 20 лет после публикации своих математических интерпретаций М.Минскому пришлось выступить с публичным оправдательным заявлением. Он высказал сожаление о том, что его работы были неверно истолкованы общественностью, и не его вина в том, что его книга явилась причиной возникшего отставания США от СССР в науке и в гонке вооружений.

После такого вступления можно не сомневаться, что теоретический материал урока будет воспринят с живейшим интересом. При его изложении можно ограничиться тем, что нарисовать на доске схему трехнейронного персептрона (рис. 8), решающего проблему “Исключающего ИЛИ”, а формулы, по которым работают его нейроны, попросить написать учеников. Заполнение табл. 7 можно также предложить ученикам, чтобы они сами убедились в способности трехнейронного персептрона моделировать функцию “Исключающее ИЛИ”.

В качестве домашнего задания можно предложить школьникам попытаться изобразить рисунок с геометрической интерпретацией трехнейронного персептрона, моделирующего логическую функцию “Исключающее ИЛИ”. Ответы на вопросы, возникшие при выполнении этого задания, школьники найдут позже при выполнении лабораторной работы № 5.

В итоге учащиеся должны знать, каким образом решается проблема линейно неразделимых задач, уметь изображать персептрон, моделирующий функцию “Исключающее ИЛИ”, и уметь доказывать правильность его работы путем заполнения таблицы истинности (табл. 7).

Вопросы и задания с ответами и комментариями

1. Нарисуйте персептрон, моделирующий функцию “Исключающее ИЛИ”.

Ответ: См. рис. 8.

2. С помощью формул, описывающих работу математического нейрона, убедитесь, что нарисованный вами персептрон действительно моделирует функцию “Исключающее ИЛИ”.

Ответ: Для этого надо заново заполнить табл. 7.

3. Попробуйте изобразить другой персептрон (другой структуры), тоже способный моделировать логическую функцию “Исключающее ИЛИ”.

Ответ: Годится любой персептрон с двумя входами и одним выходом, имеющий хотя бы один скрытый слой нейронов с сигмоидными активационными функциями с числом скрытых нейронов не менее двух.

4. Почему не удается применять известные вам алгоритмы обучения (правила Хебба, дельта-правило, обобщенное дельта-правило) для обучения персептронов, моделирующих функцию “Исключающее ИЛИ”?

Ответ: Правила Хебба, дельта-правило и обобщенное дельта-правило позволяют корректировать весовые коэффициенты только выходного слоя нейронов. Как корректировать весовые коэффициенты нейронов скрытого слоя, остается неясным.

5. Попытайтесь придумать алгоритм обучения персептрона, содержащего один скрытый слой.

Ответ: Этому посвящен материал следующего урока.

Продолжение следует

Л.. Н.. Ясницкий

TopList