Как устроен диалог?
СРАЗУ ТЕЗИСЫ ВЫСТУПЛЕНИЯ, ДАЛЬШЕ ПОЛНЫЙ ТЕКСТ:
Как устроена коммуникация?
Разговор – спонтанное разговорное взаимодействие лицом к лицу.
Особенности разговора с роботом.
Человек эмоционален, он разговаривает также языком тела.
У робота этого нет.
В диалоге с людьми есть обратная связь (язык тела).
Каждый разговор двух людей он персонифицирован.
Люди могут одновременно говорить и слышать. А робот нет.
В разговоре людей присутствует согласованность – кто-то говорит, а кто-то молчит и слушает. С роботом нет согласованности.
В разговоре между людьми присутствует контекст.
Разговор между людьми – это не только язык и слова.
Разговор – это не только то, что один сказал, но и что другой понял.
Представление одного участника взаимодействия о том, что в голове другого, оказывается существенной частью происходящего.
Ребенок до определенного момента не умеет становиться на точку зрения другого человека, эта способность появляется по мере взросления, когда он начинает отличать мнение от знания и признает разные возможные точки зрения.
В разговоре важно совместное внимание.
Это базовая вещь, которая касается любой человеческой содержательной референциальной коммуникации – внимание, которое направлено у обоих партнеров на один и тот же предмет.
Высказывание – это работа не одного, а двух человек.
Для полноценного проявления личности нужно уметь ругаться.
Эмоциональное обение это неотъемлемая часть человеческого общения, вы можете даже с иностранцем так общаться на своем языке, при этом не передавая никакой информации об окружающем мире.
Искусственный разговор, примитивный и роботический, чаще всего представляет собой реакцию на предыдущую реплику. Это некие готовые паттерны, которые реагируют на то, что было.
Человеческий разговор устроен иначе.
Контекст участниками удерживается достаточно долго и это значит, что они нацелены на некоторую общую цель разговора. Это принципиально отличает человеческой разговор от более примитивных способов реагирования.
Когда человек играет в ассоциативную игру, у него в голове складывается некоторая картина, картина некоторого контекста. Те слова, которые называются, принадлежат одной ситуации, одному семантическому полю. Машина реагирует только на предыдущее слово, не более того. А реакция может быть взята из любого семантического поля.
Начинать разработку каких-то систем, в частности, связанных с использованием человеческого диалога, имеет смысл начиная с этнографии.
Возможно передавать чувства, это очень важная вещь для человека, и с роботом это необходимо.
Язык – это средство коммуникативного взаимодействия, но помимо него, есть и другие средства, которые используются совместно с языком. И эти средства опираются, в частности, на нашу погруженность в контекст. Это чрезвычайно важный момент, потому что современная технология отличается от технологии 20-летней давности именно своей чувствительностью к контексту.
ДАЛЬШЕ ПОЛНЫЙ ТЕКСТ
***
Илья Утехин. Фото Наташи Четвериковой
Мы публикуем стенограмму и видеозапись лекции, с которой 27 февраля 2017 года в рамках проекта «Публичные лекции “Полит.ру”» выступил профессор и декан Факультета антропологии Европейского университета в Санкт-Петербурге, доцент факультета Свободных искусств и наук СПбГУ, кандидат исторических наук Илья Утехин. Его доклад состоялся в Тургеневской библиотеке г. Москвы.
Б. Долгин: Добрый вечер, уважаемые коллеги! Мы возвращаемся к циклу «Публичные лекции «Полит.ру»» и начинаем большой подцикл, организованный «Полит.ру» совместно с Европейским университетом в Санкт-Петербурге.
Европейский университет является самой мощной площадкой за пределами Москвы, ни одна другая площадка за пределами Москвы не давала столько наших лекторов, и это не случайность. С другой стороны, нам казалось очень важным поддержать Европейский университет в дни так называемого «пожарного кризиса» и кажется очень важным поддержать Европейский университет сейчас, когда у этого, одного из ведущих вузов в сфере социально-гуманитарных дисциплин в России возникли совершенно искусственные проблемы, ему мешают работать.
Но речь идет не просто о жесте солидарности, а о том, что это – действительно ведущая площадка среди наших лекторов, оттуда происходит нынешний ректор Олег Хорхордин (с ним мы говорили о республиканской традиции и о том, как в ее свете выглядят российские общественные движения), научный руководитель Института проблем правоприменения Вадим Волков, с которым мы говорили о трансформации российского государства и о работе судов, Михаил Соколов – специалист в области социологии образования, науки, культуры, а также других отраслей социологического знания. Оттуда же известные политологи – именно политологи, а не политаналитики – Владимир Гельман и Григорий Голосов. Оттуда же работающая на стыке социологии (в частности – социологии права), права и экономики Мария Шклярук, тоже представляющая ИПП ЕУСПб. Руководителем лаборатории в ЕУ по мегагранту был и выступивший у нас как специалист в области изучения концептуализации авторского права Марио Бьяджоли. Европейский университет представлял в годы лекций у нас и социолог науки, образования, миграции и др. Даниил Александров. Оттуда же занимающийся вместе с Олегом Хархординым республиканской традицией Виктор Каплун. Я, кажется, все равно не всех перечислил.
Начинаем мы этот подцикл с Ильей Утехиным, профессором и деканом факультета антропологии Европейского университета в Санкт-Петербурге. В издательстве ОГИ когда-то вышла его книга об антропологии коммунального быта, но сегодня мы говорим о стыке разных интересов нашего лектора – когнитивной науки и антропологии.
Текст лекции
И. Утехин: Спасибо большое за представление, Борис. Здравствуйте, дорогие друзья. Очень лестно оказаться в этом ряду. И я всегда с удовольствием читаю стенограммы выступлений на «Полит.ру».
Я антрополог и этнограф, и меня всегда интересовало, как устроена коммуникация. Мы с вами живем в замечательное время, когда происходит много интересного, такого, что заставляет нас задуматься о человеческой природе и о тех феноменах, которые антропология традиционно изучала в несколько другой перспективе.
Я сейчас понимаю, что слово «диалог» могло неправильно срезонировать в душах потенциальной аудитории, и люди могли прийти, подумав, что тут будет что-то говориться о взаимопонимании, о том, как договариваются между собой. Я буду говорить про разговор. Про спонтанное разговорное взаимодействие лицом к лицу, которое представляет собой наиболее распространенную и базовую по отношению ко всем другим способам использования языка площадку, на которой мы пользуемся языком.
Прежде чем мы начнем говорить про разные свойства такого взаимодействия, я бы хотел показать вам в качестве затравки такой «кусочек из будущего». Сначала я скажу, что будет на экране. Это разговор мальчика восьми лет с маленьким роботом. Эти роботы еще не появились на прилавках магазинов игрушек, но скоро появятся. Наша студентка Анна Дегтева работает в проекте фирмы, которая делает речевой модуль для этого робота. Эта история вообще очень любопытна, потому что когда мы изнутри смотрим на то, как дизайн какого-то устройства появляется на свет, мы можем увидеть те обстоятельства, которые придают этому дизайну форму. Здесь внешнее обстоятельство состоит в том, что «железо» сделали в Китае, там ничего поменять нельзя, оно уже готово. «Распознавалка», которой этот девайс отправляет все это на сервер, тоже уже готова, с ней тоже уже ничего сделать нельзя. И голос, и интонация – все это уже предзадано и работает неидеально, во всяком случае, не так как хотелось. Можно только поменять какие-то вещи, которые касаются паттернов ответа, реакций. Что в результате получается? Давайте посмотрим.
Вообще-то, это видео нужно посмотреть дважды. Я бы попросил вас сначала посмотреть, обращая внимание на то, что роботу не удалось, где его провалы, где понятно, что это не человеческая коммуникация, где видно, над чем дизайнерам надо еще работать. А во второй раз – обратить внимание на то, что у него получилось. Где он ведет себя в этом диалоге так, как вело бы себя разумное существо. Это существенно разные подходы, едва ли можно за один просмотр успеть и то, и другое. Но попробуйте обращать внимание и на то, и на другое.
Робот: «Все пуддинги ходят в робошколу, чтобы совершенствовать свои программы».
Этого робота зовут Емеля. Есть легенда, согласно которой эти роботы – их почему-то называют «пуддинги» – с некой планеты, из созвездия Девы. То, что они не очень-то хорошо разбираются в окружающей действительности, как раз и объясняется этой легендой. Это удобно. Может быть, вы слышали про Лёбнеровскую премию? Это премия, которая дается программе, которая демонстрирует наибольшие успехи в имитации человекоподобного диалога. Она разыгрывается с 1990-го года. Несколько лет назад среди победителей этой премии был человек, которого люди старшего поколения знают по имени – его зовут Евгений Веселов, эту фамилию видели все в 1990-е годы, когда текстовый процессор «Лексикон» загружался на экран. Команда Веселова сделала такого прекрасного бота, который по легенде выступает в качестве мальчика, который приехал из Одессы, этому мальчику 14 лет. Для него английский язык не родной, он не очень хорошо ориентируется в этой действительности. Поэтому некоторые содержательные сбои ему можно простить – вот такой понятный ход. Здесь у нас Емеля вообще инопланетянин, ему все можно простить.
Так вот, первая понятная фраза этого робота была про то, что они все ходят в школу и там совершенствуют свои программы.
Мальчик Миша общается с роботом Емелей
Робот: «Все пуддинги ходят в робошколу, чтобы совершенствовать свои программы».
Мальчик: «Класс! А ты свою программу, Емеля, улучшила?»
Пауза 7 секунд.
Мальчик: “Ееме-ель”
Пауза 2 секунды.
Мальчик: “Емель!”
Пауза 1 секунда.
Робот: «Есть над чем подумать. А сколько тебе лет?»
Мальчик: «Восемь с половиной».
Робот: «Нечего добавить».
Пауза 2 секунды.
Мальчик: «Нечего»
Пауза 1 секунда.
Робот: «Неважно. Мы не может всегда быть одинаковыми. Интересно, очень интересно. Надо будет получше изучить музыку землян, чтобы получше рассказать про них в школе. Ух ты, уже вечер, солнышко скоро скроется. Что было днем интересного?»
Мальчик: «Учился сегодня и получил много хороших оценок».
Робот: «У меня сегодня был трудный день, полный опасностей и приключений, я ничего не делал». Мальчик: «Понимаю тебя, Емеля».
Робот: «Не знаю, что и сказать. А ты любишь мультфильмы?»
Мальчик: «Да, особенно про Лего».
Робот: «Почему-то я так и думал. А какой у тебя любимый мультик?»
Мальчик: «Лего-фи-ильм!»
Пауза 11 секунд.
Мальчик: «Лего-фильм!»
Пауза 1 секунда.
Робот: «Земные мультфильмы очень классные. Сколько тебе лет?».
Он уже спрашивал, сколько лет, как вы помните. Это очень богатый материал, можно говорить про разные подробности – тут много интересного. Но прежде всего я бы обратил внимание на паузы, которые там возникали и которые заставляют нас задуматься о том, какова их роль в человеческом разговоре. Если записать этот разговор без пауз, многое в нем потеряет смысл. Кроме того, мальчик очень эмоционален, он жестикулирует, какие-то вещи говорит так, что человек бы понял, а программе надо прилагать усилия – там и громкость у эмоционального высказывания зашкаливает, и неизвестно программе, что такое «Лего-фильм», этого слова нет в ее словаре. Но, во всяком случае, мы видим, что некоторое подобие взаимодействия здесь возникает.
В качестве «замечания на полях»: по-видимому, мы являемся свидетелями возникновения нового социолингвистического регистра, то есть такой разновидности разговора, где собеседником человека оказывается техническое устройство. До сих пор человек говорил с человеком. Может быть, в каких-то случаях он говорил с Богом, сам с собой, с животными, может быть, проповедовал птицам. Но вот к существам с таким непонятным статусом, неживым, он мог только риторически обращаться с монологом, к шкафу, например. У Емели, в отличие от Сири, которая тоже вроде бы робот, есть тело. Он может поворачиваться, ему можно сказать, чтобы он повернулся. Это вообще очень интересно, потому что он на совершенно иных правах, чем просто компьютерная программа, включен в наш повседневный мир. Теоретически он должен быть иначе чувствителен к контексту.
Давайте вернемся к разговору. Почему я говорю, что это – самая базовая форма использования языка? То, через что человек включается в язык, что первым осваивается, то, чему больше всего из разных видов использования языка посвящает времени. То, что я сейчас демонстрирую – собственно, монологическая речь в течение какого-то времени – это, с точки зрения антрополога, довольно маргинальная ситуация, которая встречается преимущественно в письменных культурах. Ведь я могу говорить монологически в течение полутора часов, не останавливаясь – ну, таймер у университетского профессора так заведен – только потому, что я читал много текстов, писал какие-то тексты, да и то, что я порождаю, потом, теоретически, можно будет транскрибировать, и при некоторой редактуре из этого получится более-менее связный текст. Но даже в письменной культуре такое монологическое говорение не является навыком всеобщего распространения. Если, например, вы будете брать интервью у людей из разных социальных групп, то можете столкнуться с тем, что есть «говоруны», а есть те, кто двух слов связать не может, интервью будет состоять из коротких ответов на ваши вопросы.
На слайде я перечислил несколько признаков, которые, на мой взгляд, существенны, и они менее тривиальны, чем это может показаться на первый взгляд. Тот факт, что собеседники находятся в одном пространстве и видят друг друга, позволяет им отслеживать реакцию друг друга. Для меня-говорящего очень важно, слушает ли меня тот, кому я говорю. Второй признак – собеседники обращаются друг к другу лично. Мне приятно было бы думать, что я проникаю в сердце к каждому из вас, но на самом деле это не личное обращение, я обращаюсь ко всем сразу. А в спонтанном диалоге лицом к лицу это личное обращение, и я могу отслеживать, в какой момент собеседник слушает меня или не слушает. Кстати, для лектора это очень важно, он периодически встречается глазами с разными участниками аудитории, отслеживая обратную связь, будто в диалоге.
Среди механизмов обратной связи и кивки, и всякие «угу», и направление взгляда. У Чарльза Гудвина, специалиста по конверсационному анализу из UCLA, на эту тему есть работа, изданная на рубеже 1980-х. В ней он показал, что контакт «глаза в глаза» в разговоре с несколькими участниками, когда я говорю вам, вы опускаете глаза, я переключаюсь на другого, вот в этой ситуации происходит очень интересная вещь. Не аутичный говорящий «затачивает» то, что он говорит, под конкретного собеседника. Как? Среди прочего, он выбирает подходящие слова. Вот я сейчас стараюсь не употреблять слов, про которые могу предположить, что они вам не знакомы, а если они будут, то я буду стараться их разъяснить. И вы можете на это рассчитывать, слушая меня. Но обращаясь в диалоге к разным собеседникам, я по-разному формулирую свое высказывание, разные слова выбираю. Одного и того же человека нашему общему другу я назову Васька, а незнакомому с ним человеку укажу, что это профессор нашего университета или еще как-то определю. И вот Гудвин показал, что переключение, условно говоря, с “Васьки” на “профессора” может происходить в речи говорящего в рамках одной большой конструкции. Один собеседник отвел глаза – я переключился на другого, и все это в пределах одного высказывания. В письменном тексте у нас есть точки, которые показывают конец предложения. А в том, что я сейчас порождаю, в этом потоке сознания, когда вы его воспринимаете, у вас в головах в режиме реального времени такое «дерево» ветвится навстречу моему говорению еще до того, как я дошел до конца конструкции. Я еще не договорил, а оно у вас уже выросло, у вас уже есть какие-то ожидания относительно того, что будет дальше. Вот в рамках одного такого «дерева» человек переключается с одного собеседника на другого.
Эта «заточенность» под конкретного получателя (recipient design) – это принципиальная вещь, которая проявляется одной из важных характеристик полноценного человеческого разговора. Еще одна характеристика – тот факт, что собеседники находятся в одном пространстве и видят друг друга. Они видят еще нечто общее вокруг и слышат то, что вокруг. Когда мы находимся в одном и том же пространстве, я могу отсылать в разговоре к чему-то, что оказывается заметным и для вас, и для меня. Есть такой термин “перцептивная выпуклость” (salience). Что-то, что является и для вас, и для меня заметной вещью, на которую мы обращаем внимание и про которую я знаю, что вы обратите внимание, и вы знаете, что я обратил внимание. Это вещи, к которым я могу отсылать. Возможность таких отсылок очень важна.
При этом мы слышим друг друга без задержки. Про задержку, на самом деле, интересно. Вы наверняка обращали внимание на то, что как только появляется небольшая задержка, хотя бы совсем небольшая, сразу начинаются интересные сбои, которых не бывает при разговоре «лицом к лицу», когда мы находимся в одном пространстве. Люди начинают одновременно говорить, и оба останавливаются, потому что этот наш тонко настроенный механизм смены очереди говорящего – это то чудо, с которого среди прочего начиналась дисциплина конверсационного анализа, когда Харви Сакс и Эммануэль Щеглов его придумывали. Он начинает давать сбои, потому что этот механизм очень тонко настроен. Мы можем эмпирически наблюдать, что большую часть времени говорит кто-то один. В случае, если говорят одновременно несколько человек, происходят, как правило, какие-то наложения, ближе к концу реплики одного из участников. Но большая часть переходов очереди от одного говорящего к другому – это 1/5 секунды, за это время невозможно отреагировать. Я не могу среагировать на тот момент, когда вы закончили, это значит, что я в голове слушаю вас и слушаю не только для того, чтобы понять, о чем вы говорите, меня еще интересует, когда вы закончите. Меня интересует, когда возникнет “потенциальная точка перехода”, когда я смогу вставить свои «пять копеек».
У того обстоятельства, тоже эмпирически наблюдаемого, что мы не все говорим одновременно, есть очень важный и интересный смысл. Есть такие жанры, когда люди говорят одновременно: например, скандал на коммунальной кухне или – иногда – итальянская опера. Удивительным образом мы можем одновременно говорить и слышать, порождать и воспринимать. Сири так не может, что важно. Она слушает не все время, включается на слушание. Но мы – люди – стараемся избегать одновременного говорения с собеседником, потому что иначе нам будет трудно установить взаимопонимание. У нас не получится сделать так, чтобы естественным образом «открывался» слот для проверки всего этого дела, нашего взаимопонимания, как только один закончил реплику. Вот тут-то его могут переспросить, поправить, да и он сам может себя поправить. Если говорят одновременно, так не сделать.
У меня есть любимое видео, для меня это символический образ – это бомбейский перекресток, где ездят машины. Для меня это метафора социального взаимодействия вообще и разговорного взаимодействия, в частности, потому что то, что мы видим на этом перекрестке, может показаться нам странным, но на самом деле оно демонстрирует ту степень согласованности, незапланированной заранее, которая позволяет нам очень тонко согласовать наши совместные действия.
Оживленный перекресток в Мумбае
Обратите внимание – человек переходит улицу, стоит у фонаря. Я специально просил знакомых поснимать в других городах и странах, например, в Каире. Там есть светофоры, но в некоторых странах наличие светофора не очень много значит.
Кстати сказать, светофоры не всегда способствуют безопасности дорожного движения. У нас одна аудитория в Европейском университете, где происходят наши занятия на факультете антропологии, выходит на Т-образный перекресток, где улица Шпалерная упирается в улицу Гагаринскую. Там есть светофор, но машины там cталкиваются часто. У нас даже есть такое развлечение: если во время занятий раздался визг тормозов и после этого удар, то разрешается встать и посмотреть в окно. Но бывает случаи, когда светофор отключают. И в такие дни машины не бьются. Это известная тема – в том случае, когда мы полагаемся на светофор, мы думаем, что он отвечает за порядок и надеемся, что проскочим. А он, другой водитель, тоже, видимо, думает, что проскочит. А если светофора нет, нам не на кого полагаться, кроме самих себя. Мы думаем не про машину, а смотрим на другого человека, который за рулем, и с ним вступаем в коммуникацию, убеждаемся в том, что он нас увидел и понял наши намерения. Это все к тому, что все то, что происходит на бомбейском перекрестке, не более опасно, чем то, что происходит на наших регулируемых и, может быть, более цивилизованных перекрестках.
В Индии вообще нормативное расстоянием между рядами едущих машин гораздо меньше, чем у нас, и там все бибикают. Они сигналят, когда обгоняют, заменяя мне сигналом клаксона взгляд в зеркало заднего обзора. Это несколько другая система коммуникации. Но люди компетентные, которые умеют там водить, они не подвергают себя опасности, там даже человек переходит дорогу. А переходит он очень интересно, мне это про Каир рассказывали. Машины идут сплошным потоком и можно сколько угодно стоять на переходе, машин не остановятся. Но люди местные знают, как надо делать. Они, глядя перед собой, не смотря по сторонам, начинают идти вперед через дорогу с одинаковой скоростью, и машины их «обтекают». Если переход ускорится или остановится посреди проезжей части, то его собьют. Но, если у него достаточно крепкие нервы, он пройдет на другую сторону целым и невредимым. Это поведение не запланировано заранее, это как танец. В каком-то смысле это похоже на то, как мы разговариваем: у нас же заранее не предусмотрено, кто когда вступит, кто сколько будет говорить, но то, как мы организуем это отсутствие наложений и пауз, заставляет задуматься о том, что эта согласованность сродни тому, как люди танцуют вместе.
Это вопрос, который касается того, как мы моделируем коммуникативное взаимодействие. Те модели, которые существовали на протяжении первых двух третей XX века, рисовали дело таким образом, что использование языка – это передача некоего содержания как бы в коробочке, в которой передается сообщение, которое было закодировано с помощью языкового кода. Этим кодом владеют и отправитель, и получатель. Я не буду подробно на этом останавливаться, но у этой модели есть свои сильные места и очевидные недостатки. Хотя бы потому уже что есть много случаев, когда у нас заранее нет готового кода и нам нужно установить этот код, придумать его ad hoc. Если вы встретитесь с человеком, с которым у вас нет общего языка, не исключено, что вы сможете договориться и достичь взаимопонимания, сварганить вместе с ним некоторую коммуникативную систему, прямо на ходу, применительно к конкретной ситуации.
Помимо этого подхода, который был свойствен лингвистике (представление о кодированной передаче), есть и другая модель, которая стоит за теорией речевых актов и прагматикой в версии, предложенной Гербертом Полом Грайсом. Она опирается на представление о том, что слушающий делает вывод о намерениях говорящего. Мы реагируем не на значение слов, а на то, что человек хотел этим сказать. Именно поэтому прагматика и теория речевых актов оказываются таким мощным инструментом для анализа неявной информации, того, что сказано, но не вытекает напрямую из значения слов. Если кто-то, говоря другому человеку «Ты дурак!», признается ему в любви, что же, это вполне возможно. Это не связано со словарным значением слова «дурак», но если такова интенция говорящего и таков контекст, слушающий распознает эту интенцию.
Идея о том, что у нас есть некое коммуникативное намерение, позволяет нам охватить случаи не только собственно языковой коммуникации. Человеческая коммуникация ведь не ограничивается использованием языка, а многие вещи, которые в разговоре играют большую роль, не являются собственно языковыми. Мне сзади бибикнули – я должен задуматься, к чему это. Человек не просто так бибикает, он что-то хочет мне этим сказать. Значительная часть сигналов, которые составляют разговор, в каком-то смысле аналогична бибиканью. У бибиканья нет готового значения, зафиксированного в словаре. И у любых высказываний есть этот аспект, общий для них и бибиканья: привязанность к контексту.
Если мы сделаем еще шаг вперед, к тем современным моделям, которые характерны для интеракционной микросоциолингвистики, они предполагают, что разговор – это не сумма высказываний одного и другого, где слушающий делает выводы о намерениях говорящего, а нечто более сложное. Это взаимодействие участников, где смысл высказывания не вполне определяется говорящим, а является результатом негоциаций значения между одним и другим. Смотрите, это модифицированный пример из Герберта Кларка: что сказал говорящий? Во всех трех вариантах это одно и то же, но как это мог понять слушающий, как он отреагировал, показывает, какую интенцию он приписал говорящему.
Значение высказывания как результат взаимодействия.
Почему я говорю, что это – негоциация смысла? Если у нас на третьем шаге несогласие того, кто сказал первую реплику, с интерпретацией собеседника как она видна из его ответной реплики, то правильнее рассматривать этот смысл (приказ, авторитетное распоряжение, а не совет) как проявляющийся в разговоре лишь на третьем шаге. «Сядьте здесь» стюардессы в качестве распоряжения, а не совета, является результатом переговоров, не проявляется непосредственно в первой реплике стюардессы.
Я бы сказал, что важная метафора здесь, помимо взаимодействия на перекрестке, – это что-то вроде совместного перенесения тяжелого предмета по лестнице. Дивана, например. Если более ранние модели так или иначе считали, что разговор – это один говорящий что-то сделал и потом другой говорящий что-то сделал, и последовательность таких действий можно анализировать как последовательность речевых актов, и каждую реплику как речевой акт по отдельности, то интеракционный подход предполагает, что высказывание в диалоге – это часть совместного танца, который требует внимания к перспективе и другого участника. То есть, когда мы вместе несем диван по лестнице, мне нужно представлять, где находятся руки у второго несущего, иначе я их прищемлю.
Тут я перейду к своему следующему примеру, который иллюстрирует один из исследовательских проектов, в котором я принимал участие. В ходе этого эксперимента представление одного участника взаимодействия о том, что в голове другого, оказывается существенной частью происходящего. Речь идет о задании на поиск соответствия (matching task).
Задание на поиск соответствия
Эти люди разделены ширмой. Действие происходит в дневном психиатрическом стационаре, и у одного из этих людей диагноз «шизофрения». Но для нас сейчас это не принципиально. Как устроен этот эксперимент? У одного из участников либо модель из конструктора Лего, либо фотографии облачного неба. Почему выбран такой материал? Дело в том, что у нас нет названия для многих таких вещей. Если только человек не знает специальных слов, которые позволяют обозначить названия облаков. Для Лего люди тоже замечательно импровизируют. Например, на деталь с четырьмя пупырышками кто-то говорит «четырехкомфорочная». А вообще, поскольку они взаимодействуют, другой потом тоже дальше начинает называть ее так же. Какую задачу они выполняют вместе? У другого усастника те же фотографии, только в беспорядке, или отдельные части конструктора, и им нужно сделать так, чтобы тот, у кого отдельные детали, собрал себе такую же вещь. Или разложил фотографии в том же порядке. Но говорящий, то есть тот, кто объясняет, как это сделать, не может это контролировать визуально.
Давайте, посмотрим небольшое видео, где редуцированные вариант этого эксперимента у нас реализуют дети. Дело происходит в детском саду. Проблемы, которые там возникают, уже видны.
Дети выполняют задание на соответствие
НИКИТА: Витя, давай посчитаем, сколько у тебя там кусочков?
ВИТЯ: Три
НИКИТА: Сколько желтых?
ВИТЯ: Один.
НИКИТА: Синих?
ВИТЯ: Один.
НИКИТА: Зеленых?
ВИТЯ: Один.
НИКИТА: Возьми в руки кусочек и поставь его перед собой.
ВИТЯ: Поставил.
НИКИТА: А потом одним концом зеленого прикрепи к другому концу желтого.
ВИТЯ: Сделал.
НИКИТА: Теперь там, где щелочка, поставь наверх синию.
ВИТЯ: Поставил.
НИКИТА: И покажи мне, что у тебя получилось. (ПАУЗА) Неправильным концом!».
Смотрите: то, что было у Никиты в руках, выглядит вот так, а что у Вити получилось? Причем, там есть такой момент на этом видео, где мы видим, как… Сейчас я еще раз покажу.
НИКИТА: А потом одним концом зеленого прикрепи к другому концу желтого.
Видите? У него было сомнение, он думал, можно ли две детали одна за другой или вот так, бок о бок, получится естественнее. Этот чудесный Никита, которые объясняет, он не монстр-менеджер, таких детей не бывает, он не сам придумал такой способ обращения со своим партнером. Дело в том, что его воспитательница, с которой они репетировали, чтобы он понял это задание, перед сеансом взаимодействия с мальчиком, точно так же с ним разговаривала: «Ну-ка, Никита, скажи, какие у тебя есть кусочки, перечисли, сколько у тебя желтеньких, сколько зелененьких?» И Никита воспроизводит эту же самую модель.
Что здесь интересного и зачем вообще этот эксперимент, что он моделирует? Бывают разговоры «по делу», а бывают «просто поболтать» (есть даже специальный термин smalltalk ). Есть разговоры, которые передают какую-то информацию и предполагают отсылку к каким-то предметам, которые нужно точно определить; это референциальная коммуникация. А бывают такие разговоры, где мы больше выражаем какие-то эмоции, утешаем человека, как-то с ним взаимодействуем, но нам не надо говорить об устройстве чего-то и отсылать к конкретным знаниям о мире.
Это два разных режима человеческой коммуникации. Вот есть режим, который предполагает отсылку к каким-то конкретным предметам окружающего мира, или к абстрактным предметам, как я в данный момент делаю и надеюсь, у вас в голове мои слова складываются в какую-то картину, и мне было бы важно, чтобы вы думали именно о тех вещах, которые я имею в виду. В ситуации, когда люди не видят друг друга и не могут контролировать, что там происходит, на взаимодействие накладываются специфические ограничения, которые нам показывают механизмы коммуникации в более явном виде. Представьте себе ситуацию, когда вам нужно позвонить своей бабушке и попросить открыть ваш компьютер, зайти в вашу почту и послать файл, который лежит в такой-то папке на одном из дисков вашего компьютера. Это довольно сложная задача. Фактически вы при помощи бабушки как удаленной руки манипулируете в пространстве, которое не дает вам непосредственного перцептивного отклика. Но это задача решаемая! Для того, чтобы ее решить, вам нужно представить себе, что у бабушки в каждый момент перед глазами. Опытные системные администраторы умеют решать проблемы человека с его компьютером по телефону, потому что они знают, что может в какой момент на экране появиться.
Почему там шизофреники появляются в нашем эксперименте? Дело в том, что представление себе того, что в голове у другого человека, – это такая характерная и специфическая для человеческой коммуникации особенность, по отношению к которой есть подозрение, что у шизофреников она работает немного иначе. Весь этот механизм приписывания мыслей, состояний, чувств партнеру по коммуникации работает со сбоями. То есть либо у них не хватает мотивации, желания и способности вообразить себе, что у другого человека в голове, и поэтому они не подстраивают свои высказывания под него. Ну, не знает собеседник, кто такой Васька, они его все равно так назовут. Либо они параноидально вам приписывают какие-то чувства, что вы их специально запутываете. Там у нас были были смешанные пары, мы сравнивали их с парами «здоровый-здоровый», – и оказывалось, что здоровый человек берет на себя большую часть всей той коммуникативной работы, которую необходима для выполнения задания и у здоровых распределена примерно поровну.
Там были очень интересные вещи. Ведь у нас есть интуитивное представление о том, что какие-то способы обозначения оказываются проще, чем другие. Например, сказать «ближе к окну» или «ближе к ширме» в общем случае проще, чем сказать «справа» или «слева», потому что «справа или слева», особенно когда они сидят лицом к лицу, несколько сбивает их с толку, и возникают сбои. Меня больше всего интересовал мета-уровень, то есть то, каким образом они организуют свою совместную деятельность, свой разговор, потому что для каждого кусочка «Лего» или для каждой фотографии им для начала нужно отождествить эту фотографию, потом определить ее локализацию и опционально проверить – правильно ли они поняли друг друга. Вот эта постоянная в норме проверка как раз и относится к мета-уровню организации деятельности.
Мы предварительно специально проверяли, не ослаблен ли интеллект у шизофренических пациентов. И все люди, которые участвовали в эксперименте, могли по образцу собрать такую модель. Но иногда в экперименте они относились к этому делу просто: куда поставил, туда и поставил, и проверка их не очень-то интересовала. И вот это отличает их от людей здоровых и мотивированных, потому что у нас в разговоре всегда присутствует некоторый определенный уровень взаимопонимания, на который мы ориентируемся. Нам необходимо удостовериться в том, что то, что мы сказали, было правильно воспринято. Если нет, то мы прибегаем к разного рода методам, чтобы внести коррекцию.
Собственно, появление такого рода экспериментов было в свое время связано с несколькими темами, одна из которых – преодоление эгоцентризма. Как показал Жан Пиаже, ребенок до определенного момента не умеет становиться на точку зрения другого человека, эта способность появляется по мере взросления, когда он начинает отличать мнение от знания и признает разные возможные точки зрения.
Еще один контекст подобных опытов – это проблема передачи инструкций пользователю. Есть знаменитая работа, связанная с разработкой этой технологии, эта книга, пожалуй, самая важная в области изучении взаимодействия человека и технических устройств. Вы знаете, что сейчас обычный пользователь просто пользуется контекстуальной подсказкой, он не задумывается. Луси Сачмен, когда она работала в исследовательском центре PARC (Palo Alto Research Center) корпорации Xerox, проводила очень любопытные эксперименты, связанные с контекстуальным характером подсказки. Дело в том, что есть разница между инструкцией, которая напечатана на бумаге, и тем, что человек, который рядом сидит, скажет тебе по поводу твоих проблем. Если я что-то новое поставил себе на компьютер и оно не работает, то я должен или прочитать весь хелп, чего никто не делает, либо начать искать эту проблему в хелпе. Но я не знаю, как называется эта проблема, и прочитываю все оглавление хелпа, пытаясь понять, какими же словами могли назвать ту проблему, которая у меня возникла. Этот текст вообще на все случаи жизни, а у меня есть конкретная проблема. Человек, который в этом разбирается, может дать мне конкретный совет, отталкиваясь от своего участия в этой ситуации, знакомства с контекстом.
Как человек интерпретирует инструкции, например, больших и сложных ксероксов, где на экране появляется указание, что нужно сделать в определенный – это хороший вопрос. Ведь он начинает искать какую-нибудь нужную «крышку 2», тянуть за рукоятку и думать: «А щелчок, про который написано “до щелчка”, это он уже был или еще нет? А если я уже сломал?» Тут возникают вопросы, которые касаются способов передачи инструкции пользователю, когда инструкции не абстрактны, а привязаны к контексту.
Эксперимент с Лего и фотографиями обращает наше внимание на важность совместного внимания, потому что интерфейс – это именно та зона, к которой одновременно имеют доступ и человек, и система. Это некоторая зона для общения. Куда направлено внимание участников? Это базовая вещь, которая касается любой человеческой содержательной референциальной коммуникации – внимание, которое направлено у обоих партнеров на один и тот же предмет.
Это вещь, про которую мы можем сказать, когда она появляется в онтогенезе. Смотрите: с рождения примерно до 9 месяцев ребенок улыбается вам, родители получают удовольствие от общения с ним. Но до 9 месяцев – это диадное взаимодействие. Вот ребенок, а вот вы. Выражение эмоций, радость, утешение – все хорошо. Но никакого содержательного общения нет по причине того, что нет ситуации, при которой внимание ребенка и внимание взрослого направлены на один и тот же объект, и они контролируют внимание друг друга. Примерно в 9 месяцев происходит революция: появляется совершенно другой тип поведения, когда ребенок тянется к предмету и не просто хнычет, потому что не достает до него и нуждается в утешении, а попеременно смотрит то на предмет, то на мать. И проверяет, смотрит ли мать на этот предмет или нет. Это та ситуация, когда мать приходит ему на помощь, дает предмет – она интерпретирует это как указание, из этого потом вырастет указательный жест.
Указательный жест и указание – это такая базовая вещь человеческой коммуникации, без которой содержательной человеческой коммуникации быть не может, это такой ассемблер коммуникации, из которого все складывается. И когда, не до бог, способность говорить слова в результате чего-то оказывается ограничена, если человек может совершить указательный жест, он спасен. С ним возможно общаться, вспомните Стивена Хокинга: он может совершать только одно движение, но этого достаточно, чтобы указать тот момент, когда все время перемещающийся курсор окажется в нужной позиции. Пока есть возможность указательного жеста, можно устроить коммуникацию и общаться с человеком.
Случай, с которым я работал – это пример молодого человека, который никогда не владел разборчивой речью, несмотря на то, что у него сохранный интеллект. Но интеллект не просто сохранный, а высокий, этот молодой человек увлекается программированием. Он не способен артикулировать звуки речи, не может произносить согласные. В изолированной позиции логопед научил его произносить согласные, а в потоке речи – нет. Получается, что в диалоге, когда он говорит, это напоминает неартикулированное мычание. Но его мама может это перевести. Вот видео, где это очевидным.
Иван и его мама в качестве переводчика
[Мама переводит:] «Технологический английский… А, компьютерный английский! Компьютерный английский я понимаю.
Ну, это все компьютерщики понимают. Иван всегда мычал. Когда мне важно прослушать, что он говорит, мы начинаем по буквам. И тогда он показывает мне работу логопеда. Или через синонимы он может объяснить тоже».
Вот отсюда послушаем:
[Мама переводит:] «Я буду вести в школе кружок программирования. В следующем году. Мне нужны программисты, хакеры. Те, кто быстро могут прочитать и писать этот кусок».
Это очень показательно в том смысле, что мы привыкли думать, что высказывание – это результат работы одного человека. А здесь мы видим, что эта работа не просто на двоих раскладывается, где один говорит, а другой переводит, здесь переводчик даже вперед забегает. Мама может предсказывать, что он говорит, потому что он когда-то об этом ей говорил. Там, где речь идет про «хакеров в истинном смысле слова», Ваня этого не сказал, это мама высказывает догадку, интерпретируя и расширяя высказывание.
Здесь любопытно не только то, что они вдвоем строят высказывание. Кстати, мы тоже в диалоге довольно часто подхватываем высказывания друг друга и их завершаем, что свидетельствует о том, что мы слушаем что нам говорят и понимаем друг друга. Но в ситуации с асимметрией, когда сложно говорить быстро, как и в ситуации с Хокингом, тайминг – то, каким образом по времени расположены вклады людей – очень много что определяет. Если кто-то говорит медленно, то остальные могут начать говорить между собой на другую тему, а он все набирает по буквам ответ на вопрос, который был некоторое время назад. И возникает идея: а нельзя ли каким-то образом ему помочь, технологически, чтобы он говорил быстрее?
Кстати говоря, сам Иван делает программы, которые помогают людям, не способным говорить, разговаривать с помощью указательных жестов. Выбирать, как Хокинг.
Девочка тренируется в управлении курсором при помощи одной кнопки
Вот этом видео девочка, которая с большим трудом контролирует свои движения, тренируется в управления курсором при помощи одной кнопки при помощи программы, которую сделал Ваня. Можно было бы распознавать направление ее взгляда, но это довольно трудно в ее случае. А вот если у нас будет такой прыгающий курсор, нужно, чтобы она в нужный момент ударяла по кнопке, чтобы выбрать нужный элемент.
По-видимому, какие-то чисто технические возможности существуют, чтобы реализовать то же самое, чем пользуется Хокинг. На сайте hawking.org.uk описываются технологии, которыми он пользуется, и там есть интересная программа для smalltalk’а. То есть, если нужно побеседовать на какую-то тему, не связанную с физикой и жизненными проблемами, а просто поболтать, у него есть готовые высказывания, которые разбиты по темам. Он может поговорить о спорте, о погоде, и в рамках каждой из этих тем у него довольно большое количество высказываний. Причем, в этом списке есть и список оскорблений, очень смешных. У Элен Миале есть целая книга, которая рассказывает про образ Хокинга как про специфический конструкт и про то, как этот образ устроен изнутри. Чудесная книга, там описывается эта технология. И вот тот факт, что в системе, созданной для Хокинга, есть отдельный раздел оскорблений, заставляет задуматься над не только над тем, что для полноценного проявления личности нужно уметь ругаться, но и над тем, что то, что мы делаем в повседневном разговоре, в определенной части в каком-то смысле похоже на Эллочку-людоедку из Ильфа и Петрова. Эллочка – это такой крайний случай, там все-таки довольно редуцированный набор, но все-таки. У Хокинга могут быть несколько сотен высказываний в общей сложности, но они у него просто ищутся, ему не нужно набирать эти высказывания целиком. Он реагирует одной буквой, и сразу выскакивают высказывания на эту букву из списка. Если он, скажем, набирает содержательный ответ кому-то, и в этот момент кто-то вошел в комнату, он может набрать две буквы и поприветствовать этого человека. А зачем ему набирать эти две буквы? не можем ли мы сделать такую штуку, которая говорила бы за него? Сделать бота, которого он отчасти мог бы контролировать. Это позволило бы ему общаться в том же ритме, в котором общаются обычные люди.
Здесь мы переходим к самому интересному, ради чего все это было затеяно. К программам, которые общаются с человеком при помощи человеческого языка – к ботам.
История ботов начинается с «Элизы» Джозефа Вейценбаума, которую он сделал в 60-х годах в качестве эксперимента, со скриптом «доктор» она могла изображать психотерапевта а-ля Карл Роджерс, и это было настолько неожиданно и удачно, что некоторые думали, что на том конце провода человек. Почему? Потому что этот жанр разговора – психотерапия – это один из немногих жанров разговора, где мы можем обойтись без ссылок на представление об окружающем мире. Если мы считаем, что функция психотерапевта – сделать так, чтобы клиент выговорился, то достаточно небольшого числа трюков. Вейценбаум впервые сделал так, что если человек говорит «У меня голова болит», то машина может сказать: «У тебя голова болит? А когда начала болеть?», то есть она меняет «меня» на «тебя» и вставляет содержание высказывания пользователя в свою речь. Это производило такое впечатление! Психотерапевт, если он хочет добиться результата, может сказать: «Повтори еще раз то же самое». И это не будет выглядеть странно. Это примерно как роботу приписать «инопланетность» и на это сделать скидку, только гораздо правдоподобнее.
Сам Вейценбаум был впечатлен тем, что у него получилось, и в какой-то момент написал книжку, где говорил, насколько опасно запускать такие программы, потому что они потенциально могут привести к тому, что вокруг человека окажутся машины, которые будут впустую представлять что-то и изолировать человека от мира. Книжка интересная. Некторые боты, которые с тех пор разрабатывались, шли по пути «Элизы».
Когда-то давно была смешная статья про то, как ее автор переписывался на сайте знакомств с русской девушкой и в течение какого-то времени был уверен, что это девушка, пока в конце концов не обнаружил, что это бот. Если вы говорите о любви и знакомитесь на сайте знакомств, то есть некий церемониал. Эллочке-людоедке смайликов и всяких прочих вещей достаточно, не нужно говорить ни про Шопена, хотя про него теоретически тоже можно и боту поговорить, забросив запрос в Гугл или узнав про Шопена в Википедии. Во всяком случае, автор статьи был обманут. Ведь существующие сегодня боты либо посвящены в какую-то узко предметную область и в ней «разбираются», у них есть репрезентации реальности этой области (в виде онтологии или в ином виде), либо они просто болтают с человеком, реагируя на его высказывания, и это напоминает беседы с младенцем. Кстати, они никуда из нашей жизни не деваются – это эмоциональное обение это неотъемлемая часть человеческого общения, вы можете даже с иностранцем так общаться на своем языке, при этом не передавая никакой информации об окружающем мире.
Давайте я покажу вам кусочек диалога. Это диалог живого человека с ботом Мицуки, который получил Лебнеровскую премию в 2013 году.
Фрагмент диалога с чатботом Мицуки
Посмотрите, где здесь оказываются места, в которых понятно, что это не человек. Он реагирует на «clothing» и дальше проявляет некую коммуникативную инициативу. Это они хорошо придумали. Но «Do you tend to like most things?» или особенно, когда после «No» идет «OK». «What do you do for living?», – мы и в разговоре такой же перескок темы видели у бота Емели в самом начале. Это к тому, что искусственный разговор, примитивный и роботический, чаще всего представляет собой реакцию на предыдущую реплику. Это некие готовые паттерны, которые реагируют на то, что было.
Человеческий разговор устроен иначе. Если нас интересуют интенции, то у нас возникают последовательности, при которых мы держим в голове нечто, и это разрешается через несколько шагов разговора. Например: «Ты видел мой шарф? – Там в прихожей? – Да. – Отличный цвет!» Смотрите, это у нас не
А1 > B1 > А2 > B2,
это не реакция на предыдущее, а это у нас
A1 > B2 > A2 > B1
где имеется вставная конструкция, ответ на «Ты видел мой шарф?» – «Да»
То есть между этими связанными репликами, образующими пару (“Ты видел мой шарф?” – “Отличный цвет!”), вставлена другая последовательность двух реплик, и эта вставная последовательность может быть, вообще говоря, достаточно длинной. Контекст участниками удерживается достаточно долго и это значит, что они нацелены на некоторую общую цель разговора. Это принципиально отличает человеческой разговор от более примитивных способов реагирования.
У меня здесь задумано было показать еще одну вещь, в которой граница между человеческим и нечеловеческим проводится примерно по тому же месту. В качестве бакалаврской работы моя студентка Катя Хонинева сделала программку, вы знаете, что такое тест Тьюринга, здесь это – ассоциативная игра. Когда ты говоришь «стол», а тебе – «стул». Мы заходим на http://alex.domprog.com/Game , присутствуют те, кто уже загрузился. На самом деле, это не живые товарищи (хотя среди них могут быть живые, если в это время кто-то уже зашел туда же), но в основном – это все программные агенты. Я приглашаю некоего Фокса поиграть в ассоциации. Задача – определить это программа или человек отвечает, определить по ассоциациям. Ассоциации: «месить», я пишу «тесто». В какой-то момент я должен нажать на кнопку «Человек» или «Машина». Я нажал «тесто», что скажет мне Фокс? Я вижу, что на «тесто» пришло «убежало», пишу «простыня». Вот такая у меня ассоциация. Фокс берет свои слова из словаря: ассоциаций, рифм, но к тому же он еще записывает весь человеческий поступающий материал, потом может его пробрасывать людям обратно. То есть по мере того, как мы играем, он становится все умнее и умнее. Вот, смотрите: «простыня» – «накрахмаленная». Ага! «Наволочка» – вот такая у меня ассоциация. И что пришло? «Мишулечки»? Это машина. В следующий раз «мишулечки» не будут использоваться. Я угадал, что Фокс – машина, потому что эти мишулечки мне показались странной, нечеловеческой ассоциацией.
Что здесь происходит? Когда человек играет в ассоциативную игру, у него в голове складывается некоторая картина, картина некоторого контекста. Те слова, которые называются, принадлежат одной ситуации, одному семантическому полю. Машина реагирует только на предыдущее слово, не более того. А реакция может быть взята из любого семантического поля.
Собственно, давайте, послушаем Сири. Я покажу как американская девочка общается со своей Сири, а потом – русскую девушку со своей Сири.
Американская девочка разговаривает с Сири. Audio courtesy to Geoffry Raymonds
Американская Сири, действительно, ничего не понимает, такой вот «троллинг» и разные забавы, когда над ее ответами можно поиздеваться – это удивительным образом оказывается одним из самых распространенных жанров взаимодействия с ней. И американские дети и подростки нередко так развлекаются.
Та же самая Катя Хонинева, которая сделала ассоциативную игру, написала магистерскую в Европейском университете у меня про разговоры с Сири. И выяснилось, что большая часть разговоров с ней, которые имеют место, это не содержательные разговоры, а использование этой болтовни, чтобы поиздеваться над бедной Сири.
Теперь давайте маленький кусочек «русской Сири».
Разговор с русской Сири
ЧЕЛОВЕК: Привет, Сири. Кто такой Навальный?
СИРИ: Мне удалось найти общие сведения про Навальный Алексей Анатольевич с помощью Википедия. Хотите прослушать?
ЧЕЛОВЕК: Угу.
СИРИ: Мне тяжело понять вас.
Смотрите, самая естественная человеческая реакция – «угу». Казалось бы, что может быть проще? Используется это на каждом шагу, а распознать Сири это не может, хотя, вроде бы, все сделала правильно. Знаете почему? Потому что они начинали разработку с другого конца.
Мы сейчас возвращаемся в начало, где я говорил о разных социальных факторах, которые влияют на дизайн, на то, как некоторые системы разрабатываются. Если бы они подошли с другого конца, начали с этнографии речи, они бы поняли, что «угуканье» не менее важно, чем многие другие вещи. Соответственно, «распознавалка» должна приписывать «угуканью» вполне определенную интенцию. Это возможно, но никому не пришло в голову серьезно позаниматься этнографией.
Надо сказать, что крупные корпорации начинают исправляться. Они быстро учатся на своих ошибках и, например, недавно появилась смешная статья человека, который «подловил» «Фейсбук» на этнографическом эксперименте. Когда «Фейсбук» вводит какое-то новшество, они берут небольшой сегмент – скажем, 100 тысяч пользователей – и обкатывают его на этой группе, а уже потом распространяют на остальных. Новшество состояло в том, что пользователям предложили службу «персонального ассистента», который может заказать гостиницу, ресторан и прочее. Интересно было, что люди будут просить у этого ассистента? Автор статьи обрадовался и начал тестировать этот искусственный интеллект, который давал ему советы, прямо скажем, очень хорошие. И человек подумал, что ему, наверное, советует человек. И он обратил внимание на то, что ассистент отвечал с опечатками, которые характерны для ситуации, в которой человек быстро набирает текст. Тогда автор решил сделать обратный тест Тьюринга, чтобы подловить этого ассистента на том, что он – живой человек. И подловил. Он попросил узнать, можно ли в такой-то офис доставить обед и дал телефон своего офиса, когда ассистент сказал, что может позвонить и узнать. И в офис позвонил вполне человеческий голос, который определился как принадлежащий Фейсбуку. То есть прежде, чем разрабатывать какую-то систему, это обкатывается на людях. Люди вместо программы или определенных модулей программы выступают. Тогда становится понятно, что же реально в человеческом взаимодействии оказывается значимым. То есть, начинать разработку каких-то систем, в частности, связанных с использованием человеческого диалога, имеет смысл начиная с этнографии.
Я думаю, что я исчерпал уже все возможное время, спасибо.
Обсуждение лекции
Б. Долгин: Спасибо большое! Попытаюсь осознать, что же было сказано. Нам были продемонстрированы принципиальные недостатки классического кибернетического подхода с пониманием разговора как простой передачи сообщения, его декодированием и т.д.в пользу чего-то интеракционного. Нам было продемонстрировано значение этнографических процедур для того, чтобы понять и промоделировать дальше что-то языковое. Нам были представлены характеристики разговора, которые кажутся значимыми для понимания его специфики в человеческом варианте и была представлена попытка систематики этих разговоров.
И. Утехин: Я говорил о том, что возможно передавать чувства, это очень важная вещь для человека, и с роботом это необходимо.
Б. Долгин: Да, поддерживать разговоры – тоже отдельная функция.
И. Утехин: Совершенно верно. Мы можем это глубже классифицировать, но в существующих платформах для разработки ботов это просто существует как отдельные модули. Там есть отдельный домен, который называется «Болтовня» – Smalltalk, а есть какие-то содержательные вещи.
Б. Долгин: И была продемонстрирована значимость разного рода подходов на грани психологии. Короче говоря, коммуникация была продемонстрирована как некоторая междисциплинарная область, для понимания которой недостаточно ни кибернетических подходов, ни структурно-лингвистических подходов. Ни, наверное, самих по себе вероятностных подходов тоже не достаточно, если говорить о нынешних гугл-переводчиках и так далее.
И. Утехин: Про это я совсем не говорил. На самом деле, это очень интересная тема, совершенно отдельная, про то, что в инженерной лингвистике у нас есть подходы, которые предполагают жестко запрограммированные ответы на какие-то распознаваемые ключевые слова, и есть вероятностные модели. Это немного другой подход, там есть и машинное научение и все такое. То есть, если глубоко копать, то много всего интересного. Но мы этого сегодня не будем касаться, потому что это заведет нас в другую сторону. Мне хотелось через эти примеры показать фундаментальные свойства человеческого разговорного взаимодействия, которые лежат как бы по ту сторону языка, которые глубже языка.
Язык – это средство коммуникативного взаимодействия, но помимо него, есть и другие средства, которые используются совместно с языком. И эти средства опираются, в частности, на нашу погруженность в контекст. Это чрезвычайно важный момент, потому что современная технология отличается от технологии 20-летней давности именно своей чувствительностью к контексту. Условно говоря, ваш компьютер не знает, где он стоит, хотя, может быть, в вашей сети он называется «деск-топ в гостиной». Но сам он про это не знает. А ваш мобильный телефон знает, где он находится, и в зависимости от этого делает многие вещи по-разному. И чем дальше, тем больше сенсоров у него появляется и тем в большей степени он может на эту контекстуальную информацию опираться для того, чтобы, например, проводить дезамбигуацию ваших сообщений. И в этом отношении робот в более выгодном положении, чем все.
Б. Долгин: И? Дальше хочется какого-то следующего шага. Что в связи с этим?
И. Утехин: В связи с этим возникает много вопросов, на которые у нас нет готового ответа. Я говорил, что у нас возникает новый социолингвистический регистр, и эти «существа» становятся частью нашей повседневности, и человеческий язык распространяется на его использование не человеческими существами, которые становятся очень специфическим продолжением человека. Мы находимся внутри некоторой революции, поэтому увидеть это снаружи не очень просто, но есть несколько косвенных свидетельств, которые позволяют нам куда-то заглянуть.
Разработчики этих технологий все читали научную фантастику. Те, кто придумывали самые современные интерфейсы и все такое, они не просто читали Рея Бредбери и иже с ним, но они смотрели и голливудские фильмы. Вообще, влияние голливудских фильмов на то, как дизайн будущего возникает, оно очень любопытное. Здесь такая замкнутая спираль, потому что люди, которые снимают эти фильмы, идут в MITMediaLab или в Palo Alto Research Center, чтобы спросить: «Ребята, что у нас на горизонте? У нас дело в фильме происходит в 2045 году, как будет выглядеть интерфейс?» И им предлагают варианты. Люди, которые посмотрят этот фильм, начинают думать: вот, значит, так это и будет! И начинают работать над этим. Каким образом форма придается этой технологии? Здесь есть много разных интересных источников.
Когда эти новые наделенные элементами интеллеката и интерактивностью существа начинают играть в нашей жизни большую роль, чем просто какие-то не самостоятельные инструменты. Скажем, если я ищу в Гугле что-то, он мне не подсказывает, я сам ищу, хотя, конечно, он «затачивает» под меня свой персонализованный поиск. Но представим себе, что у меня есть свой персональный ассистент, который в Фейсбуке был представлен девушкой (но никто же нам не мешает реализовать ее программой), и эта девушка меня хорошо знает, мы с ней много лет живем, у нее есть достоверные сведения о моем поведении в сети: что я слушаю, что читаю. Она мне может что-то подсказать как рекомендательный сервис, опираясь на «длинные истории» моего медиа-потребления, и никто лучше нее это не сделает.
И в какой-то момент я начинаю доверять ей как себе, а чего же ей не доверять-то? Она знает меня лучше, чем кто-нибудь еще. Нет такого родственника, близкого человека, который в такой степени является частью меня, как эта программа, этот ассистент. Фактически, у меня появляется такое продолжение, которое много чего может сделать. Значит, граница меня проходит уже не там, где обычно. Это антропологический вопрос. И я общаюсь с этим ассистентом при помощи естественного языка.
Б. Долгин: Иными словами, речь о том, что кроме того, что Интернет дал нам не только новые регистры языка, о чем давно шла речь (устно-письменный, письменно-устный…), у нас возникают еще и новые типы коммуникации, для проектирования которых и для понимания которых нам нужно чуть иначе посмотреть на собственно человеческую коммуникацию? Я правильно понял?
И. Утехин: Да. Что мы переосмысливаем границы человека, и что мы переосмысливаем форму человеческой коммуникации. Потому что мы не знаем – это я сам с собой беседую или еще с чем-то другим. Кстати говоря, то, что вы говорите про этот регистр, письменно-устный и устно-письменный, – это, действительно, любопытное наблюдение, потому что, когда Сири что-то не понимает, человек пытается переформулировать это. Причем если он общается с ней не первый раз, он понимает, что исправлять ее и объяснять, что она что-то не так поняла, бессмысленно. Нужно просто выключить и снова включить, и начать говорить другое. По отношению к человеку это выглядело бы хамски – отключить и снова включить.
Б. Долгин: Это классическая формула: «Забудь все, что я только что говорил, я сейчас тебе иначе скажу».
И. Утехин: Да. И человек в общении с Сири начинает выбирать слова таким образом, в соответствии с тем, как ему кажется, проще Сири. У нас есть целый набор таких регистров: регистр разговора с детьми, регистр разговора с иностранцами, которые не очень хорошо понимают русский язык. Регистр для разговора с очень пожилым человеком, который уже не очень хорошо понимает слова, и для разговора с ним мы тоже будем очень тщательно выбирать слова.
Кстати, если сформулировать, на что мы опираемся, выбирая эти слова, то мы опираемся на наши интуитивные представления, что какие-то вещи принципиально проще, что какие-то слова более частотные, скорее всего, старушка их знает. Какие-то синтаксические конструкции, например, пассив сложнее, чем активный залог, значит, мы не будем в пассиве строить конструкции для старушки, иностранца или ребенка. Мы это интуитивно упрощаем. Значит, должна быть какая-то модель того, как в голове у Сири, условно говоря, устроены «колесики», чтобы она нас поняла и интерпретировала. И это становится похоже именно на письменный язык!
Б. Долгин: Только в случае со старушкой, ребенком или иностранцем мы будем пытаться апеллировать еще и к контекстам, знакомым, вероятно, старушке из ее опыта, иностранцу – из его опыта, ребенку – из его опыта. А в случае с Сири?
И. Утехин: В случае с Сири здесь та самая проблема, которая возникает в связи с отсутствием ее памяти. Она помнит только непосредственно предыдущее высказывание. В каких-то случаях она помнит немного больше, ее можно запрограммировать, чтобы она помнила, как тебя зовут. В каких-то случаях английская Сири может и следующее местоимение с антецедентом соотнести, но это не широко распространенная практика. Этот ассистент станет более или менее человеческим только с того момента, когда у него появится память. И когда он в пропарсенном виде будет хранить всю историю разговоров с вами, и опираться на нее. И может быть, его память будет лучше, чем память человека. То есть человек сможет полагаться на память ассистента, разгрузив для этого свою память.
Б. Долгин: Спасибо. Что же, теперь вопросы. Поднимайте руки.
Вопрос 1: Когда вы говорите, что эти характеристики особенностей разговора лежат глубже, чем язык, они все-таки лежат где? В каком-то когнитивном устройстве нашего сознания или, скажем, культуре? Потому что разговор в разных культурах будет немного отличаться. И можно ли использовать технологию Сири, разработанную для хипстеров из Калифорнии, для аборигенов Океании, например?
И. Утехин: Это два вопроса. Первый более сложный и интересный, второй очевидный: что приходится ее «затачивать» под местные особенности, не только языковые, но и поведенческие, этнографию и речь. А вот та машинерия, та коммуникативная способность человеческая, некоторые особенности которой мы сегодня только упомянули –
это касается реакции не на высказывание, а на прочитывание интенции, что обуславливает возможность вставления последовательностей, и так далее, там много чего интересного. Мы могли бы эти характеристики человеческой коммуникативной способности как-то суммировать, но это отдельный большой разговор. Мне сложно сказать, где они живут, это явно не культура, потому что это вещь универсальная, которая во всех культурах существует. Это свойство человека как вида. Но человек как вид – это не индивид, человек как вид – это социальное существо, не существует отдельно биологическое «железо» и культурный «софт». Они в сочетании, так или иначе, с разными языками дают нам некоторые конфигурации, которые предзаданы той стадией эволюции человека, на которой сформировалась эта коммуникативная способность, связанная с чтением мыслей и угадыванием того, что в голове партнера. Вслед за Стивеном Левинсоном – лет десять назад у него была публикация про человеческую коммуникативную способность – я полагаю, что это более глубокая вещь, чем использование… Потому и получается, что люди, у которых с языком и речью не все в порядке, тем не менее могут полноценно коммуницировать.
У Чака Гудвина есть цикл работ, где он объясняет, как устроена в семье коммуникация с человеком, который после инсульта может пользоваться только тремя словами. Если бы вам сказали, что вы на протяжении всей оставшейся жизни сможете пользоваться только тремя словами – какие бы вы выбрали слова? Там человеку повезло, эти слова – yes, no и and. Это слова, которые функционируют не сами по себе, они связаны с реакцией на высказывание собеседника. И позволяют говорящему, вставляющему их в нужном месте, с опорой на контекст и слова собеседника высказывать довольно сложные вещи.
Этот пример, как и с Хокингом, касается ситуации, когда человек умственно сохранный, просто что-то сломалось в его речевой способности. Или что-то было изначально, как у Ивана, который никогда отчетливо не говорил. Но здесь возникает вопрос: люди, про интеллектуальные способности которых мы не можем судить, потому что у них есть интеллектуальные нарушения, а не только коммуникативные; как такой человек понимает обращенную к нему речь? Это не совсем понятно. Тут возникает целый комплекс вопросов, связанных с тем, что мы не знаем, как связаны между собой коммуникативная способность человека и его интеллект. Например, бывает, что у людей с синдромом Дауна с социальным интеллектом все в порядке, а с общим интеллектом не совсем. Или бывают люди умственно неполноценные, но язык у них подвешен так, что вы на протяжении некоторого периода ничего такого не заподозрите. В каком-то смысле тут есть определенная независимость. Извините, я уклонился в сторону от вашего вопроса.
Вопрос 2: Спасибо большое, очень интересно. Вопрос про общение с виртуальной девушкой, которая меня прекрасно знает. Но она знает меня вчерашнего, а сегодня-то я уже другой! Если я правильно понял, принципиально общение с живым человеком – он другой, я от общения с ним становлюсь богаче. Это так? И еще: для человеческого содержательного общения нужно, чтобы каждый сомневался в своей правоте? Интересно ваше мнение. Спасибо.
И. Утехин: Да, второй вопрос – это уже про диалог в другом смысле, про аргументацию. Я думаю, что девушке ничто не мешает, помимо меня прошлого, открывать мои новые горизонты. В том, чтобы так сделать, это даже не технически сложный вопрос.
Содержательная коммуникация – вы имеете в виду содержательный человеческий спор, в котором рождается какая-то истина? Сегодняшняя технология позволяет, скорее, избавиться от нажатия на кнопки и заменить его манипулированием другими средствами, в частности, словами. То есть, вместо того, чтобы запрограммировать пылесос, чтобы он работал, я могу ему объяснить. Или через какое-то время могу сказать ему, когда я хочу, чтобы он пылесосил. Это вполне содержательно, тут не нужно особо ничего, просто меняется способ коммуникации. Она и так была коммуникацией. С лопатой вот я не могу коммуницировать, потому что лопата – это инструмент простой, у него нет собственного поведения. Но наш мир сейчас обогатился такими предметами, у которых есть собственное поведение. И уже управлять ими для человека оказывается проще, особенно имея в виду, что эта технология, которая привела к появлению таких предметов нашей жизни, она очень незрелая.
В отличие от лопаты, дизайн которой шлифовался в течение сотен лет, еще полвека назад ничего подобного этим самостоятельным роботам-пылесосам не было. Поэтому тут есть свои проблемы. Просто человеческий язык оказывается способом манипулировать ими, и я не думаю, что вам захочется вести философские разговоры с пылесосом. Мы предполагаем, что в качестве психотерапевта, утешителя, друга такого рода ассистент способен выступать, но для того, чтобы обсуждать какие-то философские вещи он вам не заменит нормального собеседника, даже если мы подключим его к Стэнфордской философской энциклопедии и дадим модуль, который позволит ему фреймировать пассажи из энциклопедии и вставлять их к месту. Все равно это будет еще не то, на такое мы еще не замахиваемся. Доказывать теоремы они уже умеют – это операции с символами, а вот оперировать в реальном пространстве – простите, нет, и тут вполне возможно, что с доказательством теоремы устройство справится, а с тем, что и как интерпретировать в мире, то тут вопрос более сложный.
Вопрос 3: Спасибо большое за лекцию, вопрос относительно напряжения вашей лекции между онтологизацией и неожиданными сложностями языка. Тут происходит странный определенный ход: с одной стороны, мы постулируем, что есть новый феномен, который якобы в состоянии коммуникации к диалогу, но при этом мы говорим, что, вообще-то, диалог – это не та модель, которая строится на обмене фраз, а это поточное действие, где каждая пауза является важной, и важно совместное действие. Каким образом происходит такой странный и парадоксальный ход, где мы с одной стороны говорим, что это очень здорово, потому что появляется новый агент, новая онтология взаимодействующих, но при этом постулируем, что то, что они делают, что происходит – это не коммуникация. Нет напряжения?
И. Утехин: Это то же самое напряжение, которое существует с китайской комнатой Серля. Мы можем делать все что угодно, имитировать человеческое общение, основываясь на прагматической преемности неспецифических высказываний, как в случае «Элизы». Мы можем использовать какие-то семантические модели в узких предметных областях и интерпретировать какие-то высказывания, но такого рода разговор будет обладать лишь несколькими, а не всеми признаками той базовой формы использования языка, от которой отталкивается человек.
Но спонтанный разговор «лицом к лицу» – это не единственная форма использования языка. Более того, она не самая удобная для каких-то целей, потому что когда мы с вами поговорили, разговор растворился и улетучился. А когда вы в чате с кем-то говорите, например, у вас вся история в чате остается, вы можете ее потом посмотреть. Согласитесь, это гораздо удобнее, чем опираться на следы в памяти. Поэтому да, мы в анализе форм коммуникаций в качестве базовой модели отталкивается от спонтанного разговора, но мы знаем, что есть огромное количество самых разных жанров, которые институционально ограничены, например, семинар, который происходит сейчас. Или отклоняющиеся по тем параметрам, когда мы по телефону, в чате или на форуме пишем – это совсем другая ситуация. В том, что возникает еще одна форма использования языка, нет ничего необычного. Когда появляется новая техническая возможность, например, не было чатов, но люди писали на стене, на партах, а потом стало возможно делать это в Интернете. Появилась новая форма, но зародыш ее существовал и прежде, в принципе. И тот факт, что здесь на другом конце – не человек, не исключает того, что это именно коммуникация, а не что-то иное.
Вопрос 4: Такой немаловажный вопрос, как мне кажется, про эмоции. Как машины могут понимать эмоциональное состояние человека? Ведь даже в квази-диалогах, чтобы предложить книжку или фильм, машина должна все-таки понять: комедию вам предложить или какой-то триллер. Ведь те же самые «угу» – они разные. «Угу!», «угу?», «угу…» – пока еще техника не может их различать.
И. Утехин: Действительно, это очень важный и интересный вопрос. Есть такая Розалинда Пикар в MIT, которая возглавляет целое направление, связанное с эмоциями и их распознанием. Вообще, эмоциональная составляющая связана с несколькими аспектами этой ситуации. Человек эмоционален, и машина должна распознавать его эмоциональное состояние. Я помню, что как-то году в 1993-м я общался с одним физиологом, который говорил: «А мы встроим сенсоры в клавиатуру, которые будут измерять электропроводимость». То есть у человека кожная проводимость меняется очень быстро и реагирует на состояние человека. Или, скажем, у человека вспотели руки – эмоциональное состояние изменилось, значит, наш компьютер будет это учитывать. В 1993-м году физиологическое и эмоциональное состояние уже было в умах людей, которые задумывались о разных аспектах взаимодействия человека с компьютером.
Б. Долгин: Прошу прощения. Тут еще до вопроса об эмоциональном состоянии явно значима такая давно известная лингвистам вещь как интонация.
И. Утехин: Да, безусловно. С одной стороны, это распознание, с другой стороны – выражение. Потому что, если у нас есть какой-то нарисованный персонаж, а не просто бот, то этот персонаж или реальный «девайс» не должен говорить механическим голосом все слова одинаково. Он должен интонацией правильно показывать лингвистические функции и прагматические, и какие-то эмоции. Если его обозвали дураком, он должен обидеться и отойти в уголок: «Зачем вы меня обижаете?» и так далее, должен как-то справляться с агрессией.
В результате возникает очень интересная штука, которая, на самом деле, в прототипах существовала уже много лет назад. Когда у нас есть некоторое пространство эмоций, точнее, внутренних состояний – так, например, усталость это не эмоция, но это внутреннее состояние, у которого есть внешние проявления. В частности, в позе. Мы рисуем некоторое конечное многомерное пространство внутренних состояний и делаем мэппинг на пространство способов выражения.
Есть такой замечательный Артем Котов, который работает в Москве в Курчатовском институте, я участвовал когда-то в его проекте. Мы снимали на видео, как студенты сдают устные экзамены. Потом невербальная экспрессия аннотировалась в некоторых подробностях: что там с губами, что с глазами, какие жесты… И потом пытались приложить это сначала к нарисованному персонажу, а потом к девайсу, который выражает эмоции, говорит разным голосом и демонстрирует какие-то эмоции вовне. Было очень интересно. То есть второй аспект, наряду с распознанием эмоций человека, заключается в том, как-то на распознанное реагировать, нужно еще и свои состояния выражать. Но это выражение получается как бы имитационное.
Здесь естьи более глубокая вещь, которая не лежит на поверхности. Если у нас есть робот, по-видимому, у него, для того, чтобы он сам себя контролировал, должен быть некий аналог мотивационной системы, который был бы похож в некотором смысле на эмоции. Условно говоря, если едет робот-танк и у него отстрелили одно колесо, он должен перестраивать иерархию принятия решений, и это будет некоторым аналогом того, что ему больно. То есть, если говорить о продвинутых технических устройствах, у которых есть самостоятельное поведение, то у них должны быть мотивационные системы, сопоставимые с эмоциональными системами живых организмов. И это еще один аспект этой проблемы.
Вопрос 5: Спасибо большое за интересное выступление. Я хотела попросить чуть более подробно рассказать про роль экспериментов ваших исследований. Потому что, с одной стороны, вы много говорите про роль контекста, а с другой стороны – понятный недостаток экспериментов, что они изолируют деятельность из какой-то естественной среды. Что может влиять на результаты, которые мы получаем?
С одной стороны, вы сказали, что шизофреник не воспринимает ситуацию серьезно и пытается решить эту задачу на уровне «и так сойдет», что может быть связано с шизофренией или с ситуацией эксперимента, которая не является серьезной. А с другой стороны – какая-то более глубокая вещь, о том, что наш тип взаимодействия, то, как мы взаимодействуем, укоренено в ситуации, в которой мы взаимодействуем и том занятии, в которое мы вовлечены.
И. Утехин: Я начал с того, что этнография у нас самая важная, а этнография – это не совсем эксперимент. Но эксперименты… Понимаете, многие из тех же больных воспринимали серьезно ситуацию, у них были результаты лучше, чем у здоровых. А тут заходит лечащий врач – и все рушится, потому что пациент начинает нервничать. Да, контекст важен. Но меня интересовал контекст в другом смысле, то есть, да, мы можем предъявлять какие-то претензии экспериментам в экологической невалидности в том случае, если речь идет о чем-то, что в условиях лаборатории выглядит искусственно и в таком виде не встречается в повседневной жизни. А эти эксперименты с ширмой на соответствие воспринимались нашими субъектами, нашими больными – говорить «шизофреники» неправильно – как еще одно занятие с клиническим психологом. Потому что клинический психолог предлагает им, среди прочего, всякие тесты, это похоже на тестовое задание. Поэтому у них была, кстати, и мотивация, чтобы в этом участвовать. Они могли показать, что они вполне еще ничего и хорошо все выполняют. Тут не было особенной какой-то «неэкологичности». Для меня всегда в эксперименте важно, чтобы участники эксперимента хорошо понимали, чтобы у них в голове была четкая картина того, что от них хотят. Чтобы человек не гадал, чтобы была четкая мотивация – ради чего это делается? В каких-то экспериментах для этого приходится городить целые легенды. Но тут, как мне кажется, нет никаких моментов «неэкологичности».
В том, что я делал как антрополог, экспериментов нет. Те эксперименты с ширмой, которые были показаны, связаны с лабораторией когнитивных исследований, мы с Татьяной Черниговской это делали. Но это в высшей степени интересно, потому что сейчас возникает ситуация, особенно в области нарождающихся технологий, что исследователь в каком-то смысле экспериментатор и дизайнер. Потом что в цифровой антропологии один из способов получить данные – это придумать какое-то приложение, условно говоря. Например, мы делаем мобильное приложение, которое на стороне пользователя выглядит как игра, а для нас представляет собой источник определенного рода данных о поведении. В каком-то смысле это эксперимент.
И. Утехин: Спасибо всем, что пришли!
Вопрос 6: Скажите, а какая есть книжка, чтобы прочитать про диалог, по-русски?
И. Утехин: По-русски таких нет. Есть книга под редакцией Андрея Кибрика и Веры Подлесской «Рассказы о сновидениях». Это единственное большое исследование, которое в лингвистически приближенном варианте опирается на конверсационный анализ. А на английском много чего есть. Чтобы начать – я бы посоветовал фундаментальную работу Герберта Кларка «Usinglanguage».