Сравнение возможностей чат-ботов с ИИ на примере решения задач UX-исследователя

Сегодня я поделюсь с вами результатами сравнения популярных чат-ботов с генеративным искусственным интеллектом. В этой статье я расскажу об их возможностях, ограничениях и особенностях использования из России.

В моем сравнении участвовали:

  • ChatGPT;

  • Claude.ai;

  • Bard;

  • Bing Chat;

  • YaGPT;

  • GigaChat.

Оценка качества работы чат-ботов дана на основе личного опыта использования. 

Хочу сразу оговориться, что результаты работы чат-ботов могут варьироваться в зависимости от конкретного инструмента и задачи, а качество выдачи может быть неидеальным. Иногда, чтобы достичь желаемого результата, приходится дополнительно уточнять запросы или просить чат-бота раскрыть тему подробнее. Также важно осознавать, что при проведении анализа чат-боты с ИИ могут упускать часть информации или допускать ошибки.

Несмотря на недостатки, чат-боты уже сейчас могут стать полезными помощниками в работе исследователя, а со временем их возможности будут только расти.

В общем, если вы давно интересовались чат-ботами с ИИ и думаете о том, какой из них выбрать для работы, эта статья для вас. 

  1. Сравнение чат-ботов с генеративным искусственным интеллектом 

Давайте проведем сравнение ключевых особенностей чат-ботов на базе генеративного ИИ.

c047766d2caf008b7c21e0c38725494b.jpeg

Для быстрого старта идеально подходят ChatGPT или Bard. Они просты в использовании, не требуют сложной регистрации и позволяют сразу начать экспериментировать с ИИ.

GPT-4 — хороший выбор для работы с данными, текстом и генерации картинок в одном инструменте. Нужна регистрация и оплата подписки.

Claude — лучшее решение, когда нужен анализ больших объемов текста. Сэкономит много времени на обработке данных из интервью и опросов.

Bing Chat, YaGPT и GigaChat, на мой взгляд, не очень полезны для решения профессиональных задач на текущий момент.

Идеальный вариант — комбинировать несколько чат-ботов. Это позволит получить максимально точный и полный результат за счет сильных сторон разных ИИ.

В следующих разделах я поделюсь с вами детальным анализом и примерами работы чат-ботов, чтобы вы могли на практике оценить их возможности.

  1. Сравнение качества генерации текста

Для сравнения возможностей генерации один и тот же запрос на генерацию текста был отправлен в 7 популярных чат-ботов с ИИ. Запрос звучал так:

«Представь, что ты опытный исследователь юзабилити. Перед тобой стоит задача разработать хороший шаблон дизайна исследования. Шаблон нужен, чтобы заказчик и исследователь смогли согласовать цели, методы, этапы, результаты и другие важные детали проекта».

На основе этого запроса чат-боты сгенерировали свои варианты шаблона. Далее я оценил качество текста от 1 до 5 звезд.

В этой статье я демонстрирую сравнение, опираясь на один пример. Однако, основываясь на моем личном опыте, могу сказать, что результаты от этих чат-ботов будут схожи по качеству на большинство запросов.

GPT-3.5

Качество генерации текста: ★★★

Структура шаблона в целом логичная, но не хватает важных разделов. Формулировки больше похожи на заголовки подразделов. Присутствуют лишние разделы, нет единообразия стиля.

f19d0e1ab96167c87ef51e0fefc5c837.png

GPT-4

Качество генерации текста: ★★★★★

Структура хорошая, но есть несущественные разделы. Заголовки в разных стилях, зато описания в нужном формате.

18ca7d9e73a2ca523f86cfe0135b27ea.png

Claude 2.1

Качество генерации текста: ★★★★★

Структура полная и логичная, все разделы уместны. Описания похожи на подразделы. Выдержан единый стиль.

7e0cab1c1192dc487ca794b0b9468c61.png

Bard

Качество генерации текста: ★★★★★

Структура продуманная, разделы логичны. В тексте попадаются ошибки. Выдержан единый стиль.

748152299025e5695cd6a73b075c52b3.png

Bing Chat

Качество генерации текста: ★

Просто выдал отрывки не совсем подходящих статей. Не годится для создания шаблона.

ff147fe1209fb647983ee3481d8cb260.png

YandexGPT

Качество генерации текста: ★★

Структура нормальная, но только поначалу. Далее следует бессистемный набор текста, больше похожий на отчет.

28724a06fb7021ec294f6fb0e77a6eb6.png

Giga Chat

Качество генерации текста: ★★

Сгенерированный текст больше похож на отчет. Не подходит в качестве шаблона.

9e59ef9dfc38f1f87db22854309ef349.png

Таким образом, наиболее эффективными в выполнении профессиональных задач оказались Claude 2.1, GPT-4 и Bard. Остальные чат-боты показали меньшую эффективность в решении специализированных задач, но их возможности продолжают расти.

  1. Сравнение качества анализа текста чат-ботами с ИИ

Чтобы оценить способность чат-ботов работать с большими объемами текстовой информации (расшифровки интервью, ответы на открытые вопросы и т.д.), я загрузил в них расшифровку интервью и попросил подготовить сводный отчет по заданной мной структуре. Мой запрос звучал следующим образом:

«Привет! Представь, что ты –часть команды опытных UX-исследователей и профессиональных аналитиков текстовой информации. Перед тобой стоит задача проанализировать и систематизировать информацию из предоставленной расшифровки интервью. Цель — подготовить исчерпывающий отчет об опыте пользователя на платформе «Турнир.ру». Проанализируй расшифровку и структурируй данные в соответствии со следующей структурой:

  • общий профиль пользователя;

  • описание решаемых задач;

  • драйверы участия;

  • барьеры участия;

  • причины оттока;

  • проблемы пользователя.

Помни, что важно опираться исключительно на информацию из интервью, не добавляя ничего от себя».

В итоге чат-боты проанализировали текст расшифровки и сформировали отчет по заданной структуре.

GPT-4

Качество анализа текста: ★★★★

Выделил ключевую информацию, но упустил некоторые важные детали. Хорошо структурировал данные в нужном формате.

Одну звезду снял из-за ограничения на обработку информации до 7 страниц текста за раз.

ddefad52c774094a2ca3ca8864b9f152.pngf515525a0b5bd05c842cebc79350ab13.pngdb7529105d377af653d929f77c12ae20.png

Claude 2.1

Качество анализа текста: ★★★★★

Выделил практически всю важную информацию, детализировал ключевые моменты. Отлично структурировал данные в заданном формате.

e60417e945755c93910e0dd4501f26f0.png9b68c5f61ee4d609e0189b71ec365e1b.png

Bard

Качество анализа текста: ★★★★

Сделал хороший свод важной информации по разделам. Есть небольшие потери важной информации. 

Одну звезду снял из-за ограничения на обработку информации до 8 страниц текста за раз.

0b90696e6f6f558ed013bc8d53e363a0.png

GigaChat

Качество анализа текста: ★★★

В целом неплохо выделил ключевые моменты. Во всех разделах присутствуют потери важных деталей. Плохо оформляет данные, нужна большая доработка.

Также есть ограничение на ввод текста — до 8 страниц за раз.

1520fa86de42b86cb2f5ef1319cecfeb.png979c91ceedef2e3c29e39b9382bf96ae.png

Несмотря на текущие ограничения, чат-боты на базе генеративного ИИ уже сейчас демонстрируют впечатляющие результаты при решении профессиональных задач UX-исследователя.

Лидерами среди рассмотренных мной инструментов можно назвать Claude 2.1, GPT-4 и Bard. Они позволяют эффективно генерировать тексты, анализировать данные и значительно облегчают рутинную работу с обработкой информации.

Разумеется, чат-боты пока не способны полностью заменить квалифицированного специалиста. Требуется комбинировать возможности ИИ и профессиональные навыки человека, чтобы достичь лучшего результата в работе.

В то же время потенциал для автоматизации ряда задач и повышения эффективности рабочих процессов в сфере UX-исследований уже сложно недооценивать.

Рекомендую начать экспериментировать с чат-ботами и искать способы их применения, ориентируясь на ваши задачи и специфику работы. 

© Habrahabr.ru