[Из песочницы] Tableau Software представляет интерфейс естественного языка для создания визуализации

Привет, Хабр! Представляю вашему вниманию перевод статьи «Tableau talks up natural language interface for creating visualizations» Peter Sayer.

Поставщик BI стремится упростить и автоматизировать анализ данных в рамках растущей тенденции к внедрению возможностей AI (искусственного интеллекта) в инструменты BI.

image

Сколько статистиков необходимо для построения новой модели данных? По словам Tableau Software — нисколько. В компании заявляют, что следующая версия широко используемого аналитического инструмента сделает это сама.

Tableau продемонстрировала это на прошлой неделе в новой функции под названием Ask Data, которая позволяет пользователям создавать визуализации, описывая, на естественном языке чего они хотят. Сделано это было на мероприятии для клиентов в Новом Орлеане. Кроме этого, компания продемонстрировала новые функции автоматизации в своем инструменте подготовки данных.

Это часть растущей тенденции среди разработчиков корпоративного программного обеспечения для автоматизации и упрощения задач, которые когда-то требовали специальных навыков, позволяя предприятиям более эффективно использовать свои данные и передислоцировать квалифицированный персонал на менее трудоемкую работу.


Достижения в области искусственного интеллекта облегчают корпоративным разработчикам программного обеспечения ввод данных на естественном языке — устном или печатном — и выводят необходимую пользователю информацию, вместо того, чтобы заставлять его изучать конкретные команды или оперировать объектами на экране для достижения своих целей. AI все чаще используется в ведущих инструментах BI в надежде «демократизации» аналитики и науки о данных.

Microsoft Power BI, конкурент Tableau, внедрил функцию под названием «вопросы и ответы» уже несколько лет назад, но даже в последних демонстрациях предложение кажется более сложным в грамматике и орфографии, чем Tableau Ask Data. Тем не менее, они оба опережают в развитии компанию Dundas BI и подобные, которые по-прежнему используют перетаскивание для создания визуализаций.

Реализация Tableau позволит пользователям запрашивать базу данных и предоставлять возможность программному обеспечению самостоятельно выяснить, как должны быть объединены таблицы базы данных, какие столбцы должны быть выбраны и какие операции необходимо выполнить для получения требуемого ответа. Эта и другие новые функции появятся в Tableau 2019.1, выход которой ожидается в начале следующего года, а бета-версия — выпущена в конце октября.

»Такие функции автоматизации приветствуются и необходимы, — сказала главный аналитик Forrester Марта Беннетт. — Мы получаем все больше данных, но у людей, работающих с ними, нет такого количества времени».

По ее словам, специалисты по работе с данными тратят до 80 процентов своего времени на подготовку данных, и чем меньше времени они будут тратить на это, тем больше они смогут заниматься теми функциями BI, которые приносят непосредственную пользу бизнесу.

Один из способов преодолеть нехватку времени у специалистов — передать большую часть объема работы машинам. Другой способ — упростить работу с данными для людей, которые ранее не могли сами работать с ними из-за необходимости обладания специальными навыками. Это, так называемая, «демократизация» данных.


»Но есть риски в предоставлении данных большему количеству сотрудников: данные не могут заменить экспертные знания в предметной области и трезвую оценку ситуаций», — сказала Марта Беннетт.

»Прежде чем сделать новые функции автоматизации широко доступными, ИТ-директора должны протестировать их на своем опыте, чтобы определить, подходят ли они», — советует она.

Инструменты, предлагающие анализ данных без четких рекомендаций, могут запутать пользователей в том, какие действия следует предпринять.

»Если вы не даете кому-то подробных инструкций, то не стоит ожидать, что он сделает все правильно с первого раза».
— Марта Беннетт, главный аналитик Forrester


Однако вы не можете просто возложить всю ответственность на программное обеспечение.

»Автоматизация — это не то же самое, что и контроль. За всеми этими вещами все равно необходимо следить. На суде не очень хорошо будет звучать, если вы скажете, что компьютер сам сделал это, и мы понятия не имеем, почему», — предупреждает Марта Беннетт. Эта проблема давно известна как проблема «черного ящика» AI.

Дополнительно вам нужно выяснить, подходят ли ваши данные для инструмента автоматизации: в частности, системам машинного обучения требуется много данных для работы.

»Если вы применяете алгоритмы машинного обучения к данным, где у вас больше исключений, чем нормальных, это не сработает», — сказала она.


На мероприятии в Новом Орлеане менеджер по визуальной аналитике Эндрю Виньо продемонстрировал возможности Ask Data в базе данных краудфандинговых проектов Kickstarter, показав, что, в отличие от большинства компиляторов, Ask Data не требует идеальной пунктуации для работы.

Программное обеспечение превратило его запрос «какое было общее финансирование» (дословно) в «сумму финансирования» и вернуло ответ. Когда он напечатал «по годам» и «по статусу», Ask Data преобразовывала его запрос в «сумму финансирования по сроку и по статусу». Затем, не имея никаких дополнительных данных, она, подготовила цветную линейную диаграмму, показывающую, зеленым цветом финансирование успешных проектов, увеличивающееся с каждым годом, в то время как финансирование неудачных, отмененных или приостановленных проектов (красный, оранжевый и желтый) остается неизменным.

Вопрос «какие категории были успешными» вызвал другой визуальный ответ: Ask Data добавила «по категориям, статус фильтра — успешный» к предыдущему запросу и нарисовал гистограмму ранжирования категорий Kickstarter по количеству успешных проектов в порядке убывания.

Сотрудники давно желали, чтобы корпоративное программное обеспечение выполняло то, что они хотели, даже если им не удалось точно сформулировать задачу, и Эндрю Виньо показал, что Tableau приближается к этому. Когда он набрал «сопоставить со средним фнансироване» (дословно), Ask Data показал ему разброс числа проектов рядом со средним финансированием для разных подкатегорий технологических проектов, которые он просматривал ранее.

Некоторые вещи в Tableau по-прежнему быстрее сделать с помощью мыши, особенно если вы медленно печатаете: добавление подкатегорий «мода» и «игры» к диаграмме рассеяния занимает всего четыре клика.


Несколько кликов — это все, что потребовалось его коллеге Тайлеру Дойлу для создания новой модели данных, которая отображает поля, используемые Tableau для анализа данных в SQL-запросах и которые может понять базовая база данных.

»Мне достаточно кликнуть мышкой по одной строке — «Добавить связанные объекты», и ваша модель данных готова, без необходимости определять, какие таблицы использовать, как они связаны, или какое это, левое или правое соединение. Новые возможности моделирования данных в Tableau просто делают это вместо вас.»
— Тайлер Дойл


»Как модель данных узнала правильные соотношения между этими таблицами? » — интересуется Дойл. Оказывается, Tableau опирается на ИТ-директоров, а также их администраторов баз данных и специалистов по работе с данными. Для того чтобы помочь ему выполнить этот трюк, необходимо убедиться, что необходимая информация хранится в хранилище данных.

Подготовка данных — еще одна область, над которой работает Tableau. Старший инженер Захира Валани показала, как Tableau Prep может автоматизировать очистку данных с помощью «ролей». Tableau использует их для идентификации полей, которые выполняют определенную роль — такие вещи, как URL-адреса, адреса электронной почты или географические указания (государства или почтовые индексы). Валани показала, как всего за пару кликов Tableau Prep может проверить содержимое поля, чтобы определить наиболее подходящую роль, а затем выделить недопустимые элементы, которые не соответствуют роли, и либо установить их в «null», либо отфильтровать эти строки. То же самое можно проделать и с пользовательскими ролями, например перечислимыми типами.

По словам главного сотрудника по продуктам Tableau, Франсуа Эйенстата, Tableau Prep будет обновляться ежемесячно, в отличие от графика трех релизов в год для основного программного обеспечения Tableau.

Планирование — это функция уже другого инструмента, бета-тестирование которого сейчас проходит в компании: Tableau Prep Conductor. Оно позволит предприятиям автоматизировать подготовку своих источников данных, перемещая их в Tableau по выбранному ими графику. Это отдельный продукт из Tableau и для его использования потребуется отдельная лицензия. Старт продаж запланирован уже в следующем году.

© Habrahabr.ru