IBM: решение для работы с неструктурированной информацией

31 мая компания IBM провела пресс-конференцию, посвященную презентации в России продукта IBM Content Analytics. Это поисково-аналитическое решение для работы с неструктурированной информацией легло в основу суперкомпьютера Watson. В пресс-конференции приняли участие Дмитрий Лактионов, руководитель направления по развитию ECM (управления информационными ресурсами предприятия), IBM в России и СНГ и Мартин Свик (Martin Svik), руководитель направления по развитию ECM (управления информационными ресурсами предприятия), IBM в Центральной и Восточной Европе.

IBM

Мартин Свик и Дмитрий Лактионов

Г-н Лактионов начал с того, что 85% данных сегодня - это неструктурированный контент. Каждый день появляется 16 петабайт информации, что в восемь раз больше, чем во всех библиотеках США. К 2010 году объем информации достиг 988 Экзабайт - это стопка книг от Земли до Плутона. Кстати, неструктурированная информация - это все то, что нельзя уложить в стандартные базы данных.

Возникает вопрос: как повысить качество информации? Вот возможные пути. Отсечь полезные данные от мусора. Классифицировать имеющиеся объемы полезной информации. Как при этом обеспечить корпоративный поиск? Обеспечить сквозной поиск по разрозненным информационным ресурсам. Предоставлять наиболее релевантную информацию. Объединять информацию из различных источников для получение ответа на поисковый запрос.

По мнению г-на Лактионова, созданный в IBM компьютер Ватсон - очень серьезный шаг на этом пути.

Г-н Лактионов отметил, что классификации могут подвергаться любые типы неструктурированной информации, включая документы, электронные письма, факсы, формы и т.п. Классификация проводится как на основе содержания документа, так и путем анализа большого количества атрибутивной информации, что обеспечивает очень высокое качество получаемых результатов. IBM Classification Module способен понимать лингвистику, семантику и контекст информации, что позволяет эффективно классифицировать неструктурированную и слабо структурированную информацию на различных языках. На этапе анализа позволяет применять к каждой группе правила анализа текстов, специфические только для документов данной логической группы. На этапе поиска наличие классификации позволяет осуществлять более эффективную навигацию по результатам выполнения поисковых запросов.

IBM Content Analytics - платформа для быстрого анализа.

Суть ее - в быстром преобразовании необработанной информации в ценный бизнес-актив, без построения моделей или развертывания сложных систем. Получение результата за несколько часов или дней, а не недель или месяцев. Простота в использовании для всех работников умственного труда для поиска и изучения содержания. Гибкая и расширяемая для более глубокого проникновения в суть вопросов.

Г-н Лактионов привел несколько примеров работы новой технологии.

С ее помощью, анализируя тексты в Интернете, можно почувствовать нарастание каких-то проблем в той или иной области. Из отчетов полиции можно вычленить какие-то важные характеристики события. После такого вычленения компьютер сможет уже что-то искать и анализировать.

В США, на основе анализа жалоб в Интернете на неправильную работу насосов для введения лекарств, можно было бы своевременно принять меры по решению возникших проблем. Этого не было сделано, и, в конце концов, производитель насосов вынужден был уплатить штраф в сотни миллионов долларов. С помощью аналитики IBM проблему можно было бы предотвратить на самой ранней ее стадии.

Аналитика IBM может помочь улучшить работу любой телекоммуникационной компании, анализируя жалобы клиентов и их предложения.

С помощью этой аналитики можно понять отношение людей к тем или иным политическим решениям власти.

Еще один невеселый пример - дефекты в автомобилях. Сигнал о наличие любого дефекта начинается с обращений пользователей. У компании Тойота был дефект в модели Лексус с отказом тормозов. Как показал анализ, сигналы о нем начались за два года до страшных аварий, после который Тойота обратила на него внимание. Все можно было бы предотвратить, если бы сигналы были проанализированы с помощью аналитики IBM. Результат - миллиардные убытки.

Важно понять преимущество аналитики IBM: возможность работать на опережение возникающих проблем.

Ранее редакция THG.ru сообщала, что 10 февраля в Москве прошла пресс-конференция, посвященная анонсированию новых серверных систем на базе процессоров Power7, разработанных для управления перспективными внедряемыми приложениями, наиболее требовательными к вычислительным ресурсам. Спектр прикладных применений новых систем достаточно широк - от интеллектуальных электроэнергетических сетей до систем оперативного анализа данных для финансовых рынков.

©  Tom's Hardware