Что происходит, когда используешь искусственный интеллект, отключив при этом свой

В данной статье будет произведена критика недавно написанного поста про Анализ Корана при помощи AI. Что-ж, кому интересно, как анализ проводить не следует, добро пожаловать под кат.

Неточности


Начнем с того, что автор во введении пишет:
…, а потом проанализировал весь текст манускрипта.
хотя при этом был произведен анализ 7 из 114 сур Корана. В общем, без комментариев.

Дальше веселей:

Если предположить, что текст Корана писался не одним человеком, а несколькими …
Для человека, который хоть чуточку изучал историю данного вопроса, подобное звучит как: «если предположить, что детей приносят аисты …». Безусловно, есть дикие фантазии отдельных историков, которые предполагают, что Коран был создан несколькими людьми и т.п., тем не менее, это не более чем фантазии, подобные Новой хронологии Фоменко.

Ну и наконец:

Корреляция между двумя массивами данных отчетливо заметна даже визуально, а именно 0.7839422223, что говорит о прямой связи между классификаторами пола и настроенем текста.
Я бы по 7 числам не строил такие глубокие выводы о том, как устроен классификатор.

Использование не по назначению


Watson


На сайте Ватсона четко и недвусмысленно написано: «You need text written by the person whose personality you’re interested in. It should contain words about every day experiences, thoughts, and responses.», то есть ему нужны тексты с рассказами о повседневном опыте, мыслях и ответах человека. Как человек, не раз прочитавший Коран, скажу, что он не подходит под это описание. А вот то, о чем же все-таки повествуется в Коране, советую каждому изучить самостоятельно. Сразу будет понятно, кому интересно докопаться до истины, а кому поставить очередную галочку «уф, эти глупые верующие».

Кажется, дальнейшие комментарии по Ватсону излишни.

uClassify


Может хотя бы этот инструмент автор использовал по назначению? Давайте посмотрим: «It is well suited for both short and long texts (tweets, Facebook statuses, blog posts, product reviews etc). It«s trained on 2.8 million documents with data from Twitter, Amazon product reviews and movie reviews. It can be used to conduct research, brand surveys and see trends around market campaigns.» Эх, опять разочарование! Данный классификатор был обучен на постах из Твиттера, Фейсбука, блог постах и обзорах продуктов. Скорее всего в обучающей выборке было колосальное множество коротких простых предложений, в то время как стиль изложения Корана иной. Результат был бы чуточку интересней, если бы это обучили на текстах из классической литературы.

Немного анализа


Про Ватсона я скажу лишь то, что заметил один хабровчанин в комментариях: если изменить стиль Корана с simple на Uthmani, то результат изменяется, что крайне странно. Эти две «версии» совпадают слово в слово, буква в букву, а отличаются лишь огласовками и подсказками для читающих. То есть суть одна и та же, а результат разный. В общем, IBM Watson есть куда стремиться.

Куда интересней дела обстоят с uClassify. Да, пусть он обучен на коротких, не очень релевантных текстах, но почему он думает, что в Коране так много негатива? Давайте разбираться.

Одна из первых мыслей, которая пришла мне в голову, а давайте я посмотрю на окраску отдельных слов, наверняка, это на многое прольет свет. Как вы думаете, какое самое часто употребляемое слово в Коране? Не сложно догадаться, что это слово «Аллах». Давайте посмотрим на его окраску:

  • Allah — 35% позитивное, 65% негативное

Эм… слегка предвзятое отношение, не правда ли? В дважды больше негатива… Давайте для сравнения возьмем другие слова:
  • God — 53% позитивное, 47% негативное
  • killer — 50% позитивное, 50% негативное
  • kill — 33% позитивное, 67% негативное
  • murder — 45% позитивное, 55% негативное

На всякий случай отмечу, что у верующего должны быть позитивные мысли по отношению к Богу. В доказательство (ага, прямо как в математике, это вам не ля-ля) приведу начало следующего хадиса:
Пророк, да благословит его Аллах и приветствует, сказал: «Аллах Всевышний говорит: «Я буду таким, каким считает Меня раб Мой …»
Исламские ученые, комментируя этот хадис говорят: «Имеется в виду, что Аллах сделает для человека именно то, чего он будет от Него ожидать.»
Кроме того, из наиболее часто употребляемых имен Аллаха в Коране: Милостивый, Милосердный, Прощающий, Мудрый и т.д. Вы ни за что не найдете там ни одного, которое бы имело негативную окраску.

Но все же, любопытство взяло верх, и что-то дернуло меня проверить еще несколько слов на эмоциональную окраску:

  • Quran — 22% позитивное, 78% негативное
  • Merciful — 17% позитивное, 83% негативное
  • Mercyful — 57% позитивное, 43% негативное

«Воу-воу-воу, парень, палехчи», как оказалось, у него очень предвзятое отношение к Корану, слово Милостивый он считает супер-негативным, а вот датскую хеви-метал-группу с кучей сатанических знаков вполне себе позитивной.

Вместо заключения


Я понимаю, что AI — это стильно, модно, молодежно, но всегда стоит думать своей головой, критически мыслить и проверять результаты. Ладно то автор, по тексту кажется (могу ошибаться), что ему нужно было сделать какое-нибудь быстренькое исследование, но что печально, так это то, что еще человек 50 «лайкнули» этот пост, то бишь «глубина» исследования автора их вполне удовлетворила.

Всем добра, позитивных мыслей и точных классификаторов! ;)

Комментарии (1)

  • 21 августа 2016 в 00:03

    0

    Давно заметил, что читать в русскоязычной википедии хоть что-то, относящееся к исламу совершенно невозможно. Все поле зачищено упертыми мусульманами, и разглядеть под этим слоем что-то хоть отдаленно напоминающее правду решительно невозможно.
    В поисках истины приходится читать алглоязычную вики.

© Habrahabr.ru