Facebook открыл код библиотеки классификации текста fastText23.08.2016 09:15

Лаборатория искусственного интеллекта Facebook объявила об открытии исходных текстов библиотеки fastText, предоставляющей средства для классификации текста с использованием методов машинного обучения. Код написан на языке C++ и открыт под лицензией BSD. Библиотека позволяет организовать автоматическое назначение произвольного текста к категориям, на основании предварительно проведённого обучения по наборам текстов известных категорий. Например, fastText может оценить является ли письмо спамом или определить к какой категории относится статья (научная, спорт, финансы, развлечения и т.п.).

Из достоинств fastText отмечается поддержка различных языков, расширенные методы анализа слов и их сочетаний, очень высокая скорость обучения. Например, обучение fastText по базе Yahoo (13.5 Тб) длится всего 5 секунд и обеспечивает точность классификации 72.3%, в то время как char-CNN выполняет эту работу за 1 день при точности 71.2%, а VDCNN за 2 часа при точности 73.4%.