Nougat: Neural Optical Understanding for Academic Documents
Meta опубликовал на Github исходный код ПО, ориентированного на обработку научных документов.
Как правило, научные знания хранятся в книгах и научных журналах, часто в формате PDF. Однако формат PDF приводит к потере семантической информации, особенно в отношении математических выражений. В связи с этим предложено использование модели Nougat (Neural Optical Understanding for Academic Documents), основанной на технологии Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки LaTeX.
Предложенный подход обещает стать перспективным решением для повышения доступности научных знаний в цифровую эпоху.
Исходный код распространяется по лицензии MIT, обученная модель по CC-BY-NC.
Попробовать можно здесь.
>>> Подробности