[Из песочницы] Частотный анализатор английских слов, написаный на python 3, умеющий нормализовывать слова с помощью WordNet и переводить с помощью StarDict
Привет всем!Я учу английский и всячески упрощаю этот процесс. Както мне потребовалось получить список слов вместе с переводом и транскрипцией для определенного текста. Задача не была сложной, и я принялась за дело. Чуть позднее был написан скрипт на python, все это умеющий, и даже умеющий чуть больше, поскольку мне захотелось получить еще и частотный словарь из всех файлов с английским текстом внутри. Так вышел маленький набор скриптов, о котором я и хотела бы рассказать.
Работа скрипта заключается в распарсивании фалов, выделении английских слов, нормализации их, подсчете и выдачи первыx countWord слов из всего получившегося списка английских слов.
В итоговом файле слово записывается в виде:
[число повторений] [само слово] [перевод слова]
О чем будет дальше:
- Мы начнем с получения списка английских слов из файла (используя регулярные выражения);
- Дальше начнем нормализовывать слова, то есть приводить их с естественной формы в тот вид, в котором они хранятся в словарях (тут мы немного изучим формат WordNet);
- Затем мы подсчитаем количество вхождений у всех нормализованных слов (это быстро и просто);
- Дальше мы углубимся в формат StarDict, потому что именно с помощью него получим переводы и транскрипцию.
- Ну и в самом конце мы куда-нибудь запишем результат (я выбрала файл формата Excel).
Читать дальше →