Совет Безопасности публикует новые документы на сайте и рассылает их по почте. Выглядит это уныло:
Нет краткого описания, количества страниц, да и документы приходится открывать в браузере.
Пишу код на Пайтоне, который получает RSS с ссылками на документы и скачивает их:
Пробовал загружать документы через requests, но не вышло: сервер ООН отдаёт файлы через несколько перенаправлений, по которым модуль следовать не умеет. Поставил Selenium — запускает headless Chrome, запрашивает файл и следит за вкладкой с загрузками:
Конечно, проще посчитать количество файлов в списке загрузок, чтобы определить не появился ли новый. Но headless Chrome отображает лишь шесть последних файлов, так что пришлось сравнивать имя последнего в списке с последним загруженным.
Далее программа вытаскивает из PDF документов заголовки, пару абзацев и отправляет в Телеграм:
Загружаю код на сервер и добавляю запуск в крон.
Моя первая программа на Пайтоне.