Поиск текста на списке сайтов

Мне нужно было проверить несколько тысяч страниц на наличие определенного слова. Слово есть — помечаем URL как нужный. Отсутствует — отбраковываем. Сайт не открывается — делаем соответствующую отметку.

Такую задачу можно решить вручную потратив несколько дней, а можно автоматизировать и выполнить за пару часов. Скрипт проверен на Python 3.4.2, для работы нужно установить модуль requests:

или

в зависимости от используемой операционной системы.

В директории со скриптом создаем файл urls.txt, заносим туда список URL проверяемых страниц. Каждая запись с новой строки.

Создаем поддерикторию results, в ней будут храниться результаты обработки в виде текcтовых файлов с названием состоящим из запроса для поиска. Потом вы можете загнать их в Excel и отфильтровать записи по статусу.

Запускается скрипт в таком формате:

Архив с примером и исходный код:

Проект на GitHub’е: page-text-finder

Пост опубликован: 23.08.2015

Теги:   

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *