Парсинг WebArchive / Мануал

  1. Загружается список ключевых запросов
  2. Происходит парсинг поисковой выдачи ВебАрхива
  3. Фиксируются домены в базу
  4. Выявляются дропы

Если сайт находился на сабдомене, то в базу пишется основной домен, но, также фиксируется что это был саб и записывается его адрес. Пригодится в целях восстановления сайта из архива. Также, саб может не работать (и не будет), а домен занят. Лишняя трата времени. И второй сценарий: у домена 1000 гео-сабов, это 1000 проверок. Нет смысла в таком виде брать домены, есть смысл их обрезать до домена.

Так же снимаются следующие параметры:

  1. Года присутствия в архиве
  2. Количество снимков
  3. Текст из сниппета поисковой выдачи архива

Оптимально добавлять до 2 тысяч ключей. Обычно, достаточно 500.