Парсинг WebArchive / Мануал
- Загружается список ключевых запросов
- Происходит парсинг поисковой выдачи ВебАрхива
- Фиксируются домены в базу
- Выявляются дропы
Если сайт находился на сабдомене, то в базу пишется основной домен, но, также фиксируется что это был саб и записывается его адрес. Пригодится в целях восстановления сайта из архива. Также, саб может не работать (и не будет), а домен занят. Лишняя трата времени. И второй сценарий: у домена 1000 гео-сабов, это 1000 проверок. Нет смысла в таком виде брать домены, есть смысл их обрезать до домена.
Так же снимаются следующие параметры:
- Года присутствия в архиве
- Количество снимков
- Текст из сниппета поисковой выдачи архива
Оптимально добавлять до 2 тысяч ключей. Обычно, достаточно 500.
