Высокая сетевая активность

При сборе информации с публичных источников вы должны учитывать фактор защиты от высокой сетевой активности с одного IP адреса (Flood). Большинство серверов (как и emex3.com, emex3.ru) имеют такое ограничение.

Что это означает?

Если с одного IP адреса приходит очень много запросов в короткий промежуток времени, то сайт начинает блокировать такие запросы на какой то промежуток времени, отдавая сообщение об ошибке или пустую страницу, тем самым защищаясь от возможной DDoS атаки с этого IP адреса.

Почему это так важно?

Поскольку EmEx 3 может загружать до 50 документов одновременно, то это может породить защитную реакцию сайта с подобной защитой. Процесс сканирования может быть расценен как потенциальная DoS атака и вы перестанете получать информацию с этого сервера, а соответственно и не сможете получать результаты поиска.

Как этого избежать?

Используйте Механизм распределения по доменам, когда потоки загрузки веб страниц распределяются равномерно по разным доменам

Используйте Фильтр ограничения активности

Используйте Список анонимных прокси серверов. В этом случае каждый новый запрос будет порождаться с другого IP адреса. Но в этом случае учитывайте, что скорость получения данных начинает зависеть от скорости такого прокси сервера.