В прошлых постах, я создал многопоточный сборщик поисковых результатов Google API на PHP. Из опыта использование получилось что скорость его работы сильно зависела от качества использованных проксей. Сегодня я видоизменил механизм использования проксей в этом сборщике. Для этого был полностью переделан класс CProxyVendor.
Было сделано следующее :
- прокси теперь берутся не случайно, а циклически
- после прохождения заданного числа циклов идет выбраковка плохих проксей
- при достижении минимального числа проксей в файле идет пауза (чтобы сбор продолжался дальше без бана)
Выводы :
В итоге мы получили устойчивый, быстрый сборщик поисковых результатов, производительность которого уже зависит только от количества переданных ему проксей. Теперь чтобы повысить скорость работы всего лишь нужно двигаться в нескольких направлениях :
- увеличение числа потоков (весь код готов)
- увеличение количества проксей (можно купить или насобирать ручками или нужен скрипт сбора прокси с интернета)
Т.е даже сейчас, если иметь большое число рабочих прокси серверов, то скрипт будет выполнять свои задачи. Как вариант это дело можно и купить. Цены на уже готовые списки прокси серверов не такие большие. Еще вариант получить подписку на платные прокси сервера. И еще вариант воспользоваться уже готовыми программами для сбора и тестирования прокси серверов. Ну и еще вариант - написать скрипт что будет дергать данные сам по мере необходимости с сайтов со списками бесплатных прокси серверов. Также напомню, что материалы о том где найти прокси сервера, можно найти здесь.
В следующей статье я сделаю промежуточные выводы с рекомендациями по созданию и организации сбора данных на PHP на основе предыдущих статей. Так сказать подведу итоги и определю дальнейшие направление развития кода для сбора данных.
Материалы :
Весь исходный код по этой статье можно скачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найти здесь. Где взять платные и бесплатные прокси сервера, можно найти здесь.

Комментариев нет:
Отправить комментарий