В предыдущих статьях я описал как организовать сбор поисковых результатов Google, используя его API, в многопоточном режиме на PHP. Приведу материалы в порядке публикации :
- Немного теории о Сборе Данных с Веба
- Пишем простейший сборщик, использующий Google API на PHP. (Запрос и Сохрание)
- Пишем простейший сборщик, использующий Google API на PHP. (Циклы и Продолжение)
- Пишем простейший сборщик, использующий Google API на PHP. (Прокси)
- Пишем простейший сборщик, использующий Google API на PHP. (Многопоточность)
- Пишем простейший сборщик, использующий Google API на PHP. (Классы)
- Пишем простейший сборщик, использующий Google API на PHP. (Увеличение эффективности Прокси)
Этот цикл статей рассказывал о принципах сбора данных в интернете. Теперь подведем итоги. Как видно из эволюции исходного кода, для того чтобы написать более менее рабочий сборщик данных с интернета нужно пройти следующие этапы :
- Выбрать источник сбора (мы выбрали Google API для поисковых результатов)
- Выбрать метод сбора (мы выбрали язык программирования PHP)
- Написать единичный запрос данных и их сохранение
- Определится с тем как получать данные массово (мы выбрали текстовый файл с запросами и запросы в цикле)
- Работать над улучшением эффективности сбора (мы выбрали прокси и многопоточное выполнение PHP кода)
- Работать над структурированностью и расширяемостью кода (мы выбрали классы и реорганизацию кода)
- Улучшать по мере сил эффективность сбора (мы выбрали улучшение эффективности использования прокси)
- Дальнейшие улучшения эффективности сбора (опишу в следующих статьях)
Выводы :
В итоге всех действий мы получили полностью рабочий сборщик. Единственный его минус - это когда прокси становится мало, запросы через них останавливаются или идут с меньшей эффективностью. То есть для полномасштабного сбора надо или вводить паузы чтобы наш сборщик не давал банить эти самые прокси или чтобы прокси пополнялись в процессе работы сборщика или использовать другие методы. При правильном подходе в результате нескольких итераций мы получим сборщик, который будет устраивать нас по всем параметрам. На этом я закончу вводный обучающий курс и перейду к более интересным и практичным задачам.
Далее я собираюсь модифицировать код и написать на основе его сборщик ключевых слов по поисковым подсказкам Google. Отладить и запустить его на сбор. Поисковые слова вещь хорошая и ценная. На основе них можно много чего сделать. Мне же они нужны для своих целей, которые приносят хороший доход. Спасибо за внимание.
Материалы :
Весь исходный код по этой статье можно скачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найти здесь. Где взять платные и бесплатные прокси сервера, можно найти здесь.

Комментариев нет:
Отправить комментарий