Часто в процессе сбора данных, одного запроса урла через CURL недостаточно, например нужна авторизация с поддержкой флэша, данные появляются на странице через JS или еще либо как-то. Для этого существуют программы, которые позволяют автоматизировать браузер. (Эммуляторы и Автоматизаторы браузера) Т.е по сути они предоставляют возможность управления браузером посредством скриптов. Я остановлюсь на одной из них более подробно. Итак Human Emulator - система для веб автоматизации.
Описание программы Human Emulator (основное) :
- программа представлена в виде интегрированной среды для разработчика (IDE)
- решаемые задачи очень многогранны, фактически все что можно сделать в браузере все делается программой
- язык на котором пишутся скрипты, управляющие работой браузера - PHP
- в программе имеется встроенный редактор записи скрипов, упрощающий решения автоматизации
- есть средства позволяющие просматривать элементы страницы и их свойства в виде различных представлений (Дерево, Инспектор, Список и т.д)
- есть панель отладки с возможностью просмотра всей необходимой информации в том числе и RAW обмен браузера
- есть возможность открывать несколько браузеров а также менять их модели (IE от 6 до 11)
- имеются средства облегчающие навигацию как в любом браузере (Панель Навигации, Фавориты, История и т.д)
- возможность многозадачного выполнения скриптов (т.е запуск нескольких экземпляров программы, каждый со своей задачей)
Как видим Human Emulator для решения наших задач сбора - просто идеальное решение . Есть много мест в инете, откуда надо собрать информацию (например по тем же поисковым запросам) без эмуляции в браузере ну никак нельзя. Например
- Yandex.Wordstat - подбор ключевых слов с Яндекса
- Rambler.Adstat - подбор ключевых слов с Рамблера
- Google Keyword Planner - подбор ключевых слов от Google
В следующих статьях я напишу скрипты, что собирают ключевые слова и данные о посещаемости с этих источников. А пока напомню где скачать базы Поисковых запросов и получить списки ключевых слов, если кого интересует этот вопрос.

Комментариев нет:
Отправить комментарий