В этой статье я опишу какие возможности есть у Хуман Эмулятора для работы с Интернетом. За это отвечает категория PHP объектов, называемая WEB. Условно поделю их на несколько подкатегорий:
Объекты для работы с браузером и веб-страницей
- browser – управление встроенным браузером. Это основной объект для эмуляции работы в браузере. Содержит массу возможностей:
- навигация, проверка статуса статуса навигации
- работа с закладками (в каждой закладке - свой браузер)
- получение и установка системных параметров (модель браузера, его версия, юзер агент, а также папки куков и кэша)
- получение и установка визуальных параметров (размер браузера и страницы, позиции скролов)
- получение и установка контентных параметров (наличие картинок, видео,фреймов,java,java scripts и т.д)
- работа с JS (включать и выключать, выполнять встроенные и произвольные JS скрипты)
- работа с прокси серверами (задать прокси, снять прокси и получить текущий прокси)
- работа с кукисами (установка и получение )
- работа с popup страницами
- работа с сообщениями браузера
- работа с окнами авторизации браузера
- работа с диалогом загрузки и выгрузки файлов
- работа с акцептами и реферерами
- выполнение встроенных команд браузера (сохранение страницы, печать страницы, смена масштаба и т.п ...)
- выполнение POST и GET запросов
- проверки статуса соединения
- webpage – работа с текущей веб страницей. Этот объект нужен для обработки и получения содержимого веб страницы. Позволяет делать следующее:
- работать с телом страницы (позволяет получать разные части страницы а также заменять страницы в браузере)
- получать информацию по текущей веб-странице (кодировку, активный элемент,урл,домен, исходник и т.п)
- также содержит много других полезных функций (сохранение страницы , скриншот страницы , поиск координат по рисунку и многое другое)
Как видно эти два объекты уже сами по себе достаточно мощные средства управления браузера. Но есть еще и другие, следующая подкатегория объектов это объекты доступа к сервисами распознавания капч.
Объекты для доступа к сервисам распознавания капч:
- anticaptcha – распознование капчи используя сервис AntiGate.com
- ripcaptcha – распознование капчи используя сервис RipCaptcha.com
- evecaptcha – распознование рекапчи используя сервис Eve.cm
- bypasscaptcha – распознование капчи используя сервис bypasscaptcha
- captchabot – распознование капчи используя сервис captchabot.com
Как видно из названий добавить тут нечего, разве что каждый объект отвечает за свой сервис, на входе передается картинка каптчи и ключ сервиса, а на выходе имеем результат распознания каптчи или людьми или в полуавтоматическом режиме. За каждое такое распознание с нас взимается небольшая сумма денег, обычно 2-3 бакса за 1000 каптч. Хочу отметить только работу сервиса антигейт, на мой взгляд - лучший сервис из всех, хотя бывает загружен, и тогда лучше использовать их все вместе.
Объекты для работы с заданными протоколами и сервисами Интернета:
- connection – управлением соединением с интернетом. Объект позволяет следующее:
- получение параметров текущего соединения (модем, сеть, есть инет или нет и т.д)
- получение локального и реального ай-пи адреса
- работа с Ethernet (запускать и отключать заданные сетевые соединения)
- работу с RAS (управление модемными соединениями - логин, перезапуск)
- ftp – работа с фтп. Позволяет работать с фтп соединением и может следующее :
- подсоединятся и отсоединяться от фтп
- работать с фтп папками
- работать с фтп файлами
- другие полезные фтп команды
- mail – работа с почтой. Данный объект работает с POP3 и SMTP соединениями, и может следующее
- соединятся по POP3 и SMTP
- управлять параметрами POP3 и SMTP соединений
- получать количество писем на сервере и получать эти письма по POP3
- по POP3 получать различную информацию о письме с сервера, не удаляя само письмо (дата, тема, от кого, размер и т.п.)
- отсылать сообщения по SMTP в текстовом и HTML видах
- proxycheker – управление прокси - чекером. Этот объект служит для проверки работоспособности прокси серверов и может делать следующее :
- работа со списком прокси (добавление, добавление из файла, убирание дубликатов и редактирование)
- получение информации по списку прокси и других различных характеристик по каждому из прокси адресов
- собственно управление самим процессом тестирования (запуск, останов, задание качества и скорости тестирования)
- raw – управление raw потоками браузера. Этот объект служит для получения информации об обмене браузера с сервером и может следующее
- включать и выключать слежение за различными типами протоколов
- получать последнюю запрошенную информацию браузером (урлы и заголовки)
- получать последнюю отвеченную сервером информацию (урлы и содержимое)
- очищать последнюю информацию
- вмешиваться в процесс запроса информации и ее получения
Т.е эта подкатегория позволяет решать уже ряд очень специфических задач, возникающих в процессе сбора данных. Ну а последняя подкатегория - это вспомогательная.
Вспомогательные объекты :
- seo – набор функций, связанных с SEO. Данный объект позволяет получать карту сайта, а также внешние и внутренние ссылки. Весьма вспомогательный.
- submitter – вспомогательный объект для сабмита информации в веб. Этот объект более нам интересен с точки зрения постинга в веб. Хотя иногда чтобы что-то собрать с веба надо туда что-то запостить, например те же регистраторы аккаунтов. Содержит следующий функционал
- получение случайных географических данных (страна, регион, город, улица)
- получение случайных ников, имен и фамилий
- получение случайных строк и чисел
Т.е как видим из описания функционала, Хуман Эмулятор умеет весьма много. И это мы обязательно будем использовать создавая наши скрипты сбора данных. А в следующей статье я расскажу про категорию Window, тут собраны объекты, помогающие хуман эмулятору взаимодействовать с Windows а также управлять любыми другими сторонними программами и окнами.

Комментариев нет:
Отправить комментарий