Для успешного добавления новой ПС в программу вы должны иметь представление что такое Регулярные выражения. Первым делом вам нужно найти ПС которую вы хотели бы добавить. В нашем примере такой ПС будет http://search.about.com/. Чтобы открыть конструктор для добавления поисковой системы нужно в левой нижней части парсера, под списком поисковых систем нажать на кнопку "Добавить свою ПС".
После нажатия на кнопку у вас откроется меню в котором вам нужно будет заполнить данные о ПС. Начнем с добавления названия для нашего нового поисковика и ссылки на его главную страницу. Название для поисковой системы можно вводить только латинскими буквами без использования спец. символов! Назовем ПС "About", а в домене укажем - search.about.com. Можно указать и с http. Разницы нет.
Далее все действия с ПС в браузере будут описаны на примере браузера Google Chrome. Но вы можете воспользоваться любым другим браузером. Переходим на http://search.about.com. На главной странице ПС нам нужны два элемента 1 - Строка поиска и 2 - кнопка поиска.
Нажимаем правой кнопкой мышки по строке поиска и из контекстного меню выбираем пункт "Просмотр кода элемента"
Откроется код страницы. В коде серым цветом будет выделена строчка
<input id="sv" name="q" value="" validate="required" data-error-msg="Please enter something to search for!">
Если мы нажмем на эту строчку то она выделится синим цветом при этом в браузере данный элемент тоже будет подсвечен.
Теперь нам нужно определить идентификатор по которому программа будет определять это поля. Для строки поиска это может быть id и name. Как видно по картинке у данного поля есть id и name (id="sv" name="q"). Можно использовать любой из них, но в примере мы выберем name. Введем эти данные в программу. Тип идентификатора оставим как есть, т.к по умолчанию там уже выбран "name". В поле имени идентификатора введем соответственно его имя. В данном примере это "q".
Теперь нам нужно узнать идентификатор кнопки для поиска. Вы можете найти кнопку в коде воспользовавшись уже ранее открытым окном с кодом, либо так же как и в случаи "строки поиска" нажать правой кнопкой по нужному элементу чтобы открылось новое окно где код данной кнопки будет уже выделен. Код кнопки для поиска:
<button class="btn" id="btn_bot" type="submit"/>.
Для определения кнопки поиска можно использовать 4 идентификатора. Name, id, innertext и class. У данной кнопки есть 2 идентификатора по которым её можно определить (class="btn" id="btn_bot"). Воспользуемся атрибутом id.Введем эти данные в программу. Тип идентификатора выберем id, а в поле для его имени введем btn_bot. Все, теперь программа сама сможет вводить запрос и начинать поиск.
Осталось научить программу парсить запросы и переходить по страницам ПС.
Выполните любой поисковый запрос в ПС которую вы добавляете. В нашем примере это будет слово "Hello". После выполнения запроса откроется страница с выдачей. Правой кнопкой мышке кликаем по ссылке из выдачи, чтобы открыть код страницы
Посмотрев внимательно код мы можем увидеть что все ссылки из выдачи находятся в теге <div> у которого есть атрибут id с именем "ntwk". Укажем имя данного тега в программе.
Теперь Выберем область поиска в данном теге. Выбираем в программе "outerhtml". Вводить какое-то либо имя не нужно. outerhtml означает что наше регулярное выражение будет искать все что находится внутри тега который имеет атрибут id с именем "ntwk".
Теперь напишем регулярное выражение для сбора ссылок. В данном примере она будет выгладить так:
href="(.*)">
В выдаче будет то что указано в скобках. Т.е если указать без скобок ссылки будут собираться ссылки так:
href="http://php.about.com/od/learnphp/qt/hello_world.htm">
Со скобками ссылки собираться будут так:
http://php.about.com/od/learnphp/qt/hello_world.htm
Без лишнего мусора.
Подробней о сборе ссылок:
- Мы определили общую черту для поиска ссылок. В нашем примере это то что ссылки находятся внутри тега <div> с id именем "ntwk"
- Мы отметили что именно нам нужно найти в данном теге. Поскольку никаких специфических идентификаторов у тега нет, мы выбрали смотреть все что находится внутри тега.
- Мы указали регулярное выражение которое помогло нам найти ссылки внутри тега <div>.
- Представим ситуацию что в коде ссылки записаны не так:
<a href="http://php.about.com/od/learnphp/qt/hello_world.htm">PHP "Hello, World!" Basic Print Script - PHP/MySQL - About.com</a>
А скажем так:
<a class="MyClass" href="\http://php.about.com/od/learnphp/qt/hello_world.htm">PHP"Hello, World!" Basic Print Script - PHP/MySQL - About.com</a>
Как видим, у всех ссылок появляется общая черта. Они находятся в теге у которого есть атрибут class с именем "MyClass". Т.е мы можем в качестве общей черты указать атрибут class с именем MyClass, вместо тега <div>. Тогда программа будет искать все теги, у которых есть атрибут class="MyClass"/ В области поиска можно указать не поиск всего что есть внутри тега, а конкретного атрибута. Как видно ссылка находится внутри атрибута href. Т.е область поиска выбираем href, а в поле RegExp запишем .* - собрать всё что внутри данного атрибута.
Теперь осталось только определить кнопку для перехода на следующую страницу. Принцип точно такой же как и с кнопкой поиска.
Видим что у кнопки есть атрибут class с именем search-next. Его и укажем в программе.
Все. Настройки ПС закончены. Осталось только нажать на кнопку "Добавить ПС" чтобы она появилась среди списка поисковых систем.
Для того чтобы внести изменения в созданную вами ПС нажмите на шестеренку с права от имени вашей ПС.
После внесения нужных правок, просто нажмите на любую область вне границ окна чтобы оно закрылось. Все изменения будут сохранены.
Чтобы удалить ненужную ПС, просто нажмите правой кнопкой мыши по ней вы выберете "Удалить ПС"
Заметка: Утилита доступна исключительно в премиум версии программы.
Recommended Comments
There are no comments to display.