Оглавление / Уроки

Урок 3. Многообразие возможностей инструмента "Анализатор базы ссылок и отчётов" в XRumer-е

В этом уроке будет продемонстрировано использование инструмента XRumer-а «Анализатор базы ссылок и отчётов» для трёх абсолютно разных задач:

  1. Фильтрация адалт-ресурсов из базы - по хостнеймам
  2. Извлечение из смешанной базы только phpBB-форумов
  3. Проверка базы на «200 OK» - т.е. извлечение только рабочих ссылок

Это лишь несколько примеров, которые демонстрируют, что этот инструмент можно использовать с абсолютно разными целями. Т.е. помимо этого с помощью него можно извлечь только русскоязычные ресурсы (НЕ по доменной зоне), или ресурсы только определенного движка / определенной тематики и т.д. и т.п.

Пример 1: фильтрация адалт-ресурсов из базы - по хостнеймам

Предположим, что если в доменном имени хоста содержится адалтовый ключевик - то и сам домен имеет некоторое отношение к адалту. Это утверждение верно на 97%, т.е. подавляющее большинство найденных доменов будут удовлетворять нашему требованию, а погрешность в 3% особо картину не изменит.

  1. Возьмем адалтовые ключевики, я для примера взял 5 ключевиков:
    sex
    intim
    porn
    xxx
    erotic
  2. Настроим инструмент. Для фильтрации я взял базу LinksList id22.txt, которая идет в комплекте с XRumer-ом. Фильтровать будем не по контенту, а по доменным именам (хостнеймам) - следовательно, количество потоков играть особой роли не будет.
    В поле «Искать:» вбиваем наш список ключевиков. Должна получиться следующая картинка:
  3. Жмем на «Пуск». Т.к. анализ идет по доменным именам, процесс займет всего 2-3 секунды, и уже можно видеть результат:

Как видно, результат сохранился в создавшуюся базу LinksList id22_mod.txt. Открываем ее - в ней сохранилось 773 ссылки (если бы мы прописали не 5 ключевиков, а хотя бы 20-30, разумеется нашлось бы в разы больше):

...
http://www.sexpacking.com/forum/read.php?2,358,page=6
http://www.asexuality.org/discussion/index.php
http://sex-work.org/forums/index.php
http://forum.literotica.com/sendmessage.php
http://www.telefonsex2002.de/telefonsex-forum/index.php
http://www.labanlieuesexprime.org/forum.php3?id_article=2
http://www.yusex.com/forum/index.php
http://www.sexy-tipp.ch/forum/messages/21867/1481.html?1098903062
http://www.pod-porn.com/cgi-bin/distribb/ultimatebb.cgi
http://bbs.porncity.net/index.php
http://www.asexstories.com/community/index.php
http://www.nofauxxx.com/boards/phpBB2/index.php
http://phebus.journalintime.com/forum/
http://www.pornstarkings.com/index.php
http://greatsexgames.com/forums/index.php
http://www.worldsexguide.com/forum/index.php
http://www.sexinfo.ro/forum/index.php
...

Есть, конечно, небольшие погрешности - ведь слово «express» после слова, оканчивающегося на «s», будет создавать наш ключевик «sex» - но такие элементано отфильтровываются при необходимости вторым заходом.
Задача по сбору адалтовых доменов из смешанной базы выполнена менее, чем за 5 минут.

Пример 2: извлечение из смешанной базы только phpBB-форумов

  1. Теперь будем анализировать не по доменным именам, а по контенту. Процесс схожий, но поиск ключевиков идет не в именах хостов, а в контенте сайтов. Поэтому всё значительно дольше. Напишем несколько ключевиков (keywords), которые являются 99%-м призаком того, что это phpBB-форум:
    phpBB
    viewforum.php
    viewtopic.php
    profile.php?mode=register
  2. Выставляем настройки. Список ключевиков прописываем в поле «Искать:», выбираем «Поиск в:» → «Content», потоков на канале 5 Мбит я ставлю 30 - чтобы особо не загружать канал. Выбираем базу - я на этот раз выбрал базу русскоязычных форумов LinksList id2.txt. Имеем следующее:
  3. Жмем на «Пуск». За несколько минут проверено уже более 3.000 ссылок…

По завершении, через полчаса - в сформировавшейся базе LinksList id2_mod.txt получаем более 11.000 форумов на движке phpBB (из базы на 25.000):

...
http://AvtoSreda.RU/forum/index.php
http://www.stroykann.ru/forum/index.php
http://www.krada.org/forum/index.php
http://forum.neoclub.ru/index.php
http://forum.sch192.ru/index.php
http://www.arbinada.com/modules.php?name=Forums
http://forum.mashexport.com/index.php
http://forum.kayman-k.ru/index.php
http://fengshuiby.com/forum/index.php
http://autoshina.kz/frm///index.php
http://www.kachok.ru/forum/index.php
http://www.evrostroika.ru/forum/index.php
http://forum.spblove.ru/index.php
http://mirabeltour.com/mirabelforum/index.php
http://forum.americanfootball.ru/index.php
http://www.f1-game.ru/forum/index.php
http://cinema.kgd.info/forum/index.php
http://forum.zapavto.ru/index.php
http://forum.vinfo.ru/index.php
...

Пример 3: проверка базы на "200 OK" - т.е. извлечение только рабочих ссылок

  1. Этот пример - практически аналогичен, поиск тоже по контенту. Но, для проверки на «200 OK» нет необходимости скачивать всю страницу, можно прочесть лишь ее заголовок (см. спецификацию HTTP-протокола). И в начале этого заголовка обязательно должно содержаться «200 OK» - если же там идет «404 NOT FOUND» или «403 FORBIDDEN», то эта ссылка нам явно не нужна.
    Таким образом, в поле «Искать» следует поместить лишь одну строку:
    200 OK

    Обратите внимание: «OK» именно латиницей, а не русскими буквами

  2. Выставляем практически те же настройки, что в предыдущем примере, но дополнительно выставляем галку «Проверять только заголовок контента», потоков - 50. Фильтрацию я решил делать по базе LinksList id30.txt, получиться должно примерно следующее:
  3. Жмём на «Пуск», процесс пошёл в несколько раз быстрее (40 ссылок/сек, вместе 12 ссылок/сек, как в предыдущем примере), т.к. мы делаем поиск только по заголовкам контента, ведь «200 OK» идет именно в заголовке:

Кроме того, как видно по картинке, в результирующую базу попадают практически все ссылки: из 1.357 ссылок попало в результирующую базу LinksList id30_mod.txt 1.256 ссылок - т.е. практически все ссылки в анализируемой базе являются «живыми». А ссылки, где хост уже закрыт, либо выдается ошибка «404 Not Found» и т.п. - отсеиваются.

Желаю удачи в экспериментах! Осмыслив этот материал, вы осознаете, что данный инструмент можно использовать в очень разных направлениях, а не только в тех, что я описал выше.


См. также: • Урок 1. Обучение XRumer-а новым текстовым капчамУрок 4. Используем сразу два почтовых ящика в проекте, или как избежать бана почтовикаУрок 5. Возможности инструмента "Фильтр базы ссылок"Урок 6. Как рассылать ответы в чужие топикиУрок 9. XRumer 5.0 - выжимаем макс.пробиваемость ПРАВИЛЬНО!Урок 10. Социальная инженерия в ходе рассылкиУрок 11. Постинг в блоги WordPressУрок 12. Пробиваем непробиваемоеУрок 13. Транслируем на весь мирУрок 14. Обучение XRumer-а 7.0 новым текстовым капчамУрок 15. Дорвеестроение - 2012Урок 16. SocPlugin - обходим ограничения соц.сетейУрок 17. Новый XRumer и DrupalУрок 18. Пакетная генерация РасписанияУрок 19. Обучение XRumer-а текстовым капчам на SMFУрок 20. Заполняем пачки аккаунтов в соц.сетях на автомате!Урок 21. Таргетированный сбор анкет в соц.сетяхУрок 22. Раскрываем возможности АвтоответчикаУрок 22 (а). Специфика работы с движками Discuz, DLE, Ucoz
Печать/экспорт
QR Code
QR Code Урок 3. Многообразие возможностей инструмента "Анализатор базы ссылок и отчётов" в XRumer-е (generated for current page)
Языки