Сравнение производительности сетевых библиотек в Perl

Когда задумал сделать парсер тИЦ для LJ Add/Remove Fiends — решил для начала проверить, какой способ загрузки страниц с показателями тИЦ из скрипта окажется быстрее, поскольку это в любом случае окажется самым узким местом в производительности парсера (любая обработка уже полученных данных, если она сделана без грубых ошибок типа бесконечного цикла, происходит гораздо быстрее загрузки этих данных по сети).

Для начала проверил на локальной машине (первый тест), затем на сервере (второй тест). Воспользовался модулем Benchmark::Timer, по сути он ставит метки начала и конца, после чего вычисляет разницу между ними (то же самое несложно получить с использованием Time::HiRes). У Benchmark::Timer правда есть дополнительная возможность — он может гонять тест до получения результата с заданной обеспеченностью и заданным процентом ошибки.

Третьим тестом, уже из чистого любопытства (поскольку результат был предсказуем) был тест многопоточной загрузки. Естественно этот вариант оказался быстрее любого из однопоточных, в среднем в два раза (при 15 потоках).

Выводы — библиотеки Perl не только выгодней с точки зрения безопасности, но и работают стабильно быстрее вызовов системных утилит. Самую медленную загрузку показал Wget, основывать парсер на нём — явно плохая идея. Многопточность естественно вне конкуренции. Подробности ниже.

Объекты и условия тестирования

Модули Perl:
- LWP::UserAgent 6.02
- LWP::Curl 0.07-1
- WWW::Curl::Easy 4.15
- LWP::Parallel::UserAgent 2.57 (15 потоков)
Внешние загрузчики:
- Wget 1.12
- Curl 7.21.3

На локальной машине каждым способом загружалось по 200 страниц, с сервера — 100. Тесты выполнял по 5 раз, результаты усреднил (меня интересовали отношения результатов между собой, а не абсолютные значения). Ссылки передавались скрипту из файла, содержащего запрос тИЦ для 400 различных адресов, например:
http://bar-navig.yandex.ru/u?ver=2&show=32&url=http://nadonenado.livejournal.com

Результаты тестирования скорости загрузки страниц в Perl

200 запросов с локальной машины: tail -n 200 www-get-speed-data.txt \| perl www-get-speed.pl
Trails: 200	LWP-UA	9.523s total	47.615 ms/trial
	LWP-Curl	8.500s total	42.499 ms/trial
	Wget 1.12 qx{}	15.392s total	76.958 ms/trial
	WWW-Curl-Easy	9.081s total	45.405 ms/trial
	Curl 7.21.3 qx{}	13.340s total	66.698 ms/trial
100 запросов с сервера (США): tail -n 100 www-get-speed-data.txt \| perl www-get-speed.pl
Trails: 100	LWP-UA	42.861s total	428.611 ms/trial
	LWP-Curl	41.762s total	417.615 ms/trial
	Wget 1.10.2 qx{}	46.554s total	465.543 ms/trial
	WWW-Curl-Easy	40.748s total	407.476 ms/trial
	Curl 7.20.0 qx{}	45.750s total),	457.500 ms/trial
Параллельные запросы с сервера (100, по 15 одновременных): tail -n 100 www-get-speed-data.txt \| perl lwp-parallel-ua.pl
100 trial	LWP-PUA	22.967s total	229,670 ms/trial

Код тестов для проверки скорости выгрузки страниц на Perl

Загрузка страниц из Perl в один поток (LWP, CURL, Wget)

Спойлер

[cc lang=»perl» escaped=»true»]
#!/usr/bin/perl
use warnings;
use strict;
use utf8;
use Benchmark::Timer;
# проверим производительность разных модулей
use LWP::UserAgent;
use LWP::Curl;
use WWW::Curl::Easy;
# + wget, curl через системный вызов
my $agent = q{‘Mozilla/5.0 (Windows; Windows NT 6.1; rv:2.0) Gecko’};
my $wget = ‘/usr/bin/wget -q -O /dev/null’.» —user-agent=$agent «;
my $curl = ‘/usr/bin/curl —silent —output /dev/null’.» —user-agent $agent «;

# тестовые ссылки получаем из станд. ввода
my @tst_url = <STDIN>;

my $timer = Benchmark::Timer->new(skip => 0);
my $lwp_ua = set_lwp_ua();
my $curl_ua = set_curl_ua();
my $lwp_curl = set_lwp_curl_ua();