Парсинг - важный момент для написания всевозможных сайтов с объявлениями. Главное предназначения парсера - получит уже существующую информация на каком-то сайте в удобном для дальнейшего использования формате.
Часто таким образом забиваю тестовые БД, для того чтобы "поганять" систему на большой базе. Набирать и придумывать такую тестовую информацию - процес не из простых, и точно не из интересных.
Написать парсер на Ruby on Rails не составляет особого труда, так как существуют мощные библиотеки для этого, а также регулярные выражения в Руби - выше всяких похвал.
Для написания парсеров используется библиотека
HPricot(здесь находится сайт с документацией и примерами), которая позволяет используя XPath систему поиска легко вытянуть нужную информацию.
Если кому нужно поправить знания XPath, то это легко можно сделать используя
...
Читать дальше »