Что такое парсинг?

Что такое парсинг

Давайте на простом примере разберем что такое парсинг. Представьте, что Вы пришли в библиотеку и хотите быстро переписать все статьи из большой советской энциклопедии и разместить их у себя на сайте. И вот Вы сидите дни на пролет и изучаете каждый том, каждую статью, ищете информацию. А что если бы одним нажатием кнопки кто то за Вас сделал всю эту работу?

Или другой пример, более приближенный к реальности. Вы нашли интересный сайт с рецептами и хотите быстро и полностью скопировать их на свой сайт. Это не проблема, когда страниц всего несколько, но что если их тысячи или даже сотни тысяч? Как автоматизировать процесс, что бы не потерять время?

Это и есть процесс парсинг, только анализ и сбор информации происходит не из книг, а исключительно с интернет ресурсов. Процесс парсинга выполняется специальной программой-парсером. Она действует по определенным правилам и алгоритмам, которые закладывает разработчик. Например, можно собрать все статьи из википедии или получить телефоны с сайта объявлений авито и это лишь ничтожно малая часть возможностей парсинга. Объектом парсинга может быть блог, справочник, интернет-магазин, форум да и любой сайт который можно увидеть в интернете. Конечно, есть исключения, например когда вся инфомрация зашита во Flash ролике, то спарсить ее не получится. В любом случае перед парсингом требуется изучить ресурс-донор.

Парсер предоставляет информацию в определенном виде, который так же задается разработчиком программы. Весь процесс интернет парсинга можно разделить на несколько этапов:

  1. Получение кода интернет страницы
  2. Анализ полученных данных
  3. Обработка и формирование результата
  4. Вывод результата в файл или на экран

Результатом парсинга может быть текстовый файл, файл Эксель, csv, HTML файлы, каталог с картинками или видео и любой другой формат по требованию.

Comments (2)

  • Диана

    |

    А парсить можно все что угодно? А если сайт каким-либо образом зашифрует данные?

    Reply

    • proparsing

      |

      Все что угодно.

      Reply

Leave a comment

Copyright © 2013 ProParsing.ru
Профессиональный парсинг сайтов