ابزارهای استخراج اطلاعات از صفحات وب

web scraping یا استخراج اطلاعات از لابلای صفحات وب از آن کارهای جالبی است که هم انجامش خیلی سخت نیست هم این که گاهی اوقات اثر بخشی بالایی داشته و خیلی کار راه بنداز است. طبق معمول در سکوهای مختلف ابزارهای مختلفی برای انجام این کار وجود دارد.

یکی از ابزارهای معروف این کار در دات‌نت Html Agility Pack است. با دقت به نمونه کدهای آن می‌توان اظهار داشت که استفاده از آن خیلی راحت است. فقط کافی است کمی با XPath، ساختار داخلی Html و string processing آشنا باشید تا بتوانید به راحتی از آن برای استخراج اطلاعات از صفحات وب بزرگ و پیچیده استفاده کرد. با کمک این ابزار می‌توان صفحات، لینک‌ها، pagingها و دیگر عناصر صفحات وب را browse کرده و اطلاعات مورد نیاز را استخراج کرد.