.Net
C#에서 NSoup을 이용한 HTML 파싱하기
Dokon Jang
2021. 4. 6. 17:28
반응형
NSoup은 JSoup의 닷넷 버전입니다.
HTML과 XML을 파싱할 때 번거롭게 XPath를 사용하지 않아도 됩니다.
간편하게 HTML의 class, id, name 등을 이용하여 쉽게 Element를 찾을 수 있답니다.
- C# 프로젝트의 NuGet에서 NSoup을 설치하세요.
- 심플한 NSoup 예제입니다.
// 위키에 연결하며, Timeout은 5초로 지정합니다.
Document doc = NSoupClient.Parse(new Uri("https://en.wikipedia.org/"), 5000);
// HTML의 타이틀입니다.
Debug.WriteLine(doc.Title);
// id가 mp-itn인 태그 하위에 b태그의 하위 a태그 Elements 추출
Elements newsHeadlines = doc.Select("#mp-itn b a");
foreach (Element headline in newsHeadlines)
{
Debug.WriteLine(headline.Attr("title") + " : " + headline.AbsUrl("href"));
}
반응형