HtmlUnit爬虫
2016-05-04 本文已影响90人
三两五
首先来看一下实例
WebClient client=new WebClient(BrowserVersion.CHROME);
初始化client,可以设置不同浏览器版本的client.
HtmlPage page=client.getPage("http://www.baidu.com/");
/**设置不需要javascript支持*/
client.getOptions().setJavaScriptEnabled(false);
/**设置不需要css支持*/
client.getOptions().setCssEnabled(false);
/**获取form*/
HtmlForm form=page.getFormByName("f");
//HtmlTextInput text= form.getInputByName("wd");
HtmlInputhtmlInput= (HtmlInput)page.getHtmlElementById("kw");
htmlinput 比 htmltextinput要好,
System.out.println(htmlInput.toString());
htmlInput.setValueAttribute("雅蠛蝶");
System.out.println("input value attribute==>"+htmlInput.toString());
HtmlInputbtn= (HtmlInput)page.getHtmlElementById("su");
HtmlPagepage2=btn.click();
System.out.println(page2.asXml());