DOM应用---遍历网页中的元素

news/2024/7/11 3:45:24 标签: 文档, 浏览器, 框架, internet, ie, mfc
iews" class="htmledit_views">

一、摘要
  在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改......等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都是围绕如何遍历 HTML 中的表单(form)并枚举出表单域的属性为目标的,对于网页中的其它元素,比如图象、连接、脚本等等,应用同样的方法都可以轻松实现。

二、网页的文档层次结构
  IE 浏览器,采用 DOM(文档对象模型)来管理网页的数据。它通过一个容器(IWebBrowser2/IHTMLWindow2)来装载网页文档(IHTMLDocument2),而一个文档,又可以由 0 或多个贞(frame)组成,管理这些贞的接口叫“框架集合(IHTMLFramesCollection2)”,而每个贞的容器又是IHTMLWindow2,和IWebBrowser2一样,它也装载着各自的文档(IHTMLDocument2)。因此,我们的第一个任务,就是想方设法能够得到IHTMLDocument2的接口。因为文档可能包含贞,而贞又包含着子文档,子文档可能再包含贞......,如此要得到所有的文档,这里有一个递归遍历的处理过程。
  得到文档(IHTMLDocument2)后,下一步任务就是要设法取得表单了(IHTMLFormElement)。因为在一个文档中可以包含 0 或多个表单(form),而管理这些表单的又是一个表单集合(IHTMLElementCollection),所以必须先得到集合,然后再枚举出所有的表单条目了。
  得到表单(IHTMLFormElement)后,接下来的事情就简单了,逐个提取表单中的元素(也叫表单域 IHTMLInputElement)就可以读写这些域的属性了。
  说了半天,我估计初次接触的朋友一定没有听懂:( 呵呵,还是用图的方式表示一下吧,这样比较清晰一些。
 

三、程序实现

<1> 取得 IHTMLDocument2 的接口指针。根据IE浏览器的运行方式,有多种不同的方式可以获取文档指针。
  <1.1> 如果你在程序中使用MFC的 CHtmlView 视来浏览网页。
        取得文档的方法最简单,调用 CHtmlView::GetHtmlDocument() 函数。
  <1.2> 如果你的程序中使用了“Web 浏览器” 的ActiveX 控件。
        取得文档的方法也比较简单,调用 CWebBrowser2::GetDocument() 函数。
  <1.3> 如果你的程序是用 ATL 写的 ActiveX 控件。
        那么需要调用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然后就可以通过 QueryInterface() 查询得到 IHTMLDocument2 的接口。主要代码如下:

CComPtr < IOleContainer > spContainer;
m_spClientSite->GetContainer( &spContainer );
CComQIPtr < IHTMLDocument2 > spDoc = spContainer;
if ( spDoc )
{
     // 已经得到了 IHTMLDocument2 的接口指针
}
  <1.4> 如果你的程序是用 MFC 写的 ActiveX 控件。
        那么需要调用 COleControl::GetClientSite() 得到 IOleContainer 接口,然后的操作和<1.3>是一致的了。
  <1.5> IE 浏览器作为独立的进程正在运行。
        每个运行的浏览器(IE 和 资源浏览器)都会在 ShellWindows 中进行登记,因此我们要通过 IShellWindows 取得实例(示例程序中使用的就是这个方法)。主要代码如下:
#include < atlbase.h >
#include < mshtml.h >

void FindFromShell() 
{
	CComPtr< IShellWindows > spShellWin;
	HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );
	if ( FAILED( hr ) )    return;

	long nCount=0;
	spShellWin->get_Count(&nCount);   // 取得浏览器实例个数

	for(long i=0; i<nCount; i++)
       {
              CComPtr< IDispatch ><nCount; i++)
	{
		CComPtr< IDispatch ><nCount; i++)
       {
              CComPtr< IDispatch > spDisp;
		hr=spShellWin->Item(CComVariant( i ), &spDisp );
		if ( FAILED( hr ) )   continue;

		CComQIPtr< IWebBrowser2 > spBrowser = spDisp;
		if ( !spBrowser )     continue;

		spDisp.Release();
		hr = spBrowser->get_Document( &spDisp );
		if ( FAILED ( hr ) )  continue;

		CComQIPtr< IHTMLDocument2 > spDoc = spDisp;
		if ( !spDoc )         continue;

		// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
	}
}

  <1.6> IE 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 FindWindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“Internet Explorer_Server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:

#include < atlbase.h >
#include < mshtml.h >
#include < oleacc.h >
#pragma comment ( lib, "oleacc" )

BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam)
{
	TCHAR szClassName[100];

	::GetClassName( hwnd,  &szClassName,  sizeof(szClassName) );
	if ( _tcscmp( szClassName,  _T("Internet Explorer_Server") ) == 0 )
	{
		*(HWND*)lParam = hwnd;
		return FALSE;		// 找到第一个 IE 控件的子窗口就停止
	}
	else	return TRUE;		// 继续枚举子窗口
};

void FindFromHwnd(HWND hWnd) 
{
	HWND hWndChild=NULL;
	::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild );
	if(NULL == hWndChild)	return;

	UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") );
	LRESULT lRes;
	::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes );

	CComPtr < IHTMLDocument2 > spDoc;
	HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc );
	if ( FAILED ( hr ) )	return;

	// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
}
<2> 得到了 IHTMLDocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指针的方法比较简单,取属性 IHTMLDocument2::get_frames()。
<3> 首先取得子框架的总数目 IHTMLFramesCollection::get_length(),接着就可以循环调用 IHTMLFramesCollection::item()函数一个一个地取得子框架 IHTMLWindow2 指针,然后转第<1>步。
<4> 一个文档中可能拥有多个表单,因此还是同样的道理,先要取得表单的集合(IHTMLElementCollection,其实这个不光是表单的集合,其他元素的集合,比如图片集合也是用它)。这个操作也很简单,取得属性 IHTMLDocument2::get_forms()。
<5> 属性 IHTMLElementCollection::get_length() 得到表单总数目,就可以循环取得每一个表单指针了 IHTMLElementCollection::item()。
<6> 在第<5>步中的item()函数,得到的是一个IDispatch的指针,你通过QueryInterface()查询,就可以得到 某类型输入的指针,代码如下:
// 假设 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指针
CComQIPtr < IHTMLInputTextElement >     spInputText(spDisp);
CComQIPtr < IHTMLInputButtonElement >   spInputButton(spDisp);
CComQIPtr < IHTMLInputHiddenElement >   spInputHidden(spDisp);
......
if ( spInputText )
{
   //如果是文本输入表单域
}
else if ( spInputButton )
{
   //如果是按纽输入表单域
}
else if ( spInputHiddent )
{
   //如果是隐藏输入表单域
}
else if ........    //其它输入类型
  上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 QueryInterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 IDispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:
#include < atlbase.h >
CComModule  _Module;	// 由于需要使用 CComDispatchDriver 的 IDispatch 包装类ATL智能指针,所以这个是必须的
#include < atlcom.h >
......
long nElemCount=0;		//表单域的总数目
spFormElement->get_length( &nElemCount );

for(long j=0; j< nElemCount; j++)
{
	CComDispatchDriver spInputElement;	// IDispatch 的智能指针
	spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement );

	CComVariant vName,vVal,vType;	// 域名称,域值,域类型
	spInputElement.GetPropertyByName( L"name", &vName );
	spInputElement.GetPropertyByName( L"value",&vVal  );
	spInputElement.GetPropertyByName( L"type", &vType );
	// 使用 IDispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单
	// 另外调用 Invoke 函数也异常方便,Invoke0(),Invoke1(),Invoke2()....
	......
}
四、结束语

  示例程序在 VC6 下编译执行通过。运行方法:随便启动几个 IE 浏览网页,最好是有表单输入的网页。然后执行示例的 EXE 程序即可。到这里,就到这里了......祝大家学习快乐 ^-^

下载源代码


http://www.vckbase.com/document/viewdoc/?id=1446


http://www.niftyadmin.cn/n/1534873.html

相关文章

C语言第二次作业 ,

一&#xff1a;修改错题 1输出带框文字&#xff1a;在屏幕上输出以下3行信息。 将源代码输入编译器 运行程序发现错误 错误信息1&#xff1a; 错误原因&#xff1a;将stido.h拼写错误 改正方法&#xff1a;将stido.h改为stdio.h 错误信息2&#xff1a; 错误原因&#xff1a;第二…

3、vim常用的命令

文章目录1.移动光标2.删除&#xff0c;剪切3.复制&#xff0c;粘贴4.撤销&#xff0c;反撤销5.替换6.其它技巧1.移动光标 h,j,k,l 上下左右 ^ 移动到首行 $ 移动到结尾 :n 移动到第几行2.删除&#xff0c;剪切 dd ndd :n1,n2d 删除指定的行 x 删除单个字符 dG 从光标所在的行…

基于词表和N-gram算法的新词识别实验

曹 艳 杜慧平 刘 竟 侯汉清 (南京农业大学信息管理系 210095) 摘 要 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料&#xff0c;利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法…

集群(cluster)和高可用性(HA)的概念

转载自:http://www.cnblogs.com/BlackWizard2016/p/5143816.html,侵删,只为学习所用. 1.1 什么是集群 简单的说&#xff0c;集群&#xff08;cluster&#xff09;就是一组计算机&#xff0c;它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点&#…

4、软件包安装

文章目录1.软件包分类1.2.二进制包分类2.RPM包2.1.rpm包命名规则2.2.rpm 默认安装位置2.3.rpm包常用的命令2.3.1.安装2.3.2.升级2.3.3.卸载2.3.4.查询某个软件包是否安装2.3.5.查询软件包中的详细信息2.3.6.查询软件包中的文件列表2.3.7.查询系统文件属于哪一个软件包2.3.8.从r…

Postman接口测试_基本功能

一、 安装与更新 1、安装的方式 方式1&#xff1a;chrome插件版本&#xff1a;chrome--->设置--->扩展程序&#xff1b; 方式2&#xff1a;native版本&#xff08;具有更好的扩展性&#xff0c;推荐使用&#xff09;&#xff1a;https://www.getpostman.com/ 2、Chrome…

关于最近研究的关键词提取keyword extraction做的笔记

之前内容的整理 要求&#xff1a;第一: 首先找出具有proposal性质的paper,归纳出经典的方法有哪些. 第二:我们如果想用的话,哪种更实用或者易于实现? 哪种在研究上更有意义. 第一&#xff0c; 较好较全面地介绍keyword extraction的经典特征的文章《Finding Advertising …

5、打补丁

文章目录diff命令补丁diff命令 链接&#xff0c;走你 主要使用如下命令 diff -u old.txt new.txt diff -y old.txt new.txt diff -q -r old-directory new-directory补丁 生成补丁 两个文件可以使用如下命令 diff -u a-old.sh a.sh > txt.patch 文件夹可以使用如下命令…