All articles| All Pictures| All Softwares| All Video| Go home page| Write articles| Upload pictures

Reading number is top 10 articles
详细讲解PHP编程中分页显示的制作_[PHP教程]
PHP教程:实现网站的无限分类_[PHP教程]
ASP.NET,2.0移动开发之属性重写和模板化_.net资料_编程技术
分页,SQLServer存储过程_[SQL,Server教程]
PHP+MySQL扎实基本功_php资料_编程技术
探讨ASP.NET,2.0中的Web控件改进技术_.net资料_编程技术
经典:10个重要的PHP网络信息函数说明_php资料_编程技术
PHP中 ADODB 类库介绍(二)_[PHP教程]
通过PHP连接My,SQL的两种方法简介_php资料_编程技术
Delphi使用ADO连接SQL Server 2000数据库
Reading number is top 10 pictures
9.3阅兵全景图8-航空梯队
擦地板的大叔太好了
Li Zongrui hunting video screenshots1
A man's favorite things4
In the world the most mysterious 21 place landscape2
HongMenYan premiere XinLiangGong clairvoyant outfit PK YiFeiLiu2
陪睡门马睿菈自曝写真 称首拍大尺度照片2
Japan sexy beauty passion photo
两张抽象画
教你22句话
Download software ranking
超级战舰
Tram sex maniac 2 (H) rar bag6
Sora aoi 120 minutes
1400篇各类破解文章
Unix video tutorial5
网络管理员第三版
Sora aoi - one of more PK
Be there or be square
C语言教程TXT
Ashlynn Video1
delv published in(发表于) 2014/1/10 6:33:10 Edit(编辑)
解决网爬工具爬取页面信息出现乱码的问题_[Asp.Net教程]

解决网爬工具爬取页面信息出现乱码的问题_[Asp.Net教程]

解决网爬工具爬取页面信息出现乱码的问题_[Asp.Net教程]


问题:
网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象
原因:
读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是ASP.NET的应用程序,它读过来的编码信息都是错误的。
解决:
思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。
方法:
1:使用ASCII编码去读取页面内容。
2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但HTML标志是正确的,所有可以从HTML标志中得到编码的信息。
3.用正确的编码类型去读取页面信息。
如果哪位有更好的方法,请多赐教啊!



下面附上代码:


代码演示
using System;
using System.Collections.Generic;
using System.Text;
using System.Net;
using System.Web;
using System.IO;
using System.Text.RegularExpressions;
namespace charset
{
class Program
{

static void Main(string[] args)
{
string url = "http://www.gdqy.edu.cn";
GetCharset1(url);
GetChartset2(url);


Console.Read();
}
// 通过HttpWebResponse直接获取页面编码
static void GetCharset1(string url)
{
try
{
WebRequest webRequest = WebRequest.Create(url);
HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();


string charset = webResponse.CharacterSet;
string contentEncoding = webResponse.ContentEncoding;
string contentType = webResponse.ContentType;


Console.WriteLine("context type:{0}", contentType);


Console.WriteLine("charset:{0}", charset);


Console.WriteLine("content encoding:{0}", contentEncoding);
//测试或取页面是否出现乱码
//Console.WriteLine(getHTML(url,charset));

}
catch (UriFormatException ex)
{


Console.WriteLine(ex.Message);
}
catch(WebException ex)
{

Console.WriteLine(ex.Message);
}



}
//使用正则表达式获取页面编码
static void GetChartset2(string url)
{


try
{
string html = getHTML(url,Encoding.ASCII.EncodingName);
Regex reg_charset = new Regex(@"charset\b\s*=\s*(?[^""]*)");
string enconding = null;
if (reg_charset.IsMatch(html))
{
enconding = reg_charset.Match(html).Groups["charset"].Value;
Console.WriteLine("charset:{0}",enconding);
}
else
{
enconding = Encoding.Default.EncodingName;
}
//测试或取页面是否出现乱码
//Console.WriteLine(getHTML(url,enconding));
}
catch (UriFormatException ex)
{


Console.WriteLine(ex.Message);
}
catch(WebException ex)
{

Console.WriteLine(ex.Message);
}

}
//读取页面内容方法
static string getHTML(string url,string encodingName)
{


try
{
WebRequest webRequest = WebRequest.Create(url);
WebResponse webResponse = webRequest.GetResponse();
Stream stream = webResponse.GetResponseStream();
StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName));
string html = sr.ReadToEnd();
return html;
}
catch (UriFormatException ex)
{


Console.WriteLine(ex.Message);
return null;
}
catch (WebException ex)
{


Console.WriteLine(ex.Message);
return null;
}
}

}
}


http://www.gdqy.edu.cn页面的使用的编码格式是:gb2312
第一个方法显示的内容是:
context type:text/html
charset:ISO-8859-1
content encoding:
第二个方法显示的内容是:
charset:gb2312


所以第一个方法获取的信息是错误的,第二个方法是对的。
为什么第一个方法获取的的编码格式是:ISO-8859-1呢?
我用Reflector反射工具获取了CharacterSet属性的源代码,从中不难看出其原因。如果能获取出ContentType属性的源代码就不以看出其出错的原因了,但是搞了许久都没找出,如果那位那补上,那就太感谢了。
下面我附上Reflector反射工具获取了CharacterSet属性的源代码,有兴趣的朋友看一看。


CharacterSet源码
public string CharacterSet
{
get
{
this.CheckDisposed();
string text1 = this.m_HttpResponseHeaders.ContentType;
if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1))
{
this.m_CharacterSet = string.Empty;
string text2 = text1.ToLower(CultureInfo.InvariantCulture);
if (text2.Trim().StartsWith("text/"))
{
this.m_CharacterSet = "ISO-8859-1";
}
int num1 = text2.IndexOf(";");
if (num1 > 0)
{
while ((num1 = text2.IndexOf("charset", num1)) >= 0)
{
num1 += 7;
if ((text2[num1 - 8] == ';') || (text2[num1 - 8] == ' '))
{
while ((num1 < text2.Length) && (text2[num1] == ' '))
{
num1++;
}
if ((num1 < (text2.Length - 1)) && (text2[num1] == '='))
{
num1++;
int num2 = text2.IndexOf(';', num1);
if (num2 > num1)
{
this.m_CharacterSet = text1.Substring(num1, num2).Trim();
break;
}
this.m_CharacterSet = text1.Substring(num1).Trim();
break;
}
}
}
}
}
return this.m_CharacterSet;
}


http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html







添加到del.icio.us 添加到新浪ViVi 添加到百度搜藏 添加到POCO网摘 添加到天天网摘365Key 添加到和讯网摘 添加到天极网摘 添加到黑米书签 添加到QQ书签 添加到雅虎收藏 添加到奇客发现 diigo it 添加到饭否 添加到飞豆订阅 添加到抓虾收藏 添加到鲜果订阅 digg it 貼到funP 添加到有道阅读 Live Favorites 添加到Newsvine 打印本页 用Email发送本页 在Facebook上分享


Disclaimer Privacy Policy About us Site Map

If you have any requirements, please contact webmaster。(如果有什么要求,请联系站长)
Copyright ©2011-
uuhomepage.com, Inc. All rights reserved.