All articles| All Pictures| All Softwares| All Video| Go home page| Write articles| Upload pictures

Reading number is top 10 articles
apache的几个设置(目录,权限等)_php资料_编程技术
Asp.net数据库操作类,c#_[Asp.Net教程]
SQL,游标学习_mssql学习_编程技术
一个操作Sql,Server,2000的公共类_[Asp.Net教程]
用XML和XSL来生成动态页面_[XML教程]
.Net中常见问题及解决方法归类_[Asp.Net教程]
asp.net验证控件失效原因及解决方法_[Asp.Net教程]
滑动展开/收缩广告代码实例效果_JavaScript技术_编程技术
不用图像也能构造圆角框_[Html教程]
PHP应用:PHP在linxu下的安装与配置_[PHP教程]
Reading number is top 10 pictures
程序员的悲哀
这张图有两句话,你看出来了吗?
2012 national geographic daily picture8
Sora aoi on twitter3
Nine school beauty star those gossip matters
NeedWallpaper5
锄禾日了几个人?
yy365网站上的美女1
再发两张抽象画
Li Zongrui hunting video screenshots2
Download software ranking
Boxer's Top ten classic battle10
双旗镇刀客B
Prostitutes diary
Unix video tutorial14
jBuilder2006
金山office2007
Boxer's Top ten classic battle9
Dance with duck(male prostitution)
Unix video tutorial20
Sora aoi, the maid, students' uniforms
归海一刀 published in(发表于) 2014/2/10 6:51:44 Edit(编辑)
任意字符集下正常显示网页_[PHP教程]

任意字符集下正常显示网页_[PHP教程]

任意字符集下正常显示网页_[PHP教程]

通常情况下,我们的网页要指定一个编码字符集,如 GB2312、UTF-8、ISO-8859-1 等,这样我们就可以在网页上显示我们指定编码的文字了。但是我们很可能会遇到这种情况,那就是我们可能希望在 ISO-8859-1 编码的网页上显示汉字,或者在 GB2312 编码的网页上显示韩文等。当然一种解决办法就是我们不用 ISO-8859-1 或者 GB2312 编码,而统统都采用 UTF-8 编码,这样我们只要在这种编码下,就可以混合显示各国文字了,这是现在很多网站采用的方法。


而我这里所说的并非上面这种方法,因为上面这种方法必须要指定字符集为 UTF-8 才可以,一旦用户手工指定为其他字符集,或者可能因为某些原因,那个字符集设置没起作用,而浏览器又没有正确自动识别的话,我们看到的网页还是乱码,尤其是在某些用框架作的网页中,某个框架中的页面如果字符集设置没起作用,在 firefox 中显示乱码而且还没法改变(我是说在不装RightEncode插件的情况下)。


而我这里介绍的方法即使是把网页指定为 ISO-8859-1 字符集,也能够正确显示汉字、日文等。原理很简单,就是把除了 ISO-8859-1 编码中前128个字符以外的所有其他的编码都用 NCR(Numeric character reference) 来表示。比如“汉字”这两个字,如果我们写成“汉字”这种形式,那么它在任意字符集下都可以正确显示。根据这个原理,我写了下面这个程序,它可以把现有的网页转化为在任意字符集下都能显示的网页。你只需要指定源网页的字符集和源网页,点提交按钮,就可以得到目标网页了。你也可以只转化某些文字,只需要把文字填写到文本框中,并指定这些文字原来的字符集,点提交按钮,就会在页面上面显示编码后的文字了。另外我还编写了 WordPress 的插件,现在我的 Blog 已经可以在任意字符集下都能正确显示了。


实现方法:


首先第一步是要把源字符集的字符串转化为UTF-16字符集,做这一步是因为UTF-16字符集中的每个字符都是两个字节,后面处理起来很容易,而如果在源字符集上直接做处理则很复杂。源字符集可以从原网页中的meta标签中获得,也可以单独指定,我的程序是让用户在表单中指定源字符集,因为我不能保证用户提交的文件就一定是HTML文件(其他文件也是可以的,比如这个WordPress的汉化包源文件是个po文件,它里面的内容也可以这样处理),而且即使是HTML文件,里面也不一定就有用于指定字符集的meta标签,所以通过表单单独指定字符集比较保险。你可能会觉得将一种字符集转化为另一种字符集很复杂,确实如此,如果自己来实现的话,确实非常麻烦,但是用PHP来做却很容易,因为它里面已经包含这样的函数了,你可以通过iconv函数很容易的来实现各种字符集之间的转化,如果你的机器上没有安装iconv扩展,你也可以使用mb_convert_encoding函数,如果Multibyte String扩展也没有安装,那就没办法了,因为你要自己实现那么多种编码的转化基本上是不可能的,除非你是顶级大牛!推荐使用iconv,因为这个效率高,支持的字符集也更多。


做完上面那一步之后,接下来是以每两个字节为单位对字符串进行处理。这两个字节直接转化为数字就是&#xxxxx;中的xxxxx,如果这个数字小于128就直接使用这个字符(注意这里就变成单字节了),否则就使用&#xxxxx;的形式。这里有一点要注意,就是当这个数字是65279(16进制的0xFEFF)时,请把它忽略掉,因为这个是Unicode编码中的传输控制字符,而我们现在的字符串已经只有iso-8859-1编码中的前128个字符了,所以我们不需要它了。


好了,基本思路就是这样,下面是实现的程序:




  1. function nochaoscode(encode, str) {
  2. str = iconv(encode, "UTF-16BE", str);
  3. for (i = 0; i < strlen(str); i++,i++) {
  4. code = ord(str{i}) * 256 + ord(str{i + 1});
  5. if (code < 128) {
  6. output .= chr(code);
  7. } else if (code != 65279) {
  8. output .= "&#".code.";";
  9. }
  10. }
  11. return output;
  12. }
  13. ?>


函数的参数中,encode是源字符集,str是需要进行转化的字符串。返回结果是转化以后字符串。







添加到del.icio.us 添加到新浪ViVi 添加到百度搜藏 添加到POCO网摘 添加到天天网摘365Key 添加到和讯网摘 添加到天极网摘 添加到黑米书签 添加到QQ书签 添加到雅虎收藏 添加到奇客发现 diigo it 添加到饭否 添加到飞豆订阅 添加到抓虾收藏 添加到鲜果订阅 digg it 貼到funP 添加到有道阅读 Live Favorites 添加到Newsvine 打印本页 用Email发送本页 在Facebook上分享


Disclaimer Privacy Policy About us Site Map

If you have any requirements, please contact webmaster。(如果有什么要求,请联系站长)
Copyright ©2011-
uuhomepage.com, Inc. All rights reserved.