当前位置:首页 > 关于CNNIC > CNNIC通讯 > CNNIC通讯第二十二期 >> 正文

中文域名简繁体等效
 
                             ——中国专家参与撰写的第二个IETF标准:RFC3743 
                             中国互联网络信息中心(CNNIC)技术部副主任  李晓东博士

   国际互联网标准制定组织IETF发布的关于国际化域名的建议标准RFC3454、RFC3490、RFC3491、RFC3492没有能够解决中文域名异体等效,特别是中文域名简繁体等效的问题,因此中国互联网络信息中心(CNNIC)联合亚洲其他主要使用汉字的国家和地区(日本、韩国以及我国台湾地区)一起撰写了标准草案,期望从域名注册管理的层面来力图解决这一难题,以保护注册者的利益,并使得用户既可以通过输入繁体也可以通过输入繁体来访问中文域名网站。

   中国互联网络信息中心(CNNIC)作为我国域名注册管理机构,自1998年就开展了中文域名的研究工作,并积极参与有关多语种域名国际标准的制定工作。2004年4月14日,以中国互联网络信息中心(CNNIC)钱华林教授作为作者之一的IETF标准RFC3743《中日韩多语种域名注册标准》(Guidelines for Internationalized Domain Names Registration and Administration for Chinese, Japanese, and Korean)正式发布,这是自1996年以来,我国技术人员主导制定并发布的唯一一个有关互联网基础技术的IETF标准。这一标准直接涉及互联网域名系统这一基础层面,是我国参与互联网国际技术标准制定的一个重大突破。这个RFC是IETF历史上由来自中国大陆专家参与撰写的第二个RFC。

   背景

     RFC3743撰写的初衷是一个为中日韩(CJK,Chinese, Japanese,  Korean)语言设计的有关IDN注册和管理的指导方针,是以技术手段来保持注册管理方式的实施,主要是包含一个注册和管理的技术解决方案以及与技术解决方案算法相配套的异体字对照表。这个处理方案一样可以被其他具有同样异体等效处理需求的语种所使用。

    设计原则

   IDN-Admin Guideline的设计基于以下的原则:
 域名字段应当与特定语言相绑定。域名字段可能与很多种语言绑定,但是应该尽量避免这种情况,因为与多种语言绑定的结果可能直接导致这个域名是不可被注册的,因为要根据特定语言的字符集范围来检查域名字段在特定语言集合内的合法性。

 定义特定语言的有效字符集。虽然Unicode收录非常多的字符,但是并不是任何国家都会使用所有的字符,尤其是没有任何国家将所有字符都定义为合法的字符或者是官方使用的字符。因此对于一个域名字段,应该检查它在所有绑定语言中的正确性,即这个字段中字符的组合是否在所有绑定语言中都是合法的。

 保留域名的变体。由于在特定语言里,一个名字通常具有很多的异体,因此以此名字作为域名字段的异体应当被保留,以保障拥有者的权益,并在适当的时机由拥有者激活(Activation)或者去活(Deactivation),即加入域名数据库提供域名解析,或者从数据库中移出。

 常用变体加入解析服务。域名可能有多种异体,但是并不是所有的异体都是常使用的或者正式使用的,其中经常使用的可能只有一小部分,甚至只有一到两个,而只有这些常用异体才应该被加入DNS系统的Zone文件提供解析服务。

 异体数量应该进行适当收敛。名字可能会有极多的异体或者没有意义的异体组合。比如一个具有10个汉字的名字,如果每个字符都具有一个除本身之外的异体形式,那么它就有1024(1k)个异体形式,而这些异体中,有些是有意义的,有些是无意义的,对这些异体的保留或者解析会导致增加系统的负担,因此,可以采取合理的方式来收敛限制减少这些异体的数量,以减少系统复杂性。

 名字和异体集合的原子特性。一个名字和它的变体一旦被生成之后,那么就是紧密相关的,应该作为一个包(IDL Package)进行操作,而不能分开操作,以保证它的原子特性。

    核心算法和对照表

    RFC3743的核心在于一个注册和管理的算法以及算法所使用的异体对照表。

    注册和管理算法是这个注册和管理方案的核心,它的核心思想是:

输入是一个域名字段(IDL)以及与之绑定的语言特征,然后根据对照表得到需要加入DNS系统 Zone文件提供解析的建议值,以及要为注册用户保留的保留值。具体到解决中文繁简体等效问题,就是用户输入一个要注册的域名,根据算法,可以得到它的符合使用习惯和相关标准的全繁体以及全简体域名,以及其他的一些变体(包括繁简混杂形式)。
这个算法还有两个配合算法:激活算法和去活算法,用来将保留集合中的域名加入DNS系统Zone文件提供解析,或者将已经加入Zone文件提供解析的域名再转移回到保留集合。
异体对照表是这个注册和管理方案的基础,表中所有码点采用Unicode方式进行表示,每种语言都有与其对应的对照表。对照表的格式为三栏:

 第一栏为有效码点栏:这一栏中所有字符的集合构成了特定语言的有效码点集合,这个集合用来检查用户注册域名的合法性,只有域名所有码点均属于这个集合,这个域名才被认为是在此语言中是合法的;

 第二栏为建议码点栏:这一栏被用来生成IDL的建议值,它表明了有效码点在特定语言环境中的建议值(通常为常用形式或者官方形式);(对于中文而言,就是常用的繁体字或者简体字)

 第三栏是异体码点栏:是指对应于有效码点在特定语言中的所有异体,这一栏被用来生成IDL的所有异体形式。

    我们已经了解,基于RFC3743的定义,中文异体等效对照表分为三栏,第一栏为有效字,第二栏为建议字,第三栏为异体字。由于中文包含中文简体和繁体形式,因此中文异体等效对照表也有两个,一个是中国大陆使用的简体形式对照表,另一个是港澳台使用的繁体形式对照表。根据目前的商定,两个表的有效码点栏是一样的;建议码点栏我们是简体字,港澳台是繁体字;异体码点栏也是一样的,这样制定中文异体等效对照表的目的是为了保护注册用户的利益,使得用户注册一个中文域名得到的相关异体形式也是一样的。

    示例

    比如我们注册一个域名为“国国.cn”,为了支持中文繁简体等效,我们认定这个域名的绑定语言集合为{ZH-CN,ZH-TW},即中文繁体和中文简体。

    那么根据算法以及与之配合的中文异体字对照表,我们可以得到这个域名的建议值为“国国.cn”以及“國國.cn”,即用户注册域名的全简体域名和全繁体域名,以及其它14个保留值“国國.cn”、“國囯.cn”、“ 国國.cn”、“国囯.cn”、“国圀.cn”、“國国.cn”、“國囯.cn”、“國圀.cn”、“囯国.cn”、“囯國.cn”、“囯囯.cn”、“囯圀.cn”、“圀国.cn”、“圀國.cn”、“圀囯.cn”和“圀圀.cn”。

    两条建议值加入域名数据库提供解析,这样别人就可以通过输入全简体和全繁体域名进行访问,而保留值也可以在一定条件下应注册者的要求加入域名数据库提供解析。

    最终,一方面保护了域名注册者的利益,提交一条“国国.cn”的注册申请,可以同时免费获得一条繁体域名,并获得一组保留值以保护其品牌;另一方面提高了用户访问的成功率,用户可以输入全简体也可以输入全繁体进行访问。比如输入全繁体或者全简体进行访问,这一点对于在域名访问层面上做到两岸互通具有十分重要的意义,大陆用户可以输入简体域名访问港澳台的繁体中文网站,港澳台的用户也可以通过输入繁体域名访问大陆的简体中文网站,简体域名和繁体域名对应同一家网站,从网络入口上减少了用户访问的障碍,从而做到两岸四地繁简访问互通。

    国际意义

    此RFC发布的意义在于有关国际化域名特别是中文域名的注册和管理将会参照此RFC进行实施,比如CNNIC和TWNIC已经开始实施,未来其他NIC,比如Verisign(.com, .net)也可以会参考此RFC进行实施。

   IPV6成下一代互联网标准,将从根本上解决目前网络地址面临短缺的问题,未来每个人每个上网设备都会拥有一个属于自己的地址和属于自己的域名。中文字符极为丰富,中文将成为21世纪最为热门和通用的语言,采用中文来作为域名也将会十分有利于记忆和使用,也比较容易解决人们选名的障碍。曾有人担心在国际化域名(IDNs)的发展的问题上,中文字符的差异将会使编制使用中文字符的域名时遇到严重的技术难题,而RFC3743异体字等效互通的技术解决方案可以较好的解决此问题。

                                                              (2004年8月2日,中国计算机报  C10版)
                                                        http://media.ccidnet.com/media/ciw/1335/c1001.htm


[ 2004年9月7日 ] 
 
ICP备案编号:京ICP备010225号 版权所有:中国互联网络信息中心