mozdev.org

同文堂

网站资源:

使用以词定字需要一个繁简词汇表作为选字的索引。这个词汇表因为是根据语义来决定的,所以必须使用人工完成,机器它笨呐!

如果没有这个词汇表,繁体字用户在观看简体网页时,会发现一些“错别字”的出现,譬如皇后,後来,全变成皇後,後来了。因为简体字里有些字同一个字对应几个繁体字,造成必须根据上下文才能确定正确的转换。就繁体字的最常用编码五大码 Big5 来说,同样有一个繁体字对应几个简体字的问题,比如裤字,Big5 里只有一个裤,所以简体字用户只能看到纨裤子弟,而看不见纨绔子弟,Big5 里没有着,只有著,所以土著是它,着急也是它。但这个问题简体转繁体要比繁体转简体严重多了。没有这个词汇表,繁体字用户就只好忍受错别字的出现了。

这里我们以 xcin 和 scim 这两个输入法的词汇表为基础生成了一个繁简词汇对应表,这个表里只包括繁简不能一一对应的词汇。当我们剔除了不适用的词汇以后,就会生成一个可以使用的词汇表。

因为作者本人使用简体字,所以可以筛选出一个繁体转简体的词汇转换表,但简体转繁体就无能为力了。如果弄错一堆字,自找一片指责,划不来呀。所以在进行一对多的转换时,目前简体字用户看到的大多都是正确的转换,繁体字用户有可能看到错字,那就猜吧。

这个表因为需要同时表示繁体和简体字,所以使用的是 UTF-8 编码。当筛选正确词汇的时候,你只须在正确的词汇的头或者尾部加入一个特殊符号作为标记,比如 / 或者 ] :

    皇后 皇后]
    皇后 皇後
    头发 头發
    头发 头髮]
    发财 發财]
    发财 髮财

筛选完毕后,我们可以用程序根据特殊标记把正确的词汇提取出来,这部分是作者本人的工作,没问题。

在 Linux 下 gedit 可以很好的编辑 UTF-8 文件。Windows 下据说不少编辑软件(ultraedit?)都可以编辑 UTF-8 文件。 Mozilla 本身的编辑器 Composer 或者 Nvu 当然也可以编辑 UTF-8 文件啦。

下载需要筛选的繁简词汇对照表: Simp2Trad.zip
(为便于使用,主文件被分割成 0-24 个小文件,可以分别编辑。)

请有兴趣帮忙的繁体字用户帮我们进行筛选,谢谢。

备注: xcin 和 scim 是Unix下的自由软件。
xcin: http://xcin.linux.org.tw
scim: http://www.freedesktop.org/~suzhe/index_cn.html

For questions or comments about tongwen, please send a message to the tongwen mailing list.
For questions or comments not about a specific project, please read our feedback page.
This page was last updated on Feb 24, 2017.
Copyright © 2017. All rights reserved.

Keywords: chinese, simplified, traditional, content, homepage, html, browser, mozilla, firefox, convert, switch, change, from, to, converter, conversion, switcher, browse, between, auto, automatic, automatical, automatically, surfing, surf, web, internet, javascript, xul, extension, plugin, button, toolbar, ie, internet explorer, linux, windows, XP, 2000, show, display, font, view, watch, read, home, page, software, program, script, java, xpcom, charset, encoding, character set, gb, gb2312, big5, unicode, gbk, china, hong kong, hk, taiwan, macao, macau, singapore, malaysia, mandarin, like alibabar, culture, life, exchange, communicate, communication, increase, raise, science, arts, improve, improvement, participate, discussion, novel, story, wuxia, knight, romance, detective, love, classic, pinyin, input, output, origin, original, free, freedom, open, source, code,
关键字: 中文, 繁简, 转换, 转化, 转码, 转变, 切换, 替换, 改变, 网页, 网站, 页面, 显示, 浏览, 浏览器, 网络, 互联网, 互连网, 简体, 繁体, 简化, 简体字, 繁体字, 字体, 字型, 宋体, 明柳, 细明, 仿宋体, 仿宋, 中国, 香港, 大陆, 台湾, 澳门, 新加坡,马来西亚, 华语, 编码, 字符, 字符集, 国标, 五大, 大五, 统一码, 快速, 汉字, 汉语, 中文化, 延伸, 套件, 插件, 外挂, 软件, 程序, 程式, 修正, 自动, 互换, 互译, 文化, 艺术, 科学, 科技, 交流, 交换, 交往, 增进, 增加, 促进, 沟通, 互助, 互动, 两岸, 三地, 同文堂, 吃葡萄不吐葡萄皮儿, 不吃葡萄倒吐葡萄皮儿, 火狐, 魔斯拉, 参与, 讨论, 小说, 武侠, 言情, 名著, 侦探, 拼音, 注音, 之间, 进行, 输入, 输出, 原文, 自由, 源码, 开放, 代码, 国语, 国文,