`
frank1998819
  • 浏览: 725723 次
  • 性别: Icon_minigender_1
  • 来自: 南京
文章分类
社区版块
存档分类

一个汉字在UTF-8 编码中占几个字节(转)

    博客分类:
  • Java
 
阅读更多

一个汉字在UTF-8编码中占用几个字节?没敢作答,因为选项中没有答案。

UTF-8编码是变长的,1—6个字节。其中汉字编码,是3个或4个字节。查一下UTF-8字符映射表,就可以看到以下结果:

占用3个字节的范围

U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3 共 115 个
U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95 共 213 个
U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9 共 36 个
U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5 共 7549 个
U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA 共 44138 个
U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99 共 105 个

合计: 52156

占用4个字节的范围

U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D 共 64029 个

合计: 64029

所以,我认为答案应该是:3个或4个字节。

分享到:
评论

相关推荐

    易语言-编码转换类1.2版模块

    GBK编码:1-2个字节,包含GB2312、ASCII、BIG5,注意:同一个繁体字在GBK和BIG5中的编码是各不相同的。 GB18030编码:1字节、2字节、4字节,兼容GBK。 UNICODE是国际统一编码,UCS-2标准:2字节,UCS-4标准:4字节。...

    eclipse文件编码设置、转换原理与实用工具

    汉字转unicode编码(unicode编码如\u5546),在编码为iso-8839-1的文件中显示汉字必须转为unicode编码才行。 3.文件编码的自动设别方法与测试示例(自动列出编码、最可能的编码、有多种编码可能的情况下打印用各种...

    01------helloServlet.rar

    解决:Desktop>javac -encoding UTF-8 HelloServlet.java 原因:使用CMD运行java程序的时候,系统默认的编码格式是gbk。而包含中文字符的代码一般是UNICODE格式,所以直接运行含有中文字符的代码就很容易出现编码...

    ajax乱码解决汇总

    用AJAX 来GET回一个页面时,RESPONSETEXT里面的中文多半会出现乱码,这是因为xmlhttp在处理返回的responseText的时候,是把 resposeBody按UTF-8编码进解码考形成的,如果服务器送出的确实是UTF-8的数据流的时候汉字...

    有关于当安装maven成功后javaweb会出现几个乱码问题,都会解决

    通常我们所遇到过多UTF-8这是Unicode编码的实现方式,请一定要加以区分。 GB2312字集是简体字集;BIG5字集是台湾繁体字集;GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号 GB18030是国家制定的一个强制性大字集...

    grub4dos-V0.4.6a-2017-02-04更新

    例如:echo -e \x18 显示 UTF-8 字符 0x18。 echo -e \X2191 显示 unicode 字符 0x2191。 2016-03-15(yaya) 1.增加动画控制热键 F2:播放/停止。 2.增加动画控制位 0x835b,位0:0/1=停止/播放。 3.增加精简...

    一道 C语言 二维数组作业题目

    题目 有下面这样的一个二维表,请将其使用二维数组... char ach[16][64]={ // utf-8编码中会出现部分文字符占用4字节或3字节的问题,所以这里无论是英文字符还是中文,统一定义宽度4字节,总记64字节 姓名,语文,数学

    PHP字符串的编码问题的详细介绍

    如ASCII编码字符占用1个字节,UTF-8编码的中文字符是3字节,GBK为2个字节。    PHP 也自带几种字符串截取函数,其中常用到的就是 substr 和 mb_substr。  使用substr截取中文字符时会出现乱码,这是因为substr是按...

    SuperNotepad

    21) 支持多种格式UTF-8, BIG5, GB2321, Unicode,Unicode big edian, Rich Text, USC-2 22) 查看密码 (扩展对所有已打开的窗口密码均有效Ctrl+D) 23) 正则表达式处理字符 例︰"\b([a-z]+) \1\b"合并多...

    [洫蜘蛛] 编码转换模块,不依赖系统Api-易语言

    GBK编码:1-2个字节,包含GB2312、ASCII、BIG5,注意:同一个繁体字在GBK和BIG5中的编码是各不相同的。 GB18030编码:1字节、2字节、4字节,兼容GBK。 UNICODE是国际统一编码,UCS-2标准:2字节,UCS-4标准:4字节。...

    千字文c语言

    文章使用 UTF-8 编码,可能会出现任何可以用 UTF-8 编码表示的字符(不限于中文)。 文章中所有的字符在 UCS-2 能够表示的范围内,即字符的 Unicode 值用两个字节就可以表示。 输入 一篇文章,总字数不限、每...

    Tinyxml 源代码(VC6 & VS2005)

    但是一个好的文本编辑器可以导入SHIFT-JIS的文本然后保存成UTF-8编码格式的。 Skew.org link上关于转换编码的话题做得很好。 测试文件“utf8test.xml”包含了英文、西班牙文、俄文和简体中文(希望它们都能够被...

    CVASP框架 201204C

    基本信息:版本编号:201204C核心字节:51700核心文件:cvcorem.asp英文名称:CVASP -- Controller View for ASP Framework中文名称:CVASP框架程序语言:VBScript字符编码:GB2312, GBK, UTF-8 功能简介:简便:...

    安卓java读取网页源码-AndroidLearningNotes:第一次提交

    安卓java读取网页源码 AndroidLearningNotes Java Java基础面试知识 int与integer的区别 探探对java多态的理解 ...utf-8编码中的中文占几个字节;int型几个字节? 静态代理和动态代理的区别,什么场景使用

    新版Android开发教程.rar

    也有分析认为,谷歌并不想做一个简单的手机终端制造商或者软件平台开发商,而意在一统传统互联网和 移 动互联网。----------------------------------- Android 编程基础 4 Android Android Android Android 手机新...

    Python2与Python3关于字符串编码处理的差别总结

    计算机毕竟是西方国家的发明,最开始并没有想到会普及到全世界,只用一个字节中的7位(ASCII)来表示字符对于现在庞大的文字数量来说显然不够,所以先后经历了好几套编码方案,不同国家和地区又有自己的方案,造成了...

    CVASP框架 201204C.zip

    字符编码:GB2312, GBK, UTF-8   功能简介: 简便:  常用函数和类采用精简命名,书写代码更少。  提供几个下划线的代码生成工具:  _convutf8.asp --用于转换中文为UTF编码用于AJAX  _mkcvatpl.asp --...

    java开源包1

    开发它是用于在UTF-8 Oracle实例中使用ASCII编码的Oracle 数据库中来正确的传输非ASCII字符。 Java模板语言 Beetl Beetl,是Bee Template Language的缩写,它绝不是简单的另外一种模板引擎,而是新一代的模板引擎,...

    java开源包10

    开发它是用于在UTF-8 Oracle实例中使用ASCII编码的Oracle 数据库中来正确的传输非ASCII字符。 Java模板语言 Beetl Beetl,是Bee Template Language的缩写,它绝不是简单的另外一种模板引擎,而是新一代的模板引擎,...

    Java编程之字符集问题研究

     在下面的描述中,将以中文两个字为例,经查表可以知道其GB2312编码是d6d0cec4,Unicode编码为4e2d 6587,UTF编码是e4b8ad e69687。注意,这两个字没有iso8859-1编码,但可以用iso8859-1编码来表示。  2. 编码...

Global site tag (gtag.js) - Google Analytics