文字コード
UTF-7 | UTF-16をBase64Encoding。ただし、AsciiはBase64Encodingしない。 |
UTF-8 | 8ビット単位の可変長コード(1〜4バイト)にEncode。ASCII文字は1バイト、漢字等(\u800〜\uFFFF)は3バイト、以外は2バイト。 |
UTF-16 | BMP (基本多言語面)は16Bit、他は32Bit。Windows XP等の内部コードには、この形式。UCS-2ともBMPの範囲で互換性有。 |
UTF-32 | 全コードを単一長32Bitで表現。但し実際に使われるのは21Bit。 |
参考)
1.WikiPedia http://ja.wikipedia.org/wiki/Unicode
2.http://www.asahi-net.or.jp/~DP8T-ASM/java/tips/UTF8.html
デフォルトコンバータ
WindowsでJISAutoの場合は、SJIS(JDK1.4)、MS932(以前?)、?(JDK1.5)
参考)
1.http://park3.wakwak.com/~ozashin/sw_tips/webapp_tips/sjis_charset.html
2.http://www.ingrid.org/java/i18n/unicode.html (風間一洋さんのページ)