このページは移転しました。
移転先はこちら→「多国語で書けるブログはどこ?ブログ124サービス【文字コード】全チェック」
現在の日本のウェブサイトには、主要な文字コードが3種類ある。Shift-JIS、EUC-JP、そしてUTF-8である。
今までページ作成といえばShift-JISがメイン、CGIなどのスクリプトを使う場合はEUC-JPがメイン、という流れであったが、最近はUTF-8が勢力を伸ばしてきた。このブログもそうであるが、これは多国語を同時に扱える文字コードなのである。Shift-JISもEUC-JPも日本語専用だ。
私のサイトは中国語サイトからの情報や話題も多いので、日本語だけが表示できても困る。最低限、日本語と簡体字中国語・繁体字中国語をそのまま表示できないと厄介だ。そこで必然的にUTF-8サイトでなければならないということになる。
しかし、世間では多国語を同時に扱う必要性がほとんど認識されていない(日常的には当然と言えば当然)。というわけで、多国語(UTF-8)を扱えるブログツールも限定されてくるし、また、そのような観点からサービスを比較したものもほとんど見られない。
で、誰もやろうとしないことなら自分でやるしかない。今回は、ブログサービスで使われている文字コードを洗いざらい調べてみた。
ブログ比較表に載っているサービスを片っ端からチェックしています。順不同。2005/5/9現在、全124サービス。間違い等あればご指摘を。
UTF-8が41サービス、EUC-JPが44サービス、Shift-JISが43サービスということで、規模の差を考慮しなければ3文字コードそれぞれ同じくらいの勢力である。
UTF-8派としては、実はサーバーインストール型ブログツールの巨星MovableTypeを忘れてはならない(今回はインストール型は一覧に入れなかった)。もともと国際化を視野に入れてUTF-8をデフォルトとしているMovableTypeだが、そのレンタル版であるTypepad、それからTypepadエンジンのココログ、ブログ人といった大手サービスがいずれもUTF-8となっている。また、MSN系は世界展開が当然なのでやはりUTF-8。韓国発で、日本語・ハングルの双方を同時に扱う必要があるNaverがUTF-8なのも当然と言えば当然。
EUC-JPは、プログラマーにとっては最も馴染みの深い日本語文字コードだろう。したがって、プログラマーの力が大きいサービスなのかもしれない。Yahoo!、楽天、livedoorの「御三家」がそろってEUC-JPであるのに加えて、goo、はてな、Ameba Blogなど有力なレンタルサービスが軒並みこの派閥である(ただし、はてなグループはUTF-8)。
Shift-JISは日本語ウェブページ最有力文字コードであるが、これを採用しているサービスはその出力結果(できあがりのHTMLの文字コードを普通のサイトのようにすること)を重視しているともいえる。また、この文字コードだと携帯で直接見られるので、携帯ブログサービスのほとんどが含まれるのも特徴的。
旅行記ブログだけをピックアップし直してみると、見事に3サービスとも文字コードが違うのが面白い。日本国内、あるいは英語圏のみを旅行する人にはどのサービスでも同じ(というか純粋にその他の機能だけで比べるといい)だが、中国・台湾・韓国や、ヨーロッパでも特殊文字の必要な仏独やギリシア、スラブ圏、あるいはタイ語・アラビア語・ヘブライ語などの文字を使う可能性がある場合はやはりUTF-8でないと後々面倒なことになってしまいそうである。
実のところUnicodeでなければならないというわけではない。別にTRONでも何でもいいし、UTF-8だろうと16だろうとかまわないのだが、要するに「多国語を同時に扱える環境を提供してください」の一言に尽きる。だから、このエントリーに対して、UnicodeやUTF-8の不備・欠陥を一生懸命主張されても意味がない。つまり、「UTF-8の布教」をしようとしているのではなく、「多言語対応を考えない鎖国的島国根性への反発」なのである。
以前、はてなでかなり煽り気味の質問をしたことがある。
日本人の開発したCGIやフリーソフトは、なぜいつまでたってもEUCやShift-JISに固執し、Unicodeをベースに作成しないのでしょうか。
この質問は「島国根性プログラマー」への煽りです。
ファイル名が外国文字の圧縮ファイルを解凍できず、同じく画像ファイルを閲覧できず、日本語化CGIは外国語を扱えず……。いつまで島国根性を続けるんでしょうか?
Windowsも2000からUnicodeベースになっている現在、もし日本語を扱うのにUnicodeではまずい合理的な理由があれば滔々と述べていただければ幸いです。
ちなみに、はてなはグループでUTF-8化してくださったので非常に感謝してます。
この質問へのトラックバックを含めて、最も多かったのは「すでにUnicode以外が普及してしまっているから、変えるのが面倒」という理由で、次いで「Unicodeには欠陥がある」というものだった。しかし、「多言語を同時に扱いたい」という思いそのものさえも断念するほどの理由はまったく見受けられなかった。
この質問に対して、中国語を扱うソフトなどを使っているCtransさんは大いに共感してくれている。妄言砂漠 はてなの質問:CGIとかUnicodeとかより。
こういう質問をしたくなる気持ち、よく分かります。多分EUCやShift-JISに固執しているわけではなく、現在のところUnicodeに対応してなくても問題にならない(誰も文句を言わない)からじゃないかと。あとUnicode悪者説。
良さそうなツールを見つけて、わくわくしながらダウンロードして、中国語が使えなくてがっくり、という経験がある人、多いと思うんです。こういう可哀相な我々を救済しようというプログラマの方が増えるととてもうれしい。
逆に、JULYの日記 - 文字コード問題に書かれているのが、今の日本人に多い意識なのだろうか。
ソフトを作る側としてどうか、と考えると、なかなかそこまで意識して作るのが「面倒」という感じはあるでしょう。自分の作ったソフトが、友達に中国人と韓国人がいる人が使う、という場面自体をあまり想像できないし
だからこそ「島国根性」と煽ってみたわけだが。
「Unicodeを使って各国版に一気に対応しようとするより、日本語版を日本語文字コードで作っておいて、必要があれば他言語にはそれぞれの言語パッチで対応すればいい」というようなプログラマーの人の発言を読んだような記憶がある。出典を思い出せないのだが、tDiaryのただただしさんだったかもしれない。
誰が言ったかはともかく、そういう考え方のプログラマーは結構いると思う。しかし、それでは困るのだ。多言語対応には3段階あって、
例えば、XnViewという画像ビューワーがあって、インストールするときに何語の使用者かを自動的に判断し、各国版がインストールされる。日本人ならいちいち日本語版だと指定する必要さえない。あるいは中国語Windowsを使っていれば、自動的に中国語版がインストールされる。ところが、これで日本語化されてしまうと、たとえば中国特有の文字がファイル名に含まれたファイルが扱えなくなってしまうのだ。逆に中国語版XnViewでは、中国語文字コードに含まれない日本の記号などを含むファイルが扱えなくなる。
つまり、「多国語に対応」と、「多国語を同時に扱える」は意味が違うのである。
したがって、たとえば日本語版・中国語版・韓国語版・アラビア語版・ロシア語版・ドイツ語版・スウェーデン語版・デンマーク語版がそれぞれに提供されていたとしても、わたしにとってはそれはどれも「使えない」ことになってしまうのである。しかし、多国語対応であれば、一部の日本文字(「~」など)に問題は出るとしても、おおむね「使いものになる」わけだ。
Sleipnirの次期ブラウザが開発されるということで、次期ブラウザへの要望/43 - Unicodeベースでという要望を出してある。タブブラウザ Sleipnir 開発日記にはUnicode対応のことは書かれていないが、日本語以外のサイトのタイトルが化けてしまうのも、この「多国語対応」で解消できるはずなので、ぜひ取り入れていただきたいと思っている。
それから、tDiaryが本格的にUnicode対応になれば即日にでも使いたいのだけれど、ただのにっき(2005-04-01)に「tDiary: 2.1系開発指針……フルUTF-8化」ってのは単なるエイプリルフールネタですかそうですか(ρ_ ; )ノ
というわけで、プログラマー、CGI作者の方々には、多言語を同時に扱えるスクリプトやソフトを開発していただきたいというのが正直なところである*2
コメントをいろいろいただいたので、六番目までを見たところで、ボイスブログの方でお返事しました。文字で書くとギスギスしそうなんで。
あと、sbは自分の希望に近い機能がついてそうなので試してみようと思います。それにしてもSleipnir作者さんとか、コメント欄が凄いメンツだΣ( ̄□ ̄;
5/10 18:00 「島国根性」という言葉にこれほど過敏な反応が返ってくるとは思いませんでした。みんな島国根性と言われるのを気にしてるんですね。一つ勉強になりました。さて、このエントリーの趣旨は民族論でも何でもなく「多国語を使うというニーズが存在する」というアピール以上でも以下でもないので念のため。ただ、日本国内と英語圏以外を扱う旅行/語学などに関連したブログサービスは少なくとも多言語対応したほうがいいのではないかと。別に「何が何でもUTF-8」とは言ってないのだけどなあ(携帯メインならShift-JISが適しているのは言うまでもないし)。
5/11 09:00 アサブロがUTF-8と指摘を受けたので修正。
これは中華芸能系(中文学習系)blogerには切実な問題だったりする。
中国語扱っててストレス感じることはよくある。
ニュース記事の見出しをそのままコピペすることすらままならないって、記事を書く前段階の作業が増えるし、書く気力も削がれる。
私みたいな面倒くさがりにとってこういうのは致命的(^_^;)
ツールなどの開発に携わっている方には、多言語対応というのにもう少し目を向けて欲しいなぁと思う。需要はあると思いますし、これからも増えることはあっても減ることはないと思います。ワタクシは上に書いたように、ただでさえ混乱したわけのわからない情況下で、いろいろ苦労しつつ日々をやり過ごしております。出来ることは自分でやりますが、餅は餅屋という言葉もありますので、素敵なソリューションを創造していただけると本当にありがたいです。
日頃OSXなんぞを使っていると、多言語対応なんて当たり前の様に感じているので反発している人の感情がよくわからないんですが、普通に日本語版のWindowsを使用していると、言語の多様性を実感する箇所って少ないのかもしれません。
それから、”島国根性”ってのはうまいな、って気はしました。反応を見るとちょっと刺激が強すぎたみたいですけど。
台湾、中国へ向けてお店をアピールするという目的で、動機は確定。
でも、とりあえずプログラム内で扱う文字列を全部Unicodeで統一しておけばそれだけで、(各国語の扱いの細かいところで不備はでるでしょうが)まあ、どの言語の環境でも一応使えるものにはなる。少なくとも、たいていの場合は運用でカバーできる程度の不都合で収まります。
おまけ。
そのほか、文字コードはUnicodeになっており、国際化も容易に行えるようになっています。このことで、ようやく本格的な海外展開が現実的になると考えています。