D. Connolly
World Wide Web Consortium (W3C)
L. Masinter
AT&T
June 2000
Network Working Group
Request for Comments: 2854
Obsoletes: 2070, 1980, 1942, 1867, 1866
Category: Informational

The 'text/html' Media Type

(text/html メディア・タイプ)

このメモの位置づけ

このメモはインターネット・コミュニティーのために情報を提供するものであり、いかなる種類のインターネット標準も定めない。 このメモの配布に制限はない。

著作権表示

Copyright (C) The Internet Society (2000). All Rights Reserved.

要旨

この文書では、HTML の開発の歴史を要約し、関連する W3C 勧告を示すことによって "text/html" という MIME タイプを定義する。 その意図するところは、HTML を定義している過去の IETF 文書——RFC 1866、RFC 1867、RFC 1980、RFC 1942、RFC 2070 を含む——を廃止し、HTML を IETF 標準路線から除外することにある。

この文書は W3C の HTML 作業部会の要請に応じて用意されたものである。 ご意見は公開メーリング・リスト www-html@w3.org 宛てにお送りいただきたい。 そのアーカイブが <http://lists.w3.org/Archives/Public/www-html/> にある。

1. 序論および背景

HTML は、1990 年以来、World Wide Web 情報基盤において利用されているが、さまざまな非公式の文書によって定められてきた。 1995 年、IETF の HTML 作業部会により、text/html メディア・タイプが [HTML20] において初めて公式に定義された。 また、HTML に対する拡張が、[HTML30][UPLOAD][TABLES][CLIMAPS]、および [I18N] において提案された。

IETF の HTML 作業部会は 1996 年 7 月にその役目を終え、HTML を定義する作業は W3C (World Wide Web Consortium) へ移された。 提案された拡張は、ある程度までは [HTML32] に組み入れられ、多くは [HTML40] に盛り込まれた。 [UPLOAD] に由来する multipart/form-data の定義は [FORMDATA] に記述された。 加えて、HTML 4.0 を XML 1.0 によって編成し直した [XHTML1] が開発された。

[HTML32] は、「この仕様は HTML バージョン 3.2 を定義するものである。 HTML 3.2 は、'96 年の初頭の時点で推奨されている慣行を捉え、それがそのまま HTML 2.0 (RFC 1866) に代わるものとして用いられるようになることを目指したものである」と述べている。 後続の HTML 仕様は、それぞれのバージョンにおける相違点を記述している。

規格の開発に加えて、NCSA の Mosaic システムによって、のちには Netscape Navigator と Microsoft Internet Explorer という競合する実装によって、HTML に対する多種多様な追加拡張・制約・変更が普及した。 それらの拡張は多数の書籍やオンライン・ガイドに文書化されている。

2. MIME メディア・タイプ text/html の登録

MIME メディア・タイプ名: text

MIME サブタイプ名: html

必須パラメーター: なし

随意パラメーター:

charset
任意のパラメーター "charset" は、HTML 文書をバイト列として表現するのに用いられる文字符号化法を指示する。 IANA に登録されている charset であれば何を使ってもよいが、UTF-8 が望ましい。 このパラメーターは任意ではあるが、つねに記述することが強く推奨される。 下記第 6 章のデフォルトの charset の規則についての議論を参照のこと。

[HTML20] には任意の "level" パラメーターが含まれていたことに注意されたい。 実際にはこのパラメーターは決して使われず、本仕様からは削除されている。 また、[HTML30] では "version" パラメーターが提案されていたが、このパラメーターも実際には決して使われることがなく、本仕様からは削除されている。

符号化に関する考慮事項:

本文書の第 4 章を見よ。

セキュリティーに関する考慮事項:

本文書の第 7 章を見よ。

相互運用性に関する考慮事項:

HTML は、機能を異にするプラットフォームや機器について、できるだけ広範囲にわたって相互運用が可能となるように設計されている。 とはいえ、HTML の定義する能力のすべてが実現できるとは限らないような状況 (たとえば、表示能力に限界のあるプラットフォームなど) もある。 HTML のモジュール化と、制限のある (ないし拡張された) 能力について識別し折衝するプロファイルづけ機能の集合と、その双方を開発する作業が進行中である。

HTML の開発が長期に及び、かつ分散してなされた結果、インターネット上では現在、実に多岐にわたる HTML の変種が実用に供されている。 text/html インタープリターを実装しようとする者は、インターネット上で入手可能な多くの HTML 文書を扱うために、人気のあるブラウザーと「バグ互換」なものとする覚悟ができていなければならない。

典型的には、異なったバージョンはそれに含まれる DOCTYPE 宣言によって区別できる。 ただし、DOCTYPE 宣言それ自体は、時として省略されたり間違っていたりする。

発行済みの仕様:

text/html メディア・タイプは現在、W3C 勧告によって定義されている。 発行されている最新版は [HTML401] である。 加えて、[XHTML1] が XHTML の利用に関するプロファイルを定義している。 XHTML は HTML 4.01 と互換性があるため、text/html とラベルづけしてもよい。

このメディア・タイプを使用するアプリケーション:

第一の、かつ最も一般的な HTML のアプリケーションは World Wide Web である。 一般に、HTML 文書には、HTTP プロトコル [HTTP] を利用して読み出されるべき他の文書や媒体への URI 参照 [URI] が含まれる。 多くのゲートウェイ・アプリケーションは、下層にある他の複雑なサービスに対する HTML ベースのインターフェイスを提供している。 その他の数多くのアプリケーションでも、便利なプラットフォーム独立のマルチメディア文書表現として HTML を利用している。

補足情報:

マジック番号:
つねに HTML ファイルを表わす単一の先頭文字列はない。 ただし、下記第 5 章において HTML ファイルを認識するための指針をいくつか示す。
ファイル拡張子:
ファイル拡張子 html ないし htm が一般的に用いられるが、それ以外に前処理のためのファイル形式を意味する拡張子もよく使われる。

Macintosh ファイル・タイプ・コード: TEXT

問い合わせ先:

Dan Connolly <connolly@w3.org>
Larry Masinter <lmm@acm.org>

対象用途: 汎用

著者・変更管理者:

HTML 仕様は W3C の HTML 作業部会の成果物である。 W3C が HTML 仕様の変更を管理している。

さらなる情報:

HTML には、URI を介した参照により、基底文書に追加の資源 (画像、ビデオ・クリップ、アプレット) を取り込む機能がある。 完全な HTML オブジェクトと取り込まれる資源とを単一の MIME オブジェクトとして転送するために、[MHTML] のメカニズムを利用してもよい。

3. 部分識別子

URI 仕様 [URI] の記述によれば、部分識別子 (URI の "#" より後の部分) の意味は検索動作によって生ずるデータに固有のものであり、部分識別子の形式および解釈は検索結果のメディア・タイプに依存する。

text/html と明示された文書の場合、部分識別子は対応する名前の付けられた要素を表わす。 いかなる要素も id 属性によって名前を付けることができ、また、A や APPLET、FRAME、IFRAME、IMG、MAP の各要素には name 属性によって名前が付けられる。 このことは [HTML40] の第 12 章に詳説されている。

4. 符号化に関する考慮事項

HTML 自体の中で文字エンティティー参照が利用できるため、広範囲の文字レパートリーを用いる文書でもやはり US-ASCII charset を使って表現することができ、符号化することなく送ることができる。 その一方で、US-ASCII 以外の charset を使う text/html を送る場合は、7 ビットのチャネルのために base64 符号化法ないし quoted-printable 符号化法が必要となるかもしれない。

MIME テキストのすべてのサブタイプと同じく、text/html の正規の形式では、改行をつねに CR (0x0D) のバイト値に LF (0x0A) のバイト値が後続するシーケンスとして表現しなければならない。 同様に、text/html の中にそうした CRLF シーケンスがあれば、それは改行を表現していなければならない。 改行シーケンス以外で CR バイト値や LF バイト値を使用することも禁止されている。 この規則は、使用されている文字符号化法 (charset) に関わりなく適用される。

ただし、HTTP プロトコルでは、正規の形式に適っていないデータ、とくに行末について他の規約に従うデータを送ることも容認されていることに注意されたい。 [HTTP] の 3.7.1 節を参照のこと。 この例外は HTML では一般的に利用されている。

電子メールで送られる HTML もやはり MIME の制約のもとにある。 このことは [MHTML] の第 10 章で十分に論じられている。

5. HTML ファイルの認識

ほとんどすべての HTML ファイルには、ファイルの冒頭付近に "<html" ないし "<HTML" という文字列がある。

HTML 2.0、HTML 3.2、および HTML 4.0 に適合する文書は、冒頭近く、"<html" より前の "<!DOCTYPE HTML" という DOCTYPE 宣言で始まることになる。 これらのバージョンは大文字小文字の区別をしない。 ファイルは、DOCTYPE 宣言に先行して、空白、コメント ("<!--" で始まる)、あるいは処理命令 ("<?" で始まる) で開始されてもよい。

XHTML 文書は、"<?xml" で始まる XML 宣言で開始され (省略可)、かつ "<!DOCTYPE html" という DOCTYPE 宣言を有している必要がある。

6. デフォルトの charset に関する規則

明示的な charset パラメーターの使用が強く推奨される。 [MIME] は「charset パラメーターがない場合に仮定されるデフォルトの文字集合は US-ASCII である」と定めているが、[HTTP] の 3.7.1 節は「text タイプのメディア・サブタイプは ISO-8859-1 のデフォルト値をもつと定義されている」と規定している。 [HTTP] の 19.3 節には補足的な指針が示されている。 明示的な charset パラメーターを用いることが、混乱を避けるのに役立つことになろう。

明示的な charset パラメーターの使用はまた、普及しているブラウザーの圧倒的大多数がデフォルトとして ISO-8859-1 以外のものを用いるよう設定されていることに対する配慮でもある。 実際のデフォルトは、企業の文字符号化法であるか、あるいは特定の国や地域社会で広く普及している文字符号化法である。 さらなる考慮事項については、[HTML40] の 5.2 節も参照されたい。

7. セキュリティーに関する考慮事項

[HTML401] の B.10 節には、HTML 文書のアンカーおよびフォームに関するさまざまなセキュリティー上の問題が記されている。

加えて、HTML 4.0 におけるスクリプト言語および双方向機能の導入は、送り手が書いて受け手側が解釈するプログラムの自動実行を可能にしたが、それに付随して多くのセキュリティー上の危険を招くことになってしまった。 そうしたスクリプトやプログラムを実行するユーザー・エージェントは、信頼のおけないソフトウェアが保護された環境内で実行されるようにする場合には極めて慎重でなければならない。

8. 著者連絡先

Daniel W. Connolly
World Wide Web Consortium (W3C)
MIT Laboratory for Computer Science
545 Technology Square
Cambridge, MA 02139, U.S.A.

EMail: connolly@w3.org
http://www.w3.org/People/Connolly/

Larry Masinter
AT&T
75 Willow Road
Menlo Park, CA 94025

EMail: LM@att.com
http://larry.masinter.net

9. 参考文献

[CLIMAPS] Seidman, J., "A Proposed Extension to HTML: Client-Side Image Maps", RFC 1980, August 1996.
[FORMDATA] Masinter, L., "Returning Values from Forms: multipart/form-data", RFC 2388, August 1998.
[HTML20] Berners-Lee, T. and D. Connolly, "Hypertext Markup Language - 2.0", RFC 1866, November 1995.
[HTML30] Raggett, D., "HyperText Markup Language Specification Version 3.0", September 1995. (<http://www.w3.org/MarkUp/html3/CoverPage> より入手可能).
[HTML32] Raggett, D., "HTML 3.2 Reference Specification", W3C Recomendation, January 1997. <http://www.w3.org/TR/REC-html32> より入手可能.
[HTML40] Raggett, D., et al., "HTML 4.0 Specification", W3C Recommendation, December 1997. <http://www.w3.org/TR/1998/REC-html40-19980424> より入手可能.
[HTML401] Raggett, D., et al., "HTML 4.01 Specification", W3C Recommendation, December 1999. <http://www.w3.org/TR/html401> より入手可能.
[HTTP] Gettys, J., Fielding, R., Mogul, J., Frystyk, H., Masinter, L., Leach, P. and T. Berners-Lee, "Hypertext Transfer Protocol -- HTTP/1.1", RFC 2616, June 1999.
[I18N] Yergeau, F., Nicol, G. and M. Duerst, "Internationalization of the Hypertext Markup Language", RFC 2070, January 1997.
[MHTML] Palme, J., Hotmann, A. and N. Shelness, "MIME Encapsulation of Aggregate Documents, such as HTML (MHTML)", RFC 2557, March 1999.
[MIME] Freed, N. and N. Borenstein, "Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types", RFC 2046, November 1996.
[TABLES] Raggett, D., "HTML Tables", RFC 1942, May 1996.
[UPLOAD] Nebel, E. and L. Masinter, "Form-based File Upload in HTML", RFC 1867, November 1995.
[URI] Berners-Lee, T., Fielding, R. and L. Masinter, "Uniform Resource Identifiers (URI): Generic Syntax", RFC 2396, August 1998.
[XHTML1] "XHTML 1.0: The Extensible HyperText Markup Language: A Reformulation of HTML 4 in XML 1.0", W3C Recommendation, January 2000. <http://www.w3.org/TR/xhtml1> より入手可能.

10. 著作権宣言全文

Copyright (C) The Internet Society (2000). All Rights Reserved.

This document and translations of it may be copied and furnished to others, and derivative works that comment on or otherwise explain it or assist in its implementation may be prepared, copied, published and distributed, in whole or in part, without restriction of any kind, provided that the above copyright notice and this paragraph are included on all such copies and derivative works. However, this document itself may not be modified in any way, such as by removing the copyright notice or references to the Internet Society or other Internet organizations, except as needed for the purpose of developing Internet standards in which case the procedures for copyrights defined in the Internet Standards process must be followed, or as required to translate it into languages other than English.

The limited permissions granted above are perpetual and will not be revoked by the Internet Society or its successors or assigns.

This document and the information contained herein is provided on an "AS IS" basis and THE INTERNET SOCIETY AND THE INTERNET ENGINEERING TASK FORCE DISCLAIMS ALL WARRANTIES, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO ANY WARRANTY THAT THE USE OF THE INFORMATION HEREIN WILL NOT INFRINGE ANY RIGHTS OR ANY IMPLIED WARRANTIES OF MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE.

この文書およびその翻訳は、全体または一部について、いかなる種類の制約も受けることなく、複製および他者への供与ができるほか、これについて注釈し、または他の方法で解説し、あるいはその実装を助ける派生的著作を用意、複製、出版、および配布することができる。 ただし、上記の著作権表示およびこの一節が当該の複製および派生的著作のすべてに含まれるものとする。 一方、この文書自体は、著作権表示を削除したり Internet Society ないし他のインターネット機関への参照を削除したりするなどのいかなる方法によっても改変してはならない。 ただし、インターネット標準の開発の目的のために必要とされるインターネット標準化プロセスの著作権の手続きに従う場合、および英語以外の言語に翻訳するのに必要とされる場合を除く。

上で与えた制限つきの許諾は恒久のものであり、Internet Society またはその後継者ないし譲受人によって取り消されることはない。

この文書およびここに含まれる情報は「現状有姿」方式で提供されるものであり、Internet Society および Internet Engineering Task Force は、明示的であるか黙示的であるかを問わず、一切を保証しないここでいう保証には、ここにある情報の利用がいかなる権利をも侵害しないという保証や、特定の目的に対する市場性ないし適合性についての暗黙の保証が含まれるが、それらのみに限定されない

謝辞

RFC 編集人の職務のための資金は現在、Internet Society により提供されている。

 



2007年04月29日公開
2008年04月06日更新
Translated by: Mendoxi (面独斎)
mendoxi@cam.hi-ho.ne.jp