MHTML

网页存档格式

网页封存档(英语:MIME HTMLMIME Encapsulation of Aggregate HTML Documents,缩写mhtml)是种储存档案格式,在RFC 2110中定义,后经RFC 2557修订。微软称之单一档案网页单个文件网页(Single-File Web Page)[1][2][3]

MHTML
IE使用的图示
扩展名
.mht, .mhtml
互联网媒体类型
multipart/related
application/x-mimearchive
格式类型置标语言
扩展自HTML
标准RFC 2557(1999年推荐)

其以多用途互联网邮件扩展格式,应用HTML邮件讯息相同技术开发,将一个多附件网页(如包含大量图片Flash动画Java小程序的网页)储存成单一档案[4],副档名为.mhtIE)或.mhtmlChromium),支援浏览器对此两种副档名皆可设定读取。由于IE最早使用,有时被简称MHT。

与HTML差异

编辑

HTML页面中的图形和其他功能可以分开存放,需要原始文件上引用,也可以通过data URI scheme等途径嵌入其中。MHTML则把网页及其附件皆储存为单一档案。

创建及编辑

编辑

Microsoft OfficeWord[4]ExcelPowerPointAccess)能够创建及编辑MHTML档案。

Linux平台上,程式kmhtConvert可将文件转换为MHTML格式。

浏览器的支持

编辑

有些浏览器具有原生的这种把网页保存为MHTML的方式,而有些浏览器可直接通过第三方的扩展支持MHTML格式。由于保存为MHTML的方式未经标准化,因此各浏览器读取的效果略有不同。

Internet Explorer

编辑

Microsoft Internet Explorer自5.0版支持MHTML格式,是第一个支持MHTML文件的浏览器。

Opera自9.0版支持把网页保存为MHTML文件,或读取MHTML文件。[5]但基于WebKit/Blink的Opera 15却未提供此功能,直到Opera 16才恢复。

现时通过opera://flags#save-page-as-mhtml启用实验性的选项。

Firefox

编辑

Firefox不支援读写MHT文件。[6]在57.0之前有两个这样的扩展是免费提供的,如Mozilla Archive Format页面存档备份,存于互联网档案馆)、UnMHT

Google Chrome

编辑

Chrome 86版中,创建MHTML文件的功能已默认启用。

Safari

编辑

Safari不提供对MHTML的支持,代之以苹果公司自创的Webarchive英语Webarchive格式,OS X的版本中还提供保存为PDF选项。也有人试图为Safari创建读写MHTML文件的扩展。

Konqueror

编辑

Konqueror需要使用mhtconv页面存档备份,存于互联网档案馆)扩展以实现对MHTML的支持。

ACCESS NetFront

编辑

NetFront 3.4(像是索尼爱立信K850等设备上的)可读取或保存MHTML文件。

Pale Moon

编辑

Pale Moon需要安装MHT文件读写的扩展。有一个这样的扩展是免费提供的,即MozArchiver页面存档备份,存于互联网档案馆)。

GNOME Web

编辑

最近的GNOME Web版本可以存取MHTML。

Vivaldi

编辑

Vivaldi可以通过vivaldi://flags#save-page-as-mhtml启用实验性的选项。

MHT阅读器

编辑

一些商业或民间开发者设计了MHT文件阅读器,还提供转换为其它格式(如转换为PDF)的选项。

格式

编辑

MHTML档案的第一部分是电子邮件档头,第二部分是常规的HTML源码,后续部分是由各自的URL标识的附件,并以base64格式编码。

该档案与 .eml(电子邮件)具有互换性,二者的副档名可以相互交换。一份 .eml 档案可以作为电子邮件发送,也可以通过电邮客户端显示,一条电邮资讯可以用 .mhtml 或 .mht 副档名存储,并通过一些网页浏览器或者文本编辑器显示。

示例如下:

Subject:標題
Date: Wed, 15 Dec 2004 10:05:01 +1000
Content-Type: multipart/related;
Content-Transfer-Encoding: quoted-printable
Content-Location: file://C:/fishier.html
This is a multi-part message in MIME format.

Content-Type: text/html;
<HTML>
 <HEAD>
  <TITLE>Title</TITLE>
 </HEAD>
 <BODY>
   ...
 </BODY>
</HTML>

Content-Type: image/gif
Content-Transfer-Encoding: base64
Content-Location: file://C:/image.gif
RHLJbDYX0KhHzv7yGcCgghhgHLJbDYX0KhHzv7yGcChkNdjn+Nfn+NXm98/i98rf9sfe9b/Z9L3X
87fU8qP8afL8AHzvfg7yGcChkNIwMZHLJbDYX0KhHzv37yGcChkNIw2Oj5AAAZIAlhAAACwAAAAA
er8JhHg8PhgQBrPZwG673+6CoUCv2+91gn5PGPT7fgOCg4SFhQKIiYoCAY2Oj5AAAZIAlJWXACEA
4SFh==

其中Subject为文档标题,Content-Type为文件的MIME属性,Content-Location为原始文件的地址,Content-Transfer-Encoding为编码格式。

参见

编辑

参考资料

编辑
  1. ^ "Missing file" error with a web page file. Microsoft Docs. 2020-06-12. (原始内容存档于2020-06-21) (英语). 
  2. ^ 網頁檔案出現「遺失檔案」錯誤. Microsoft Docs. 2020-06-13. (原始内容存档于2020-06-21) (中文(台湾)). 
  3. ^ 包含网页文件的 "缺少文件" 错误. Microsoft Docs. 2020-06-13. (原始内容存档于2020-06-19) (中文(中国大陆)). 
  4. ^ 4.0 4.1 David J. Clark. The Unofficial Guide to Microsoft Office Word 2007. John Wiley & Sons. 2008. ISBN 9780470377437. 
  5. ^ Santambrogio, Claudio. …and one more weekly!. Opera Software. 10 March 2006 [2009-05-15]. (原始内容存档于2006-03-21). 
  6. ^ Bug 40873 - Save as rfc 2557 MHTML; complete webpage in one file. [2018-10-23]. (原始内容存档于2020-12-15).