浮点数运算

在计算机科学中，浮点数运算（Floating-point arithmetic）是一种用浮点（英语：floating point，缩写为FP）方式表示实数的运算方式。浮点是一种对于实数的近似值数值表现法，由一个有效数字（即尾数）加上幂数来表示，通常是乘以某个基数的整数次指数得到。以这种表示法表示的数值，称为浮点数（floating-point number）。浮点数运算运算通常伴随着因为无法精确表示而进行的近似或舍入。

计算机使用浮点数运算的主因，在于电脑使用二进位制的运算，例如：4÷2=2，4=100₍₂₎、2=010₍₂₎，在二进制相当于退一位数，则1.0÷2=0.5=0.1₍₂₎，也就是 ${\frac {1}{2}}$ 。依此类推二进制的0.01₍₂₎就是十进制 ${\frac {1}{2^{2}}}$ = ${\frac {1}{4}}$ =0.25。由于十进位制无法准确换算成二进位制的部分小数，如0.1，因此只能使用近似值的方式表达。

这种表示方法类似于基数为10的科学记数法。在计算机上，通常使用2为基数的幂数来表示，一个浮点数a由两个数m和e来表示：a = m × b^e。在任意一个这样的系统中，可选择一个基数b（记数系统的基）和精度p（即使用多少位来存储），m（即尾数（英语：Significand））是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作正规化的，有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的，e是指数。

这种表示法的设计，来自于对于值的表现范围，与精密度之间的取舍：可以在某个固定长度的存储空间内表示出某个实数的近似值，例如：一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。

此外，浮点数表示法通常还包括一些特别的数值：+∞和−∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。

其中，无穷大，可表示为inf，在内存中的值是阶码为全1，尾数全0。而NaN在内存中的值则是阶码全1，尾数不全0。

计算机的浮点数

浮点指的是带有小数的数值，浮点运算即是小数的四则运算，常用来测量电脑运算速度。大部分计算机采用二进制（b=2）的表示方法。位（bit）是衡量浮点数所需存储空间的单位，通常为32位或64位，分别被叫作单精度和双精度。有一些计算机提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数（通常用软件实现）。

浮点数的标准

在电脑使用的浮点数被电气电子工程师协会（IEEE）规范化为IEEE 754。

举例

π的值可以表示为π = 3.1415926...₁₀（十进制）。当在一个支持17位尾数的计算机中表示时，它会变为0.11001001000011111 × 2²。

浮点数运算

为了方便呈现，容易阅读，以下的例子会用十进制，有效位数7位数的浮点数，也就是IEEE 754 decimal32格式，其原理不会随进制或是有效位数而变。此处的s表示尾数（有效数字），而e表示指数。

加减法

处理浮点数加法的简单作法是将二个浮点数调整到有相同的指数。在以下例子中，第二个数的小数点左移了三位，使二者的指数相同，之后即可进行一般的加法运算：

  123456.7 = 1.234567 × 10^5
  101.7654 = 1.017654 × 10^2 = 0.001017654 × 10^5

  因此
  123456.7 + 101.7654 = (1.234567 × 10^5) + (1.017654 × 10^2)
                      = (1.234567 × 10^5) + (0.001017654 × 10^5)
                      = (1.234567 + 0.001017654) × 10^5
                      =  1.235584654 × 10^5

若用e和s来表示

  e=5;  s=1.234567     (123456.7)
+ e=2;  s=1.017654     (101.7654)

  e=5;  s=1.234567
+ e=5;  s=0.001017654  (移位後)
--------------------
  e=5;  s=1.235584654  (實際的和：123558.4654)

这是真实的结果，二个数字真正的和，之后会再四舍五入到七位有效位数，若有需要的话，会再进行正规化，其结果为

  e=5;  s=1.235585    (最後答案：123558.5)

加数的最低三位数（654）没有出现在结果中，这称为舍入误差。在一些极端的例子中，二个浮点数的和可能和其中的被加数或是加数相等：

  e=5;  s=1.234567
+ e=−3; s=9.876543

  e=5;  s=1.234567
+ e=5;  s=0.00000009876543 (移位後)
----------------------
  e=5;  s=1.23456709876543 (真正的和)
  e=5;  s=1.234567         (四捨五入及正規化後)

在上述的例子中，为了要有正确的四舍五入结果，在二数指数差距很大时，要增加许多位数才有正确的结果。不过，在二位制的加减法中，利用一个guard比特、一个rounding比特以及一个额外的sticky比特，就可以有正确的结果^[1]^[2]^:218–220。

另一个失去有效数字的情形出现在二个几乎相等的数字相减时。在以下的例子中，e = 5; s = 1.234571和e = 5; s = 1.234567是有理数123457.1467和123456.659的近似值。

  e=5;  s=1.234571
− e=5;  s=1.234567
----------------
  e=5;  s=0.000004
  e=−1; s=4.000000 (四捨五入及正規化後)

浮点数的差可以精确的计算，如同Sterbenz引理（英语：Sterbenz lemma）所说明的，就算是因为渐进式下溢出（英语：gradual underflow）而出现下溢出也是一样。不过，原来二个数的差是e = −1; s = 4.877000，和浮点数计算结果e = −1; s = 4.000000之间差了超过20%。在极端的例子中，甚至所有的有效数字都会不见^[1]^[3]。上述的灾难性抵消说明了，假设计算结果的每一位数都有意义，这个想法很危险。这类误差的处理及修正是数值分析中的主题之一。

乘除法

若要进行乘法，将有效数字相乘，指数相加，再进行四舍五入及正规化即可。

  e=3;  s=4.734612
× e=5;  s=5.417242
-----------------------
  e=8;  s=25.648538980104 (真實乘積)
  e=8;  s=25.64854        (四捨五入後)
  e=9;  s=2.564854        (正規化)

而除法会将被除数和除数的有效数字相除，二者的指数相减，再进行四舍五入及正规化。

乘除法不会有抵消或是某一数字被吸收的问题，不过仍会出现一些小误差，若连续运算，误差会变大^[1]。实务上，要进行上述运算的数字逻辑可能会相当的复杂（像是布斯乘法算法以及除法器）。

准确性

由于浮点数不能表达所有实数，浮点运算与相应的数学运算有所差异，有时此差异极为显著。

比如，二进制浮点数不能表达0.1和0.01，0.1的平方既不是准确的0.01，也不是最接近0.01的可表达的数。单精度（24比特）浮点数表示0.1的结果为 $e=-4$ , $s=110011001100110011001101_{(2)}$ ，即

0.100000001490116119384765625

此数的平方是

0.010000000298023226097399174250313080847263336181640625

但最接近0.01的可表达的数是

0.009999999776482582092285156250

浮点数也不能表达圆周率 $\pi$ ，所以 $\tan {\frac {\pi }{2}}$ 不等于正无穷，也不会溢出。下面的C语言代码

double pi = 3.1415926535897932384626433832795;
double z = tan(pi/2.0);

的计算结果为16331239353195370.0，如果用单精度浮点数，则结果为−22877332.0。同样的， $\sin \pi \neq 0$ 。

由于浮点数计算过程中丢失了精度，浮点运算的性质与数学运算有所不同。浮点加法和乘法不符合结合律和分配律。

事故

奔腾早期的60-100MHz P5版本在浮点运算单元有一个问题，在极少数情况下，会导致除法运算的精确度降低。这个缺陷于1994年被发现，变成如今广为人知的奔腾浮点除错误，同时这一事件导致英特尔陷入巨大的窘态，建立召回项目来回收有问题的处理器。

参考资料

^ ^1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始内容存档 (PDF)于2006-07-20）. ([1] （页面存档备份，存于互联网档案馆）, [2] （页面存档备份，存于互联网档案馆）, [3] （页面存档备份，存于互联网档案馆）)
^ Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英语）.
^ 美国专利3037701A (PDF 版本)（于1962年6月5日注册）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

[Goldberg_1991-1] 1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始内容存档 (PDF)于2006-07-20）. ([1] （页面存档备份，存于互联网档案馆）, [2] （页面存档备份，存于互联网档案馆）, [3] （页面存档备份，存于互联网档案馆）)

[Patterson-Hennessy_2014-2] Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英语）.

[Sierra_1962-3] 美国专利3037701A (PDF 版本)（于1962年6月5日注册）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

[1]

[2]

[3]

浮点数运算

目录

计算机的浮点数

浮点数的标准

举例

浮点数运算

加减法

乘除法

准确性

事故

相关条目

参考资料