凸函数

凸函数（英文：Convex function）是指函数图形上，任意两点连成的线段，皆位于图形的上方的实值函数，^[1]如单变数的二次函数和指数函数。二阶可导的一元函数 $f$ 为凸，当且仅当其定义域为凸集，且函数的二阶导数 $f''$ 在整个定义域上非负。直观理解，凸函数的图像形如开口向上的杯 $\cup$ ，而相反，凹函数则形如开口向下的帽 $\cap$ 。

在最优化研究中，凸函数的最小化问题有唯一性，即凸开集上的严格凸函数，至多只有一个极小值。

概率论中，凸函数 $f$ 作用在某随机变量期望值 $\mathbb {E} [X]$ 所得的结果，总不大于对随机变量先取函数值再取期望，即

f(\mathbb {E} [X])\leq \mathbb {E} [f(X)],

称为延森不等式。该不等式可以推导出均值不等式及赫尔德不等式等结果。

定义

形像理解凸函数与延森不等式

$C$ 为某实向量空间的凸子集，若实值函数 $f:C\to \mathbb {R}$ 对任意 $0\leq t\leq 1$ 及任意 $v,\,w\in C$ ，皆有

f\left[v+t\cdot (w-v)\right]\leq f(v)+t\cdot \left[f(w)-f(v)\right]

则 $f$ 称为凸函数。

若 $C\subseteq \mathbb {R}$ ，然后在 $f$ 图像上任取两点 $\left(x_{1},f\left(x_{1}\right)\right)$ 和 $\left(x_{2},f\left(x_{2}\right)\right)$ 连线，则连线上某点 $p$ 的 $x$ 座标可以想成从 $x_{1}$ 出发，前进了 $x_{2}-x_{1}$ 这整段的一部分而已，也就是说

0\leq t={\frac {x-x_{1}}{x_{2}-x_{1}}}\leq 1

循着同样的比例 $t$ ， $p$ 的 $y$ 座标就可以写成

0\leq t={\frac {y-f(x_{1})}{f(x_{2})-f(x_{1})}}\leq 1

但同样的 $x$ 座标下，对应的 $f$ 函数值就是

f\left[x_{1}+t\cdot (x_{2}-x_{1})\right]

所以，凸函数的定义意为， $f$ 的图像上，任意相异两点的连线不能低于中间 $f$ 的曲线。^[2]换言之，函数的上境图（英语：Epigraph (mathematics)）（图像上方的点的集合）为凸集。

严格凸函数

若将定义的 $\leq$ 号换成 $<$ ，则得到严格凸的定义：

$f$ 称为严格凸，意思是对 $0<t<1$ 和任意不相等的 $v,\,w\in C$ ，皆有

f\left[v+t\cdot (w-v)\right]<f(v)+t\cdot \left[f(w)-f(v)\right]

若 $C\subseteq \mathbb {R}$ ，在严格凸函数 $f$ 的图像曲线上，任意两相异点的连线，除端点外皆高于曲线。

几乎凸函数

若 $C\subseteq \mathbb {R}$ ，实值函数 $f:C\to \mathbb {R}$ 对于任意三实数 $x\leq z\leq y$ ，都有 $f(z)\leq \max\{f(x),\,f(y)\}$ ，则称 $f$ 是几乎凸的。

性质

凸函数的某些性质，多元情况的叙述与一元情况同样简单。此种性质，可能仅于多元情况列举，恕不在一元情况赘述。

一元情况

函数（蓝色）是凸的，当且仅当其上方的区域（绿色）是一个凸集。

设 $f$ 是一元实函数，定义域为区间。考虑割线斜率 $R(x_{1},x_{2})={\frac {f(x_{2})-f(x_{1})}{x_{2}-x_{1}}},$ 则函数 $R$ 是对称函数（粤语：對稱函數），即关于 $R(x_{1},x_{2})=R(x_{2},x_{1})$ 。 $f$ 为凸，当且仅当对每个固定的 $x_{2}$ ，皆有 $R(x_{1},x_{2})$ 关于 $x_{1}$ 单调不减（或由对称性，可将此句中 $x_{1},x_{2}$ 互换）。此刻划有助证明以下的结果。
若一元凸函数 $f$ 定义在开区间 $C$ 内，则在C内连续，且处处有左侧及右侧的单边导数（英语：Semi-differentiability）。如此定义的两个单边导函数，皆为单调不减。由此推出，除可数个点外， $f$ 在其他点皆可微（不过不可导的点组成的集合，仍有可能稠密）。如果 $C$ 是闭区间，那么 $f$ 有可能在 $C$ 的端点不连续，见例子。
一元可微函数在区间上是凸的，当且仅当函数位于所有它的切线的上方：^[3]^:69对于区间内的所有 $x$ 和 $y$ ，都有 $f(x)\geq f(y)+f'(y)(x-y).$ 特别地，如果 $f'(y)=0$ ，则上式化为 $f(x)\geq f(y)$ ，故 $f(y)$ 是 $f$ 的最小值。
一元可微函数在某个区间上是凸的，当且仅当它的导数在该区间上单调不减。若一元函数既凸又可导，则其导数也连续。
一元二阶可微的函数在区间上是凸的，当且仅当它的二阶导数（英语：second derivative）是非负的；这是判断某个函数是否凸的实用方法。直观地，二阶可导的凸函数“向上弯”，而不会屈向另一边（即无拐点）。如果它的二阶导数是正数，那么函数就是严格凸的，但反过来不成立。例如， $f(x)=x^{4}$ 的二阶导数是 $f''(x)=12x^{2}$ ，当 $x=0$ 时为零，但 $f$ 是严格凸的。
- 此性质的条件“二阶导数非负”与前一个性质的条件“导数单调不减”有差异。若 $f''$ 在区间 $C$ 非负，则的确 $f'$ 在 $C$ 单调不减。反之则不然，因为可能有 $f'$ 在 $C$ 单调不减，但在某点不可导，即 $f''$ 在 $C$ 中某点无定义。
若 $f$ 为一元凸函数，且 $f(0)\leq 0$ ，则 $f$ 在正数集内为超可加函数（英语：Superadditivity），即 $f(a+b)\geq f(a)+f(b)$ 对任意正实数 $a,b$ 成立。

多元情况

更一般地，多元二次可微的连续函数在凸集上是凸的，当且仅当它的黑塞矩阵在凸集的内部是半正定的。

凸函数的任何极小值也是最小值。严格凸函数最多有一个最小值。

对于凸函数f，水平子集{x | f(x) < a}和{x | f(x) ≤ a}（a ∈ R）是凸集。然而，水平子集是凸集的函数不一定是凸函数；这样的函数称为拟凸函数。

延森不等式对于每一个凸函数f都成立。如果 $X$ 是一个随机变量，在f的定义域内取值，那么 $f(\mathbb {E} [X])\leq \mathbb {E} [f(X)],$ （在这里， $E$ 表示数学期望。）

凸函数的初等运算

如果 $f$ 和 $g$ 是凸函数，那么 $m(x)=\max\{f(x),g(x)\}$ 和 $h(x)=f(x)+g(x)$ 也是凸函数。
如果 $f$ 和 $g$ 是凸函数，且 $g$ 递增，那么 $h(x)=g(f(x))$ 是凸函数。
凸性在仿射映射下不变：也就是说，如果 $f(x)$ 是凸函数（ $x\in \mathbb {R} ^{n}$ ），那么 $g(y)=f(Ay+b)$ 也是凸函数，其中 $A\in \mathbb {R} ^{n\times m},\;b\in \mathbb {R} ^{n}.$
如果 $f(x,y)$ 在 $(x,y)$ 内是凸函数，且 $C$ 是一个凸的非空集，那么 $g(x)=\inf _{y\in C}f(x,y)$ 在 $x$ 内是凸函数，只要对于某个 $x$ ，有 $g(x)>-\infty$ 。

例子

函数 $f(x)=x^{2}$ 处处有 $f\,''(x)=2>0$ ，因此f是一个（严格的）凸函数。
绝对值函数 $f(x)=|x|$ 是凸函数，虽然它在点x = 0没有导数。
当 $p\geqslant 1$ 时，函数 $f(x)=|x|^{p}$ 是凸函数。
定义域为[0,1]的函数f，定义为f(0)=f(1)=1，当0<x<1时f(x)=0，是凸函数；它在开区间(0,1)内连续，但在0和1不连续。
函数 $f(x)=x^{3}$ 的二阶导数为 $f\,''(x)=6x$ ，因此它在x ≥ 0的集合上是凸函数，在x ≤ 0的集合上是凹函数。
每一个在 $\mathbb {R}$ 内取值的线性变换都是凸函数，但不是严格凸函数，因为如果f是线性函数，那么 $f(a+b)=f(a)+f(b)$ 。如果将“凸”替换为“凹”，该命题也成立。
每一个在 $\mathbb {R}$ 内取值的仿射变换，也就是说，每一个形如 $f(x)=a^{T}x+b$ 的函数，既是凸函数又是凹函数。
每一个范数都是凸函数，这是由于三角不等式。
如果 $f$ 是凸函数，那么当 $t>0$ 时， $g(x,t)=tf(x/t)$ 是凸函数。
$f(x)={\sqrt {x}}$ 和 $g(x)=\log(x)$ 为单调递增但非凸的函数。
函数f(x) = 1/x²，f(0)=+∞，在区间(0,+∞)内是凸函数，在区间(-∞,0)内也是凸函数，但是在区间(-∞,+∞)内不是凸函数，这是由于x = 0处的奇点。

参见

参考文献

^ 36-705 Intermediate Statistics: Lecture Notes 2 [中级统计学：讲义2] (PDF). www.stat.cmu.edu. [3 March 2017]. （原始内容存档 (PDF)于2021-05-06）（英语）.
^ Concave Upward and Downward [上凸与下凸]. mathsisfun.com. （原始内容存档于2013-12-18）（英语）.
^ Boyd, Stephen P.; Vandenberghe, Lieven. Convex Optimization [凸优化] (pdf). Cambridge University Press. 2004 [October 15, 2011]. ISBN 978-0-521-83378-3. （原始内容存档 (PDF)于2021-05-09）（英语）.

Moon, Todd. Tutorial: Convexity and Jensen's inequality. [2008-09-04]. （原始内容存档于2008-04-20）.
Rockafellar, R. T. Convex analysis. Princeton: Princeton University Press. 1970.
Luenberger, David. Linear and Nonlinear Programming. Addison-Wesley. 1984.
Luenberger, David. Optimization by Vector Space Methods. Wiley & Sons. 1969.
Bertsekas, Dimitri. Convex Analysis and Optimization. Athena Scientific. 2003.
Thomson, Brian. Symmetric Properties of Real Functions. CRC Press. 1994.

Hiriart-Urruty, Jean-Baptiste, and Lemaréchal, Claude. (2004). Fundamentals of Convex analysis. Berlin: Springer.
Krasnosel'skii M.A., Rutickii Ya.B. Convex Functions and Orlicz Spaces. Groningen: P.Noordhoff Ltd. 1961.
Borwein, Jonathan, and Lewis, Adrian. (2000). Convex Analysis and Nonlinear Optimization. Springer.

[1] 36-705 Intermediate Statistics: Lecture Notes 2 [中级统计学：讲义2] (PDF). www.stat.cmu.edu. [3 March 2017]. （原始内容存档 (PDF)于2021-05-06）（英语）.

[2] Concave Upward and Downward [上凸与下凸]. mathsisfun.com. （原始内容存档于2013-12-18）（英语）.

[boyd-3] Boyd, Stephen P.; Vandenberghe, Lieven. Convex Optimization [凸优化] (pdf). Cambridge University Press. 2004 [October 15, 2011]. ISBN 978-0-521-83378-3. （原始内容存档 (PDF)于2021-05-09）（英语）.

[1]

[2]

[3]