常用的數學函數以及浮點數處理函數

在編程中我們總要進行一些數學運算以及數字處理,尤其是浮點數的運算和處理,這篇文章主要介紹C語言下的數學庫。而其他語言中的數學庫函數的定義以及最終實現也是通過對C數學庫的調用來完成的,其內容大同小異,因此就不在這里介紹了。
C語言標準庫中的math.h定義了非常多的數學運算和數字處理函數。這些函數大部分都是在C89標準中定義的,而有些C99標準下的函數我會特殊的說明,同時因為不同的編譯器下的C標準庫中有些函數的定義有差別,我也會分別的說明。

數字的范圍

整型

整型用來存儲整數數值,它按存儲的字節長短分為:字符型短整型整型長整型。 所有類型的存儲長度都是定長的。既然類型是定長的就有一個最大最小可表示的范圍,對于整型來說各種類型的最大最小的定義可以在limits.h中找到。下面表格列出了不同類型的存儲長度和最大最小值:

類型 字節數 最小值 宏定義 最大值 宏定義 備注
char 1 -2^7 SCHAR_MIN 2^7-1 SCHAR_MAX
unsigned char 1 0 UCHAR_MIN 2^8-1 UCHAR_MAX
short 2 -2^15 SHRT_MIN 2^15-1 SHRT_MAX
unsigned short 2 0 USHRT_MIN 2^16-1 USHRT_MAX
int 4? -2^31 INT_MIN 2^31-1 INT_MAX
unsinged int 4? 0 UINT_MIN 2^32-1 UINT_MAX
long 4? -2^31 LONG_MIN 2^31-1 LONG_MAX
unsigned long 4? 0 ULONG_MIN 2^32-1 ULONG_MAX
long long 8 -2^63 LLONG_MIN 2^63-1 LLONG_MAX C99
unsigned long long 8 0 ULLONG_MIN 2^64-1 ULLONG_MAX C99

對于int和long類型來說,二者的長度是依賴于操作系統的字長或者機器的字長。因此如果我們要編寫跨平臺或跨系統的程序就應該盡量減少對這兩個類型變量的直接定義。 下面表格列出了int和long兩種類型在不同操作系統字長下的長度。

類型 16位系統/字節 32位系統/字節 64位系統/字節
int 2 4 4
long 4 4 8

在很多系統中都對32位的整型以及64位的整型進行特殊的定義,比如Windows中的DWORD,UINT32,INT64等等。

浮點型

浮點型用來存儲浮點數值。它按精度分為:單精度浮點型雙精度浮點型擴展雙精度浮點型。 浮點數是連續并且無限的,但是計算機并不能表達出所有連續的值。因此對浮點數定義了最小規格化值和最大規格化值,這些定義可以在float.h中找到。下面表格列出了不同類型的存儲長度和最值:

類型 字節數 最小規格化值 宏定義 最大規格化值 宏定義 備注
float 4 1.175494351e-38 FLT_MIN 3.402823466e+38 FLT_MAX
double 8 2.2250738585072014e-308 DBL_MIN 1.7976931348623158e+308 DBL_MAX
long double 8? 2.2250738585072014e-308 LDBL_MIN 1.7976931348623158e+308 LDBL_MAX C99
  • 這里的FLT_MIN,DBL_MIN,LDBL_MIN并不是指最小可表示的浮點數,而是最小規格化浮點值,具體我會在下面詳細介紹。
  • 對 long double 的定義,取決于編譯器和機器字長,所以對于不同平臺可能有不同的實現,有的是8字節,有的是10字節,有的是12字節或16字節。
  • 為了和數學中的無窮∞對應,標準庫中定義了一個宏:INFINITY來表示無窮大。比如1.0/0.0等于INFINITY,-1.0/0.0等于-INFINITY。無窮大可以進行加減乘除操作,比如1.0/INFINITY == 0。
  • 為了和數學中的非法數字對應,標準庫中定義了一個宏:NAN來表示非法數字。比如負數開方、負數求對數、0.0/0.0、0.0* INFINITY、INFINITY/INFINITY、INFINITY-INFINITY這些操作都會得到NAN。注意:如果是整數0/0會產生操作異常

浮點數的存儲結構

浮點數不像整數那樣離散值,而是連續的值。但是用計算機來描述一個浮點數時就不可能完全實現其精度和連續性,現在的浮點型的存儲和描述普遍都是遵循IEEE754標準。如果您想詳細的了解關于浮點數的存儲格式那么您可以花費一點時間來閱讀:https://wenku.baidu.com/view/d02978d8d15abe23482f4dac.html 這篇文章。

簡單來說浮點數的存儲由:S(sign)符號位、E(exponent)指數位、M(mantissa 或significand)尾數位三個部分組成。我們以一個32位的float類型舉例來說,一個浮點數N的從高位到低位的存儲結構如下:

浮點數的存儲結構

也就是一個32位的浮點數由1個符號位,8個指數位,23個尾數位組成。 而為了表示不同類型的浮點數,根據存儲格式對浮點數進行了如下分類:

  • 如果一個浮點數中指數位部分全為1,而尾數位部分全為0則這個浮點數表示為無窮大** INFINITY **,如果符號位為0表示正無窮大,否則就是負無窮大。
  • 如果一個浮點數中指數位部分全為1,而尾數位部分不全為0則這個浮點數表示為非法數字NAN。因此可以看出非法數字并非一個數字而是一類數字。在下面介紹nan函數時我會更加深入的介紹NAN
  • 如果一個浮點數中除符號位外全部都是0,那么這個浮點數就是0
  • 如果一個浮點數中指數位部分全為0,而尾數位部分不全為0則這個浮點數稱為非規格化浮點數,英文稱為:subnormal number 或 denormal number 或 denormalized number。非規格化浮點數常用來表示一個非常接近于0的浮點數。
  • 如果一個浮點數中的指數位部分即非全1又非全0。那么這個浮點數稱之為規格化浮點數,英文稱之為:normal number。我們上面定義的FLT_MIN, DBL_MIN 指的就是最小的規格化浮點數。
  • 我們把規格化浮點數和非規格化浮點數合稱為可表示的浮點數,英文稱之為:machine representable number

一個規格化浮點數N的值可以用如下公式算出:

規格化浮點數計算公式

從上面的公式中可以看出對于一個32位浮點數來說指數位占8位,最小值是1(排除全0為非常規浮點),而最大值是254(排除全1為無窮或者非法浮點),再減去127后得出指數部分的最小值為-126,最大值為127。同時我們發現除了23位尾數外,還有一個隱藏的1作為尾數的頭部。因此我們就很容易得出:
FLT_MIN = 1.0 * 2^-126 = 1.175494351e-38
FLT_MAX = (1.11111111111111111111111)b * 2^127 = 3.402823466e+38

一個非規格化浮點數N的值的可以用如下公式算出:

非規格化浮點數計算公式

從上面的公式中可以看出對于一個32位的浮點數來說,我們發現雖然非規格化浮點的指數位部分全0,但是這里并不是0-127,而是1-127,同時發現尾數位部分并沒有使用隱藏的1作為尾數的頭部,而是將頭部的1移到了指數部分,這樣做的目的是為了保持浮點數字的連續性。我們可以看出當一個浮點數小于FLT_MIN時,他就變為了一個非規格化浮點。我們知道FLT_MIN的值是1.0 * 2^-126,而一個比FLT_MIN小的值就應該是:(0.11111111111111111111111)b * 2^-126,而一個比0大的值就是:(0.00000000000000000000001)b * 2^-126。如果非規格化浮點數以-127作為指數,而繼續使用1作為尾數的頭部時,那么這種數字連續性將會被打破。這也是為什么要定義規格化浮點數和非規格化浮點數的意義所在。可以看出浮點數的這種存儲設計的精妙之處!!。

從上面兩種類型的浮點數中可以總結出浮點數的計算公式可以表示為:
** N = 符號 * 尾數 * 2^指數 **

數學函數

??數字判斷函數或宏

//如果x是正無窮大返回1,負無窮大返回-1,否則返回0
int isinf(x)

//如果x是無窮大返回0
int isfinite(x)

//如果x是一個規格化浮點數則返回非0
int  isnormal(x)

//如果x是一個非法的數字返回非0
int isnan(x)

//如果x是負數返回非0
int signbit(x)  

/**
*返回浮點數的分類:
FP_INFINITE:  x是無窮大或者無窮小
FP_NAN:x是一個非法數字
FP_NORMAL:x是一個規格化浮點數
FP_SUBNORMAL:x是一個非規格化浮點數
FP_ZERO:x是0
*/
int  fpclassify(x)


??三角函數

1. 反余弦函數: y = arccos(x)
extern float acosf(float x);
extern double acos(double x);
extern long double acosl(long double x);
2. 反正弦函數:y = arcsin(x)
extern float asinf(float x);
extern double asin(double x);
extern long double asinl(long double x);
3. 反正切函數:* y = arctan(x)*
extern float atanf(float x);
extern double atan(double x);
extern long double atanl(long double x);
4. 2個參數的反正切函數:z = arctan(y/x)
extern float atan2f(float y, float x);
extern double atan2(double y, double x);
extern long double atan2l(long double y, long double x);

因為arctan的定義域是在(-∞, +∞),而值域是在(-??/2, ??/2)之間。因此 :
atan2f(-1.0, 0.0) == -??/2; atan2f(1.0, 0.0) == ??/2;
這個函數提供的另外一個意義在于tan函數的值其實就是對邊除以鄰邊的結果,因此當知道對邊和鄰邊時就可以直接用這個逆三角函數來求得對應的弧度值。假如特殊情況下對邊和鄰邊的值都是0.0,那么如果你調用atan(0.0/0.0)得到的值將是NAN而不是0。因為0.0/0.0的值是NAN,而對NAN調用atan函數返回的也是NAN,但是對atan2(0.0,0.0)調用返回的結果就是正確值0。

5. 余弦函數: y = cos(x)
extern float cosf(float x);
extern double cos(double x);
extern long double cosl(long double x);
6. 正弦函數:y = sin(x)
extern float sinf(float x);
extern double sin(double x);
extern long double sinl(long double x);
7. 正切函數:y = tan(x)
extern float tanf(float x);
extern double tan(double x);
extern long double tanl(long double x); 

??雙曲函數

1. 反雙曲余弦函數:y = arccosh(x)
extern float acoshf(float x);
extern double acosh(double x);
extern long double acoshl(long double x);
2. 反雙曲正弦函數:y = arcsinh(x)
extern float asinhf(float x);
extern double asinh(double x);
extern long double asinhl(long double x);
3. 反雙曲正切函數:y = arctanh(x)
extern float atanhf(float x);
extern double atanh(double x);
extern long double atanhl(long double x);
4. 雙曲余弦函數:y = cosh(x)
extern float coshf(float x);
extern double cosh(double x);
extern long double coshl(long double x);    
5. 雙曲正弦函數:y = sinh(x)
extern float sinhf(float x);
extern double sinh(double x);
extern long double sinhl(long double x);
6. 雙曲正切函數: y = tanh(x)
extern float tanhf(float x);
extern double tanh(double x);
extern long double tanhl(long double x);

??指數函數

1. 自然常數e為基數的指數函數:y = e^x
extern float expf(float x);
extern double exp(double x);
extern long double expl(long double x);
2. 自然常數e為基數的指數減1:y = e^x - 1
extern float expm1f(float x);
extern double expm1(double x); 
extern long double expm1l(long double x); 

我們既然定義了exp函數,那么按理說要實現e^x-1就很簡單,為什么要單獨定義這個函數呢?先看下面兩個輸出:

    double o1 = exp(1.0e-13) - 1.0;
    double o2 = expm1(1.0e-13);
    printf("o1 = %e, o2 = %e", o1, o2);

//output:   o1 = 9.992007e-14, o2 = 1.000000e-13

從上面的例子中發現當用exp函數時出現了有效數字損失而expm1則沒有。出現這種問題的原因就是浮點加減運算本身機制的問題,在浮點運算中下面兩種類型的運算都有可能出現損失有效數字的情況:

  • 兩個相近的數相減
  • 兩個數量級相差很大的數字相加減

我們可以做一個實驗,分別在調試器中查看a1,a2和b1,b2的結果:

double a1 = 5.37-5.36; 
double a2 = (5.37*100 - 5.36*100)/100;
double b1 = 100.0-0.01; 
double b2 = (100.0/0.01 - 0.01/0.01)*0.01;

//我們發現a1的值是0.0099999999999997868,而a2的值就是0.01
//我們發現b1的值是99.989999999999994而b2的值是99.990000000000009

從上面的例子中可以看出當浮點數相近或者差異很大時加減運算出現了有效數字損失的情況,同時上面的例子也給出了一個減少這種損失的簡易解決方案。再回到上面exp函數的場景中,因為exp(1.0e-13)的值和1.0是非常接近,因此當對這兩個數做減法時就會出現有效數字損失的情況。我們再來考察expm1函數,這個函數主要用于當x接近于0時的場景。我們知道函數 y = e^x - 1 當x趨近于0時的極限是0,因此我們可以用泰勒級數來展開他:

e^x-1泰勒級數展開

可以看出這個級數收斂的很快,因此可以肯定的是expm1函數的內部實現就是通過上面的泰勒級數的方法來實現求值的。下面這段函數使用手冊的文檔也給出了用expm1代替exp函數的例子和說明:

 Note that computations numerically equivalent to exp(x) - 1.0 are often
     hidden in more complicated expressions; some amount of algebraic manipu-
     lation may be necessary to take advantage of the expm1() function.  Con-
     sider the following example, abstracted from a developer's actual produc-
     tion code in a bug report:

           double z = exp(-x/y)*(x*x/y/y + 2*x/y + 2) - 2

     When x is small relative to y, this expression is approximately equal to:

           double z = 2*(exp(-x/y) - 1)

     and all precision of the result is lost in the computation due to cata-
     strophic cancellation.  The developer was aware that they were losing
     precision, but didn't know what to do about it.  To remedy the situation,
     we do a little algebra and re-write the expression to take advantage of
     the expm1() function:

             exp(-x/y)*(x*x/y/y + 2*x/y + 2) - 2
           = (2*exp(-x/y) - 2) + exp(-x/y)*((x*x)/(y*y) + 2*x/y)

     This transformation allows the result to be computed to a high degree of
     accuracy as follows:

           const double r = x/y;
           const double emrm1 = expm1(-r);
           double z = 2.0*emrm1 + (1.0 + emrm1)*(2.0 + r)*r;

     It is not always easy to spot such opportunities for improvement; if an
     expression involving exp() seems to be suffering from an undue loss of
     accuracy, try a few simple algebraic operations to see if you can iden-
     tify a factor with the form exp(x) - 1.0, and substitute expm1(x) in its
     place.

3. 2為基數的指數函數:y = 2^x
extern float exp2f(float x);
extern double exp2(double x); 
extern long double exp2l(long double x); 
4. 浮點數構造函數:* y = x * 2^n*
extern float ldexpf(float x, int n);
extern double ldexp(double x, int n);
extern long double ldexpl(long double x, int n);

既然上面已經存在了一個exp函數,如果我們要實現相同的功能按理來只要:x*exp(n)就好了,為什么還要單獨提供一個新的ldexp函數呢?原因就是ldexp函數其實是一個用來構造浮點數的函數,我們知道浮點數的格式定義在IEEE754中,具體的結構為:符號*尾數*2^指數,剛好和ldexp所實現的功能是一致的,這里的x用來指定符號*尾數,而n則指定為指數。因此我們就可以借助這個函數來實現浮點數的構造。

5. 以FLT_RADIX基數的浮點數構造函數:y = x* FLT_RADIX^n
extern float scalbnf(float x, int n);
extern double scalbn(double x, int n);
extern long double scalbnl(long double x, int n);

extern float scalblnf(float x, long int n);
extern double scalbln(double x, long int n);
extern long double scalblnl(long double x, long int n);

這里的FLT_RADIX是浮點數存儲里面的基數(在float.h中有定義這個宏),一般情況下是2,這時候這個函數就和ldexp函數是一致的。但是有些系統的浮點數存儲并不是以2為基數(比如IBM 360的機器)。因此如果你要構造一個和機器相關的浮點數時就用這個函數。


??對數函數

1. 自然常數e為基數的對數函數:y = ln(x)
extern float logf(float x);
extern double log(double x);
extern long double logl(long double x);
2. 自然常數e為基數的對數函數: y = ln(x + 1)
extern float log1pf(float x);
extern double log1p(double x);
extern long double log1pl(long double x);

這個函數的使用場景主要用于當x趨近于0的情況,上面曾經描述過當兩個浮點數之間的數量值相差很大時數字的加減會存在有效位丟失的情況。因此如果我們用log函數來計算時當x趨近于0的ln(x+1)時就會存在有效位的損失情況。比如下面的例子:

  double o1 = log(1.0e-13 + 1);
  double o2 = log1p(1.0e-13);
  printf("o1 = %e, o2 = %e", o1, o2);
 //output: o1 = 9.992007e-14, o2 = 1.000000e-13

可以看出函數log1p主要用于當x接近于0時的場景。我們知道函數 y = ln(x+1) 當x趨近于0時的極限是0,因此我們可以用泰勒級數來展開他:

ln(x+1)的泰勒級數展開

可以看出這個級數收斂的很快,因此可以肯定的是log1p函數的內部實現就是通過上面的泰勒級數的方法來實現求值的。

3. 10為基數的對數函數:y = log10(x)
extern float log10f(float x);
extern double log10(double x);
extern long double log10l(long double x);
4. 2為基數的對數函數1:y = log2(x)
extern float log2f(float x);
extern double log2(double x);
extern long double log2l(long double x);
5. FLT_RADIX為基數的對數函數并取整:y = floor(log2(x))
extern float logbf(float x);
extern double logb(double x);
extern long double logbl(long double x);

函數返回的是一個小于等于真實指數的最大整數,也就是對返回的值進行了floor操作,具體floor函數的定義見下面。這里的FLT_RADIX是浮點數的基數,大部分系統定義為2。下面是這個函數的一些例子:

  logb(2.5) == floor(log2(2.5)) == 1;
  logb(4.0) == floor(log2(4.0)) == 2;
  logb(4.1) == floor(log2(4.1)) == 2;
  logb(7) == floor(log2(7)) == 2;
  logb(7.9999) == floor(log2(7.9999)) == 2;
  logb(8.0) == floor(log2(8.0)) == 3;
6. FLT_RADIX為基數的對數函數并取整:y = floor(log2(x))
extern int ilogbf(float x);
extern int ilogb(double x);
extern int ilogbl(long double x);

函數返回的是一個小于等于真實指數的最大整數,也就是對返回的值進行了floor操作,具體floor函數的定義見下面。需要注意的是這里返回的類型是整型,因此不可能存在返回NAN或者** INFINITY**的情況。下面是當x是0或者負數時返回的特殊值:

FP_ILOGB0:  當x是0時返回這個特殊值。
FP_ILOGBNAN:當x是負數時返回這個特殊值。

這里區分一下log2,logb,ilogb 這三個函數的差異:

  • logb,ilogb是以FLT_RADIX為基數的對數,而log2則是以2為基數的對數,雖然大部分系統中FLT_RADIX默認是定義為2。
  • log2,logb返回的都是浮點型,因此有可能返回INFINITY和NAN這兩個特殊值;而ilogb則返回的是整型,因此如果x是特殊的話那么將會返回FP_ILOGB0和FP_ILOGBNAN兩個值。
  • log2返回的是有可能帶小數的指數,而logb和ilogb則返回的是一個不大于實際指數的整數。

??絕對值函數

1. 取絕對值函數:y = |x|
extern float fabsf(float);
extern double fabs(double);
extern long double fabsl(long double);

??冪函數

1. 平方根函數:y = √x
extern float sqrtf(float x);
extern double sqrt(double x);
extern long double sqrtl(long double x);
2. 立方根函數: y = ?x
extern float cbrtf(float x);
extern double cbrt(double x);
extern long double cbrtl(long double x);
3. 冪函數:z = x ^ y
extern float powf(float x, float y);
extern double pow(double x, double y);
extern long double powl(long double x, long double y);
4. 歐幾里得距離函數: *d =√x2+y2 *
extern float hypotf(float x, float y);
extern double hypot(double x, double y);
extern long double hypotl(long double x, long double y);

這個函數可以用來求直角三角形的斜邊長度。


??誤差函數

誤差函數主要用于概率論和偏微分方程中使用,具體參考誤差函數

1. 誤差函數
extern float erff(float x);
extern double erf(double x);
extern long double erfl(long double x);
2. 互補誤差函數
extern float erfcf(float x);
extern double erfc(double x);
extern long double erfcl(long double x);

??伽瑪函數

1. 伽瑪函數 :y = ??(x)
extern float lgammaf(float x);
extern double lgamma(double x);
extern long double lgammal(long double x);

2. 階乘函數:y = (x-1)!
extern float tgammaf(float x);
extern double tgamma(double x);
extern long double tgammal(long double x);

伽瑪函數其實就是階乘在實數上的擴展,一般我們知道3! = 3*2*1 = 8。那么我們要求2.5!怎么辦,這時候就可以用這個函數來實現。這個函數也可以用來進行階乘計算。 注意這里是x-1后再計算的。


??取整函數

1. 返回一個大于等于x的最小整數
extern float ceilf(float x);
extern double ceil(double x);
extern long double ceill(long double x);

舉例來說我們要對于一個負浮點數按0.5進行四舍五入處理:即當某個負數的小數部分大于等于0并且小于0.5時則舍棄掉小數部分,而當小數部分大于等于0.5并且小于1時則等于0.5。我們就可以用ceil函數來實現如下:

   double y = ceil(x*0.5)/0.5;
2. 返回一個小于等于x的最大整數
extern float floorf(float x);
extern double floor(double x);
extern long double floorl(long double x);

舉例來說我們要對于一個正浮點數按0.5進行四舍五入處理:即當某個正數的小數部分大于等于0并且小于0.5時則舍棄掉小數部分,而當小數部分大于等于0.5并且小于1時則等于0.5。我們就可以用floor函數來實現如下:

   double y = floor(x*0.5)/0.5;
3. 返回一個最接近x的整數
extern float nearbyintf(float x);
extern double nearbyint(double x);
extern long double nearbyintl(long double x);

extern float rintf(float x);
extern double rint(double x);
extern long double rintl(long double x);

//下面三個函數返回的是整數。
extern long int lrintf(float x);
extern long int lrint(double x);
extern long int lrintl(long double x);

//下面三個函數是C99或者gnu99中的函數。
extern long long int llrintf(float x);
extern long long int llrint(double x);
extern long long int llrintl(long double x);


上述各函數的區別請參考:http://zh.cppreference.com/w/c/numeric/math/rint

4. 對x進行四舍五入取整
extern float roundf(float x);
extern double round(double x);
extern long double roundl(long double x);

extern long int lroundf(float x);
extern long int lround(double x);
extern long int lroundl(long double x);

//下面三個函數是C99或者gnu99中的函數。
extern long long int llroundf(float x);
extern long long int llround(double x);
extern long long int llroundl(long double x);

如果x是正數,那么當小數部分小于0.5則返回的整數小于浮點數,如果小數部分大于等于0.5則返回的整數大于浮點數;如果x是負數,那么當小數部分小于0.5則返回的整數大于浮點數,如果小數部分大于等于0.5則返回的整數小于浮點數。

** 如果我們要實現保留N位小數的四舍五入時。我們可以用如下的方法實現:**

   double y = round(x * pow(10, N)) / pow(10, N)

??數字拆分

1. 返回浮點數x的整數部分
extern float truncf(float x);
extern double trunc(double x);
extern long double truncl(long double x);

這個函數和floor函數的區別主要體現在負數上,對一個負數求floor則會返回一個小于等于負數的負整數,而對一個負數求trunc則會返回一個大于等于負數的負整數。

如果我們要實現保留N位小數的截取時。我們可以用如下的方法實現:

   double y = trunc(x * pow(10, N)) / pow(10, N)
2. 返回x/y的余數1: z = mod(x, y)
extern float fmodf(float x, float y);
extern double fmod(double x, double y);
extern long double fmodl(long double x, long double y);

函數返回值r = x - n*y, 其中n等于x/y的值截取的整數。

3. 返回x/y的余數2: z = mod(x, y)
extern float remainderf(float x, float y);
extern double remainder(double x, double y);
extern long double remainderl(long double x, long double y);

函數返回值r = x - n*y, 其中n等于x/y的值取最接近的整數,如果有兩個數都接近x/y,那么n就取偶數。比如我們要求remainder(7,2)。因為7/2是3.5,按上面規則n就取4,因此最后的結果是r = 7 - 4*2 = -1。同樣我們可以得出remainder(7,3) == 7-2\*3 == 1

  • 從上面的描述可以看出fmodremainder的區別主要在于x/y的整數部分的處理不一樣:前者是取x/y的整數來算余數,而后者則取最接近x/y的整數來算余數。
4. 返回x/y的余數和整數商
extern float remquof(float x, float y , int *quo);
extern double remquo(double x, double y, int *quo);
extern long double remquol(long double x, long double y, int * quo);

這個函數和** remainder**函數一樣,只不過會將整數商也返回給quo,也就是說r = x - n *y這個等式中,r作為函數的返回,而n則返回給quo。

5. 分解出x的整數和小數部分
extern float modff(float x, float p*);
extern double modf(double x, double p*);
extern long double modfl(long double x, long double p*);

函數返回小數部分,整數部分存儲在p中。這里面返回值和p都和x具有相同的符號。

6. 分解出x的指數和尾數部分
extern float frexpf(float x, int * p);
extern double frexp(double x, int * p);
extern long double frexpl(long double x, int * p);

函數返回尾數*符號部分,指數部分存儲在p中。需要明確的是如果浮點數x為0或者非規格化浮點數時按浮點數的定義格式返回尾數和指數,而當x為規格化浮點數那么返回的值的區間是[0.5, 1)。這里的返回值和指數值p和上面介紹的規格化浮點數格式:** 符號 * (1.尾數) * 2^指數 有差異。因為按照定義返回的尾數部分應該是1.xxx,但是這里的返回值卻是[0.5, 1)。其實這并不矛盾,只是函數對返回的值做了特殊處理:因為一個正浮點數可以表示為:1.m * 2^e ==> (2^0 + 0.m) * 2^e ==> (2^0 / 2 + 0.m / 2) *2^(e+1) =>(0.5 + 0.m/2) *2^(e+1)。因此frexp函數返回的真實值是: 尾數除以2,而p存儲的是:指數+1**

下面函數使用的一些例子:

   int p1 = 0;
   double y1 = frexp(16.0, &p); //y1=0.5, p= 5
  
  int p2 = 0;
  double y2 = frexp(1.0, &p); //y2=0.5, p = 1
 
  int p3 = 0;
  double y3 = frexp(0.0, &p); //y3=0, p = 0

這個函數和上面的ldexp函數為互逆函數。要詳細的了解浮點數存儲格式請參考IEEE754


??符號改變

1. 將y的符號賦值給x并返回具有和y相同符號的x值
extern float copysignf(float x, float y);
extern double copysign(double x, double y);
extern long double copysignl(long double x, long double y);

舉例如下:

    copysign(10.0, 9.0)  == 10;
    copysign(-10.0, -9.0) == -10;
    copysign(-10.0, 9.0) == 10;
    copysign(10.0, -9.0) == -10;

這個函數的作用是實現符號的賦值,有就是將y的符號賦值給x。


??無效數字定義

1.生成一個quient NAN浮點數
extern float nanf(const char *tagp);
extern double nan(const char *tagp);
extern long double nanl(const char *tagp);

前面我有介紹了浮點數里面有兩個特殊的值:無窮INFINITY和非法NAN,既然這兩個數字都可以用浮點數來描述,那么他就肯定也有對應的存儲格式。我們知道浮點數的格式為:符號*尾數*2^指數。在IEEE754標準中就對無窮和非法這兩種特殊的數進行了定義:

  • 當浮點數中的指數部分的二進制位全為1。而尾數部分的二進制位全為0時則表示的浮點數是無窮INFINITY,如果符號位為0則表示正無窮大,而符號位為1則表示負無窮大。
  • 當浮點數中的指數部分的二進制位全為1。而尾數部分的二進制位不全為0時則表示的浮點數是非法數字NAN,或者表示為未定義的數字。

從上面的對NAN的定義可以得出非法數字并不是一個具體的數字而是一類數字,因此對兩個為NAN的浮點數字并不能用等號來比較。以32位IEEE單精度浮點數的NAN為例,按位表示即:S111 1111 1AXX XXXX XXXX XXXX XXXX XXXX,其中的S是符號位,而符號位后面的指數位為8個1表示這個數字是一個特殊的浮點數,剩余的A和X則組成為了尾數部分,因為是NAN 所以我們要求A和X這些位中至少有一個是1。在IEEE 754-2008標準中,又對NAN的類型進行了細分:

  • 如果A = 1,則該數是quiet NAN。也就是quiet NAN中尾數的最高位為1。
  • 如果A為零、其余X部分非零,則是signaling NAN

區分兩種NAN的目的是為了更好的對浮點數進行處理。一般我們將signaling NAN來表示為某個數字未初始化,而將quiet NAN則用來表示浮點運算的結果出現了某類異常,比如0除異常,比如負數開根異常等等。既然quiet NAN可以用來對無效數字進行分類,也就是說我們可以構建出一個有類別標志的quiet NAN。因此nan函數就是一個專門構建具有無效類別的NAN函數(繞了這么多終于說到點子上了)。nan函數中的tagp參數就是用來指定非法數字中的類別,雖然參數類型是字符串,但是要求里面的值必須是整數或者空字符串,而且系統在構造一個quiet NAN時會將tagp所表示的整數放在除A外的其他尾數位上。下面是使用nan函數的例子:

     float f1 = NAN;           //0b01111111110000000000000000000000
     float f2 = nanf("");      //0b01111111110000000000000000000000
     float f3 = nanf("123");   //0b01111111110000000000000001111011
     float f4 = nanf("456");   //0b01111111110000000000000111001000 
     float f5 = nanf("abc");   //0b01111111110000000000000000000000

具體操作時我們可以用如下來方法來處理各種異常情況:

//定義部分:
float  testfn()
{
    //有異常時根據不同的情況返回不同的nan。
   if (異常1)
    return nan("100");
 else if (異常2)
   return nan("200");
else
   return 正常數字;
}

//調用部分:

float ret = testfn();
if (isnan(ret))
{
      //取非法數字的錯誤標志部分
      int exceptionType = ret & 0x3FFFFF;
      if (exceptionType == 100)
     {
     }
     else if (exceptionType == 200)
     {
     }
}
else
{
   //正常處理。
}

有一個地方疑惑的是為什么NAN定義默認值是一個quiet NAN而不是signaling NAN


??遞增函數

1. 返回x在y方向上的下一個可表示的浮點數。
extern float nextafterf(float x, float y);
extern double nextafter(double x, double y);
extern long double nextafterl(long double x, long double y);

extern double nexttoward(double x, long double y);
extern float nexttowardf(float x, long double y);
extern long double nexttowardl(long double x, long double y);

如果x等于y則返回x。這個函數主要用來實現那些需要高精度增量循環的處理邏輯。也就是說如果對浮點數進行for循環處理時,這個函數可以用來實現最小的浮點數可表示的數字的增量。比如下面的代碼:

     for (double x = 0.1; x < 0.2; x=nextafter(x,0.2))
   {
         //...
    }

注意這里是下一個可表示的浮點數,也就是說當x為0而y為1時,那么返回的值將是最小的非常規浮點數;而如果x為1而y為2時,那么返回的值將是1+DBL_MIN(or FLT_MIN). 下面是具體的示例代碼:

    // 0.0f == 0b00000000000000000000000000000000
    float a = nextafterf(0.0f, 1.0f);   //a == 0b00000000000000000000000000000001
    // FLT_MIN ==   0b00000000100000000000000000000000
    float b = nextafterf(FLT_MIN, 1.0f); // b = 0b00000000100000000000000000000001
    // 1.0f == 0b00111111100000000000000000000001
    float c = nextafterf(1.0f, 1.1f); // c = 0b00111111100000000000000000000001


??比較函數

1. 返回x減去y的差如果x>y,否則返回0
extern float fdimf(float x, float y);
extern double fdim(double x, double y);
extern long double fdiml(long double x, long double y);

這個函數可以用來求兩個數的差,并且保證不會出現負數。下面是使用的例子:

    double a = fdim(5.0, 3.0);   //2.0
    double b = fdim(5.0, 5.0);   //0.0
    double c = fdim(5.0, 6.0);   //0.0
2. 返回x和y中大的數字: z = max(x,y)
extern float fmaxf(float x, float x);
extern double fmax(double x, double x);
extern long double fmaxl(long double x, long double x);
3. 返回x和y中小的數字: z = min(x,y)
extern float fminf(float x, float y);
extern double fmin(double x, double y);
extern long double fminl(long double x, long double y);

??浮點乘加運算

1. 浮點乘加運算:w = x*y + z
extern float fmaf(float x, float y, float z);
extern double fma(double x, double y, double z);
extern long double fmal(long double x, long double y, long double z);

這個函數返回x*y+z的結果,而且會保證中間計算不會丟失精度。這個函數會比直接用x*y+z要快,因為CPU中專門提供了一個用于浮點數乘加的指令FMA。具體情況請參考關于浮點乘加器方面的資料和應用。

結語

最后歡迎大家訪問我的github站點 多多點贊,多多支持!

參考文章:

http://www.cplusplus.com/reference/cmath/
http://www.gnu.org/software/libc/manual/html_node/Mathematics.html#Mathematics
https://wenku.baidu.com/view/d02978d8d15abe23482f4dac.html
http://blog.csdn.net/hyforthy/article/details/19649969
http://blog.csdn.net/patkritlee/article/details/53809880
http://zh.cppreference.com/w/c/numeric/math/rint
https://zh.wikipedia.org/wiki/NaN
http://www.cnblogs.com/konlil/archive/2011/07/06/2099646.html#commentform
https://en.wikipedia.org/wiki/Denormal_number

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容