在編寫應用程序時,我們經常要使用到字符串。C++標準庫中的<string>和<sstream>為我們操作字符串提供了很多的方便,例如:對象封裝、安全和自動的類型轉換、直接拼接、不必擔心越界等等。但今天我們并不想長篇累牘得去介紹這幾個標準庫提供的功能,而是分享一下stringstream.str()的一個有趣的現象。我們先來看一個例子:
#include <string>
#include <sstream>
#include <iostream>
using namespace std;
int main()
{
stringstream ss("012345678901234567890123456789012345678901234567890123456789");
stringstream t_ss("abcdefghijklmnopqrstuvwxyz");
string str1(ss.str());
const char* cstr1 = str1.c_str();
const char* cstr2 = ss.str().c_str();
const char* cstr3 = ss.str().c_str();
const char* cstr4 = ss.str().c_str();
const char* t_cstr = t_ss.str().c_str();
cout << "------ The results ----------" << endl
<< "cstr1:\t" << cstr1 << endl
<< "cstr2:\t" << cstr2 << endl
<< "cstr3:\t" << cstr3 << endl
<< "cstr4:\t" << cstr4 << endl
<< "t_cstr:\t" << t_cstr << endl
<< "-----------------------------" << endl;
return 0;
}
在看這段代碼的輸出結果之前,先問大家一個問題,這里cstr1、cstr2、cstr3和cstr4 打印出來結果是一樣的么?(相信讀者心里會想:結果肯定不一樣的嘛,否則不用在這里“故弄玄虛”了。哈哈
接下來,我們來看一下這段代碼的輸出結果:
------ The results ----------
cstr1: 012345678901234567890123456789012345678901234567890123456789
cstr2: 012345678901234567890123456789012345678901234567890123456789
cstr3: abcdefghijklmnopqrstuvwxyz
cstr4: abcdefghijklmnopqrstuvwxyz
t_cstr: abcdefghijklmnopqrstuvwxyz
-----------------------------
這里,我們驚奇地發現cstr3和cstr4竟然不是ss所表示的數字字符串,而是t_ss所表示的字母字符串,這也太詭異了吧,但我們相信“真相只有一個”。下面我們通過再加幾行代碼來看看,為什么會出現這個“詭異”的現象。
#include <string>
#include <sstream>
#include <iostream>
using namespace std;
#define PRINT_CSTR(no) printf("cstr" #no " addr:\t%p\n",cstr##no)
#define PRINT_T_CSTR(no) printf("t_cstr" #no " addr:\t%p\n",t_cstr##no)
int main()
{
stringstream ss("012345678901234567890123456789012345678901234567890123456789");
stringstream t_ss("abcdefghijklmnopqrstuvwxyz");
string str1(ss.str());
const char* cstr1 = str1.c_str();
const char* cstr2 = ss.str().c_str();
const char* cstr3 = ss.str().c_str();
const char* cstr4 = ss.str().c_str();
const char* t_cstr = t_ss.str().c_str();
cout << "------ The results ----------" << endl
<< "cstr1:\t" << cstr1 << endl
<< "cstr2:\t" << cstr2 << endl
<< "cstr3:\t" << cstr3 << endl
<< "cstr4:\t" << cstr4 << endl
<< "t_cstr:\t" << t_cstr << endl
<< "-----------------------------" << endl;
printf("\n------ Char pointers ----------\n");
PRINT_CSTR(1);
PRINT_CSTR(2);
PRINT_CSTR(3);
PRINT_CSTR(4);
PRINT_T_CSTR();
return 0;
}
在上述代碼中,我們把那幾個字符串對應的地址打印出來,其輸出結果為:
------ The results ----------
cstr1: 012345678901234567890123456789012345678901234567890123456789
cstr2: 012345678901234567890123456789012345678901234567890123456789
cstr3: abcdefghijklmnopqrstuvwxyz
cstr4: abcdefghijklmnopqrstuvwxyz
t_cstr: abcdefghijklmnopqrstuvwxyz
-----------------------------
------ Char pointers ----------
cstr1 addr: 0x100200e4
cstr2 addr: 0x10020134
cstr3 addr: 0x10020014
cstr4 addr: 0x10020014
t_cstr addr: 0x10020014
從上面的輸出,我們發現cstr3和cstr4字串符的地址跟t_cstr是一樣,因此,cstr3、cstr4和t_cstr的打印結果是一樣的。按照我們通常的理解,當第17-19行調用ss.str()時,將會產生三個string對象,其對應的字符串也將會是不同的地址。
而打印的結果告訴我們,真實情況不是這樣的。其實,streamstring在調用str()時,會返回臨時的string對象。而因為是臨時的對象,所以它在整個表達式結束后將會被析構。由于緊接著調用的c_str()函數將得到的是這些臨時string對象對應的C string,而它們在這個表達式結束后是不被引用的,進而這塊內存將被回收而可能被別的內容所覆蓋,因此我們將無法得到我們想要的結果。雖然有些情況下,這塊內存并沒有被別的內容所覆蓋,于是我們仍然能夠讀到我們期望的字符串,(這點在這個例子中,可以通過將第20行刪除來體現)。但我們要強調的是,這種行為的正確性將是不被保證的。
通過上述分析,我們將代碼修改如下:
#include <string>
#include <sstream>
#include <iostream>
using namespace std;
#define PRINT_CSTR(no) printf("cstr" #no " addr:\t%p\n",cstr##no)
#define PRINT_T_CSTR(no) printf("t_cstr" #no " addr:\t%p\n",t_cstr##no)
int main()
{
stringstream ss("012345678901234567890123456789012345678901234567890123456789");
stringstream t_ss("abcdefghijklmnopqrstuvwxyz");
string str1(ss.str());
const char* cstr1 = str1.c_str();
const string& str2 = ss.str();
const char* cstr2 = str2.c_str();
const string& str3 = ss.str();
const char* cstr3 = str3.c_str();
const string& str4 = ss.str();
const char* cstr4 = str4.c_str();
const char* t_cstr = t_ss.str().c_str();
cout << "------ The results ----------" << endl
<< "cstr1:\t" << cstr1 << endl
<< "cstr2:\t" << cstr2 << endl
<< "cstr3:\t" << cstr3 << endl
<< "cstr4:\t" << cstr4 << endl
<< "t_cstr:\t" << t_cstr << endl
<< "-----------------------------" << endl;
printf("\n------ Char pointers ----------\n");
PRINT_CSTR(1);
PRINT_CSTR(2);
PRINT_CSTR(3);
PRINT_CSTR(4);
PRINT_T_CSTR();
return 0;
}
現在我們將獲得我們所期望的輸出結果了:
------ The results ----------
cstr1: 012345678901234567890123456789012345678901234567890123456789
cstr2: 012345678901234567890123456789012345678901234567890123456789
cstr3: 012345678901234567890123456789012345678901234567890123456789
cstr4: 012345678901234567890123456789012345678901234567890123456789
t_cstr: abcdefghijklmnopqrstuvwxyz
-----------------------------
------ Char pointers ----------
cstr1 addr: 0x100200e4
cstr2 addr: 0x10020134
cstr3 addr: 0x10020184
cstr4 addr: 0x100201d4
t_cstr addr: 0x10020014
現在我們知道stringstream.str()方法將返回一個臨時的string對象,而它的生命周期將在本表達式結束后完結。當我們需要對這個string對象進行進一步操作(例如獲得對應的C string)時,我們需要注意這個可能會導致非預期結果的“陷阱”。:)
最后,我們想強調一下:由于臨時對象占用內存空間被重新使用的不確定性,這個陷阱不一定會明顯暴露出來。但不暴露出來不代表行為的正確性,為了避免“詭異”問題的發生,請盡量采用能保證正確的寫法。
正確的寫法應該是string str = stringstream.str();