所有類linux的操作系統都非常依賴于被用于幾種數據類型存儲的文本文件。很多人會使用純文本格式來編寫文檔,雖然很容易看到一個小的文本文件對于保存簡單的筆記會很有幫助,但是也有可能用文本格式來編寫大的文檔,一種比較流行的方式就是先用文本格式來編寫一個大的文檔,然后用一種標記語言的方式來描述已完成文檔的格式。而linux的文本處理系統位于該項技術的前列。
目前,最流行的電子文檔類型可能就是網頁了,網頁是文本文檔,它們使用HTML(超文本標記語言)或者是XML(可擴展的標記語言)作為標記語言來描述文檔的可視格式。另外,email是一個基于文本的媒介,為了傳輸,甚至非文本的附件也會被轉換成文本表示形式。通過下載一個email信息,然后用less瀏覽它,我們可以看到這條信息始于一個標題,其描述了信息的來源以及在傳輸過程中它接受到的處理,然后是信息的正文內容。輸出時,會以純文本的格式發送到打印機。或者頁面包含圖形,其會被轉換成一種文本格式的頁面描述語言,以PostScript著稱,然后再發送給一款能生成圖形點陣的程序,最后被打印出來。
有好多命令的選項可以用來幫助更好的可視化文本內容。sort程序對標準輸入的內容,或命令行中指定的一個或多個文件進行排序,然后把排序結果發送到標準輸出。uniq程序執行一個看似瑣碎的行為,當給定一個排序好的文件(包括標準輸出),uniq會刪除任意重復行,并且把結果發送到標準輸出。uniq常常和sort程序一塊使用,來清理重復的輸出。cut程序被用來從文本文件中抽取文本,并將其輸出到標準輸出,它能夠接受多個文件參數或者標準輸入。paste的功能與cut恰恰相反,它會添加一個或多個文本列到文件中,而不是從文件中抽取文本列。
通常比較文本文件的版本是很有幫助的,對于系統管理員和軟件卡法這來說,這個尤為重要。