Python的語法格式
Python是一種計算機編程語言,有著自己的一套語法格式。Python的語法格式非常簡單,采用縮進的方式:
# print absolute value of an integer:
a = 100
if a >= 0:
print(a)
else:
print(-a)
- 以
#
開頭的語句是注釋,解釋器會自動忽略。 - 當語句以
:
結束時,縮進的語句視為代碼塊。
縮進有利有弊,好處是強迫你寫出格式化的代碼,但沒有規定縮進是幾個空格還是tab。按照約定俗成的習慣,應該使用
4個空格
的縮進。
縮進的另一個好處是強迫你寫出縮進較少的代碼,你會傾向于把很長的一段代碼拆分成若干函數,從而得到縮進較少的代碼。
縮進的壞處就是“復制-粘貼”功能失效了,當我們重構代碼時,粘貼過去的代碼必須重新檢查縮進是否正確。此外,IDE很難像Java代碼那樣格式化Python代碼。
- Python程序是大小寫敏感的,如果寫錯了大小寫,程序會報錯。
Python的數據類型
在Python中,能夠直接處理的數據類型有以下幾種:
整數
Python可以處理任意大小的整數,當然包括負整數,在程序中的表示方法和數學上的寫法一模一樣,例如:1
,100
,-8080
,0
,等等。
計算機由于使用二進制,所以,有時候用十六進制表示整數比較方便,十六進制用0x前綴和0-9
,a-f
表示,例如:0xff00
,0xa5b4c3d2
,等等。
浮點數
浮點數也就是小數,之所以稱為浮點數,是因為按照科學記數法表示時,一個浮點數的小數點位置是可變的,比如,1.23x109和12.3x108是完全相等的。浮點數可以用數學寫法,如1.23
,3.14
,-9.01
,等等。但是對于很大或很小的浮點數,就必須用科學計數法表示,把10
用e
替代,1.23x109
就是1.23e9
,或者12.3e8
,0.000012
可以寫成1.2e-5
,等等。
整數和浮點數在計算機內部存儲的方式是不同的,整數運算永遠是精確的(除法難道也是精確的?是的!),而浮點數運算則可能會有四舍五入的誤差。
字符串
字符串是以單引號'或雙引號"括起來的任意文本,比如'abc'
,"xyz"
等等。請注意,''
或""
本身只是一種表示方式,不是字符串的一部分,因此,字符串'abc'
只有a,b,c
這3個字符。如果'
本身也是一個字符,那就可以用""
括起來,比如"I'm OK"
包含的字符是I,',m,空格,O,K
這6個字符。
如果字符串內部既包含'
又包含"怎么辦?可以用轉義字符\
來標識,比如:
'I\'m \"OK\"!'
表示的字符串內容是:
I'm "OK"!
轉義字符\可以轉義很多字符,比如\n
表示換行,\t
表示制表符,字符\
本身也要轉義,所以\\
表示的字符就是\
,可以在Python的交互式命令行用print()
打印字符串看看:
>>> print('I\'m ok.')
I'm ok.
>>> print('I\'m learning\nPython.')
I'm learning
Python.
>>> print('\\\n\\')
\
\
如果字符串里面有很多字符都需要轉義,就需要加很多\
,為了簡化,Python還允許用r''
表示''
內部的字符串默認不轉義,可以自己試試:
>>> print('\\\t\\')
\ \
>>> print(r'\\\t\\')
\\\t\\
如果字符串內部有很多換行,用\n
寫在一行里不好閱讀,為了簡化,Python允許用'''...'''
的格式表示多行內容,可以自己試試:
>>> print('''line1
... line2
... line3''')
line1
line2
line3
上面是在交互式命令行內輸入,注意在輸入多行內容時,提示符由>>>
變為...
,提示你可以接著上一行輸入。如果寫成程序,就是:
print('''line1
line2
line3''')
多行字符串'''...'''
還可以在前面加上r使用,請自行測試。
布爾值
布爾值和布爾代數的表示完全一致,一個布爾值只有True、False兩種值,要么是True,要么是False,在Python中,可以直接用True、False表示布爾值(請注意大小寫),也可以通過布爾運算計算出來:
>>> True
True
>>> False
False
>>> 3 > 2
True
>>> 3 > 5
False
布爾值可以用and、or和not運算。
and運算是與運算,只有所有都為True,and運算結果才是True:
>>> True and True
True
>>> True and False
False
>>> False and False
False
>>> 5 > 3 and 3 > 1
True
or運算是或運算,只要其中有一個為True,or運算結果就是True:
>>> True or True
True
>>> True or False
True
>>> False or False
False
>>> 5 > 3 or 1 > 3
True
not運算是非運算,它是一個單目運算符,把True變成False,False變成True:
>>> not True
False
>>> not False
True
>>> not 1 > 2
True
布爾值經常用在條件判斷中,比如:
if age >= 18:
print('adult')
else:
print('teenager')
空值
空值是Python里一個特殊的值,用None
表示。None
不能理解為0
,因為0
是有意義的,而None
是一個特殊的空值。
此外,Python還提供了列表、字典等多種數據類型,還允許創建自定義數據類型,我們后面會繼續講到。
變量
變量的概念基本上和初中代數的方程變量是一致的,只是在計算機程序中,變量不僅可以是數字,還可以是任意數據類型。
變量在程序中就是用一個變量名表示了,變量名必須是大小寫英文、數字和_的組合,且不能用數字開頭,比如:
a = 1
變量a是一個整數。
t_007 = 'T007'
變量t_007是一個字符串。
Answer = True
變量Answer是一個布爾值True。
在Python中,等號=是賦值語句,可以把任意數據類型賦值給變量,同一個變量可以反復賦值,而且可以是不同類型的變量,例如:
a = 123 # a是整數
print(a)
a = 'ABC' # a變為字符串
print(a)
這種變量本身類型不固定的語言稱之為動態語言,與之對應的是靜態語言。靜態語言在定義變量時必須指定變量類型,如果賦值的時候類型不匹配,就會報錯。例如Java是靜態語言,賦值語句如下(// 表示注釋):
int a = 123; // a是整數類型變量
a = "ABC"; // 錯誤:不能把字符串賦給整型變量
和靜態語言相比,動態語言更靈活,就是這個原因。
請不要把賦值語句的等號等同于數學的等號。比如下面的代碼:
x = 10
x = x + 2
如果從數學上理解x = x + 2那無論如何是不成立的,在程序中,賦值語句先計算右側的表達式x + 2,得到結果12,再賦給變量x。由于x之前的值是10,重新賦值后,x的值變成12。
最后,理解變量在計算機內存中的表示也非常重要。當我們寫:
a = 'ABC'
時,Python解釋器干了兩件事情:
在內存中創建了一個'ABC'的字符串;
在內存中創建了一個名為a的變量,并把它指向'ABC'。
也可以把一個變量a賦值給另一個變量b,這個操作實際上是把變量b指向變量a所指向的數據,例如下面的代碼:
a = 'ABC'
b = a
a = 'XYZ'
print(b)
常量
所謂常量就是不能變的變量,比如常用的數學常數π就是一個常量。在Python中,通常用全部大寫的變量名表示常量:
PI = 3.14159265359
但事實上PI仍然是一個變量,Python根本沒有任何機制保證PI不會被改變,所以,用全部大寫的變量名表示常量只是一個習慣上的用法,如果你一定要改變變量PI的值,也沒人能攔住你。
最后解釋一下整數的除法為什么也是精確的。在Python中,有兩種除法,一種除法是/:
>>> 10 / 3
3.3333333333333335
/除法計算結果是浮點數,即使是兩個整數恰好整除,結果也是浮點數:
>>> 9 / 3
3.0
還有一種除法是//,稱為地板除,兩個整數的除法仍然是整數:
>>> 10 // 3
3
你沒有看錯,整數的地板除//永遠是整數,即使除不盡。要做精確的除法,使用/就可以。
因為//除法只取結果的整數部分,所以Python還提供一個余數運算,可以得到兩個整數相除的余數:
>>> 10 % 3
1
無論整數做//除法還是取余數,結果永遠是整數,所以,整數運算結果永遠是精確的。
字符串和編碼
在最新的Python 3版本中,字符串是以Unicode編碼的,也就是說,Python的字符串支持多語言,例如:
>>> print('包含中文的str')
包含中文的str
對于單個字符的編碼,Python提供了ord()函數獲取字符的整數表示,chr()函數把編碼轉換為對應的字符:
>>> ord('A')
65
>>> ord('中')
20013
>>> chr(66)
'B'
>>> chr(25991)
'文'
如果知道字符的整數編碼,還可以用十六進制這么寫str:
>>> '\u4e2d\u6587'
'中文'
兩種寫法完全是等價的。
由于Python的字符串類型是str,在內存中以Unicode表示,一個字符對應若干個字節。如果要在網絡上傳輸,或者保存到磁盤上,就需要把str變為以字節為單位的bytes。
Python對bytes類型的數據用帶b前綴的單引號或雙引號表示:
x = b'ABC'
要注意區分'ABC'和b'ABC',前者是str,后者雖然內容顯示得和前者一樣,但bytes的每個字符都只占用一個字節。
以Unicode表示的str通過encode()方法可以編碼為指定的bytes,例如:
>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
純英文的str可以用ASCII編碼為bytes,內容是一樣的,含有中文的str可以用UTF-8編碼為bytes。含有中文的str無法用ASCII編碼,因為中文編碼的范圍超過了ASCII編碼的范圍,Python會報錯。
在bytes中,無法顯示為ASCII字符的字節,用\x##顯示。
反過來,如果我們從網絡或磁盤上讀取了字節流,那么讀到的數據就是bytes。要把bytes變為str,就需要用decode()方法:
>>> b'ABC'.decode('ascii')
'ABC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'
要計算str包含多少個字符,可以用len()函數:
>>> len('ABC')
3
>>> len('中文')
2
len()函數計算的是str的字符數,如果換成bytes,len()函數就計算字節數:
>>> len(b'ABC')
3
>>> len(b'\xe4\xb8\xad\xe6\x96\x87')
6
>>> len('中文'.encode('utf-8'))
6
可見,1個中文字符經過UTF-8編碼后通常會占用3個字節,而1個英文字符只占用1個字節。
在操作字符串時,我們經常遇到str和bytes的互相轉換。為了避免亂碼問題,應當始終堅持使用UTF-8編碼對str和bytes進行轉換。
由于Python源代碼也是一個文本文件,所以,當你的源代碼中包含中文的時候,在保存源代碼時,就需要務必指定保存為UTF-8編碼。當Python解釋器讀取源代碼時,為了讓它按UTF-8編碼讀取,我們通常在文件開頭寫上這兩行:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
第一行注釋是為了告訴Linux/OS X系統,這是一個Python可執行程序,Windows系統會忽略這個注釋;
第二行注釋是為了告訴Python解釋器,按照UTF-8編碼讀取源代碼,否則,你在源代碼中寫的中文輸出可能會有亂碼。
申明了UTF-8編碼并不意味著你的.py文件就是UTF-8編碼的,必須并且要確保文本編輯器正在使用UTF-8 without BOM編碼.
如果.py文件本身使用UTF-8編碼,并且也申明了# -- coding: utf-8 --,打開命令提示符測試就可以正常顯示中文。
格式化
最后一個常見的問題是如何輸出格式化的字符串。我們經常會輸出類似'親愛的xxx你好!你xx月的話費是xx,余額是xx'之類的字符串,而xxx的內容都是根據變量變化的,所以,需要一種簡便的格式化字符串的方式。
py-str-format
在Python中,采用的格式化方式和C語言是一致的,用%實現,舉例如下:
>>> 'Hello, %s' % 'world'
'Hello, world'
>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)
'Hi, Michael, you have $1000000.'
你可能猜到了,%運算符就是用來格式化字符串的。在字符串內部,%s表示用字符串替換,%d表示用整數替換,有幾個%?占位符,后面就跟幾個變量或者值,順序要對應好。如果只有一個%?,括號可以省略。
常見的占位符有:
%d 整數
%f 浮點數
%s 字符串
%x 十六進制整數
其中,格式化整數和浮點數還可以指定是否補0和整數與小數的位數:
>>> '%2d-%02d' % (3, 1)
' 3-01'
>>> '%.2f' % 3.1415926
'3.14'
如果你不太確定應該用什么,%s永遠起作用,它會把任何數據類型轉換為字符串:
>>> 'Age: %s. Gender: %s' % (25, True)
'Age: 25. Gender: True'
有些時候,字符串里面的%是一個普通字符怎么辦?這個時候就需要轉義,用%%來表示一個%:
>>> 'growth rate: %d %%' % 7
'growth rate: 7 %'