1.Json簡(jiǎn)介
Json,全名 JavaScript Object Notation,是一種輕量級(jí)的數(shù)據(jù)交換格式。Json最廣泛的應(yīng)用是作為AJAX中web服務(wù)器和客戶端的通訊的數(shù)據(jù)格式。
2.Python支持對(duì)json的編碼和解碼
編碼:encode過程,把python對(duì)象轉(zhuǎn)換成json對(duì)象的一個(gè)過程,常用的兩個(gè)函數(shù)是dumps和dump函數(shù)。兩個(gè)函數(shù)的唯一區(qū)別就是dump把python對(duì)象轉(zhuǎn)換成json對(duì)象生成一個(gè)fp的文件流,而dumps則是生成了一個(gè)字符串。
解碼:decode過程,把json對(duì)象轉(zhuǎn)換成python對(duì)象的一個(gè)過程,常用的兩個(gè)函數(shù)是loads和load函數(shù)。
3.json處理中文問題
第一:Python 2.7.11的默認(rèn)編碼格式是ascii編碼,而python3的已經(jīng)是unicode,在學(xué)習(xí)編解碼的時(shí),有出現(xiàn)亂碼的問題,也有出現(xiàn)list或者dictionary或者tuple類型內(nèi)的中文顯示為unicode的問題。出現(xiàn)亂碼的時(shí)候,應(yīng)該先看下當(dāng)前字符編碼格式是什么,再看下當(dāng)前文件編碼格式是什么,或者沒有設(shè)置文件格式時(shí),查看下IDE的默認(rèn)編碼格式是什么。最推崇的方式當(dāng)然是每次編碼,都對(duì)文件編碼格式進(jìn)行指定,如在文件前 設(shè)置# coding= utf-8。
第二:字符串在Python內(nèi)部的表示是unicode編碼,因此,在做編碼轉(zhuǎn)換時(shí),通常需要以u(píng)nicode作為中間編碼,即先將其他編碼的字符串解碼(decode)成unicode,再?gòu)膗nicode編碼(encode)成另一種編碼。
4.從遠(yuǎn)程Json數(shù)據(jù)源導(dǎo)入數(shù)據(jù)實(shí)例
操作步驟:
1.使用requests模塊訪問指定的URL,并獲取內(nèi)容。
2.讀取內(nèi)容并轉(zhuǎn)化為json格式的對(duì)象。
3.迭代訪問json對(duì)象,并獲取評(píng)論字段的數(shù)據(jù)。