01、人工智能系統(tǒng)設(shè)計(jì)
def __init__(self):
super(MyNet, self).__init.__()
self.fc1=nn.Linear(14, 128)
self.bn1=nn.BatchNorm1d(128)
self.relu=nn.ReLU()
#第二層
self.fc2=nn.Linear(128, 256)
self.bn2=nn.BatchNorm1d(256)
self.relu=nn.ReLU()
#第三層
self.fc3=nn.Linear(256, 2)
def forward(self, x):
x= self.fc1(x)
x= self.bn1(x)
x= self.relu(x)
x= self.fc2(x)
x= self.bn2(x)
x= self.relu(x)
out = self.fc3(x)
02、dw分類訓(xùn)練
1.數(shù)據(jù)集劃分
folder = datasets.ImageFolder(root='動(dòng)物圖片', transform=trans_compose)
# 計(jì)算總樣本數(shù)n、訓(xùn)練集樣本數(shù)n1和測(cè)試集樣本數(shù)n2
n= len(folder)
n1 = int(n * 0.8)
n2 =n- n1
train, test = random_split(folder, [n1, n2])
folder = datasets.ImageFolder(root='動(dòng)物圖片', transform=trans_compose)
# 計(jì)算總樣本數(shù)n、訓(xùn)練集樣本數(shù)n1和測(cè)試集樣本數(shù)n2
n= len(folder)
n1 = int(n * 0.8)
n2 =n- n1
train, test = random_split(folder, [n1, n2])
2.模型生成
for i in range(1):
running_loss - 0.0
for batchX, batchY in data_loader:
optimizer.zero_grad()
# 向前傳播
outputs = model(batchX)
loss = lossf(outputs, batchY)
# 反向傳播和優(yōu)化
loss.backward()
optimizer.step()
# 計(jì)算loss值
running_loss += loss.item()
# 計(jì)算正確率
metricsf(outputs, batchY)? ? ? ? ? ?
# 打印每個(gè)epoch損失和準(zhǔn)確率
epoch_loss = running_loss/ len(data_loader)
epoch_accuracy = metricsf.compute()
print(f'Epoch {i + 1}/1, Loss: {epoch_loss:.4f},Accuracy: {epoch_accuracy:.4f}%')
# 重置評(píng)估指標(biāo)
metricsf.reset()
# 保存模型
torch.save(model.state_dict(),'2-2model_test.pth')
03、實(shí)操基礎(chǔ)理論數(shù)據(jù)增強(qiáng)
(1)圖像數(shù)據(jù)增強(qiáng)方法
幾何變換類:平移(將圖像在平面內(nèi)沿水平或垂直方向移動(dòng)一定距離)、旋轉(zhuǎn)(繞圖像中心旋轉(zhuǎn)一定角度,如 90°、180° 等)、縮放(按比例放大或縮小圖像尺寸 )。
顏色變換類:亮度調(diào)整(增加或降低圖像整體亮度 )、對(duì)比度調(diào)整(增大或減小圖像像素間的對(duì)比度 )、色彩抖動(dòng)(隨機(jī)改變圖像的色調(diào)、飽和度和明度 )。
其它類:噪聲添加(向圖像中加入高斯噪聲、椒鹽噪聲等 )、模糊處理(如高斯模糊、均值模糊 )、裁剪(隨機(jī)裁剪圖像的部分區(qū)域 )。
(2)流程圖基本概念(要背)
①處:判斷文件是否為圖像文件。
②處:判斷圖像文件是否為.jpg 類型。
③處:判斷圖像文件是否為 RGB 模型。
(3)容易出現(xiàn)的問(wèn)題:嚴(yán)格篩選致數(shù)據(jù)丟失、誤篩。改進(jìn):添加格式轉(zhuǎn)換,兼讀文件頭信息與色彩模式標(biāo)識(shí),精準(zhǔn)判斷格式和模型。
04、實(shí)操理論2數(shù)據(jù)采集培訓(xùn)要求
數(shù)據(jù)采集培訓(xùn)大綱(以下為參考,自己要修改,與下面一致的會(huì)造成雷同)
1.基礎(chǔ)認(rèn)知:明晰數(shù)據(jù)采集概念、重要性與應(yīng)用場(chǎng)景。
2.方法技巧:講授多種采集方式,涵蓋網(wǎng)絡(luò)、傳感器等,分享實(shí)操竅門(mén)。
3.工具運(yùn)用:熟練掌握 Excel、Python 等工具用于數(shù)據(jù)獲取與整理。
常見(jiàn)問(wèn)題及解決方法(選2條背)
1.目標(biāo)不明確
問(wèn)題:未清晰界定采集數(shù)據(jù)的用途與范圍,導(dǎo)致收集大量無(wú)關(guān)數(shù)據(jù),遺漏關(guān)鍵信息。比如市場(chǎng)調(diào)研時(shí),不清楚要分析用戶哪類消費(fèi)行為,盲目收集。
解決方法:項(xiàng)目啟動(dòng)前,組織跨部門(mén)會(huì)議,與業(yè)務(wù)、分析團(tuán)隊(duì)深入溝通,基于業(yè)務(wù)需求和分析目的,詳細(xì)梳理數(shù)據(jù)需求清單,明確數(shù)據(jù)用途、范圍、字段及預(yù)期成果。
2.樣本偏差
問(wèn)題:選取樣本缺乏代表性,如調(diào)查城市居民出行方式,僅在高檔社區(qū)采樣,無(wú)法反映整體情況。
解決方法:運(yùn)用科學(xué)抽樣方法,像分層抽樣,按城市區(qū)域、收入水平等分層后隨機(jī)抽??;擴(kuò)大樣本覆蓋范圍,涵蓋不同特征群體,必要時(shí)用統(tǒng)計(jì)方法評(píng)估樣本代表性。
3.數(shù)據(jù)來(lái)源不可靠
問(wèn)題:采用劣質(zhì)數(shù)據(jù)源,像某些非官方網(wǎng)站數(shù)據(jù),可能存在錯(cuò)誤、過(guò)時(shí)或被篡改,影響數(shù)據(jù)質(zhì)量。
解決方法:優(yōu)先選用官方機(jī)構(gòu)、權(quán)威數(shù)據(jù)庫(kù)等可靠數(shù)據(jù)源;對(duì)新數(shù)據(jù)源,先小范圍驗(yàn)證數(shù)據(jù)準(zhǔn)確性,對(duì)比多個(gè)來(lái)源數(shù)據(jù),分析差異。
4.采集方法不當(dāng)
問(wèn)題:不匹配數(shù)據(jù)特性與采集手段,如用訪談收集大規(guī)模用戶行為數(shù)據(jù),效率低且易有主觀誤差。
解決方法:依據(jù)數(shù)據(jù)類型(結(jié)構(gòu)化、非結(jié)構(gòu)化等)和規(guī)模,合理選擇采集方法,如大規(guī)模行為數(shù)據(jù)用埋點(diǎn)技術(shù),文本數(shù)據(jù)用網(wǎng)絡(luò)爬蟲(chóng);結(jié)合多種方法交叉驗(yàn)證數(shù)據(jù)。
5.技術(shù)故障
問(wèn)題:采集工具或系統(tǒng)出現(xiàn)故障,如網(wǎng)絡(luò)爬蟲(chóng)被網(wǎng)站反爬機(jī)制阻斷,導(dǎo)致數(shù)據(jù)中斷或丟失。
解決方法:定期維護(hù)采集工具和系統(tǒng),升級(jí)軟件版本;針對(duì)爬蟲(chóng)被阻,采用 IP 代理池、模擬人類瀏覽行為等策略繞過(guò)反爬;設(shè)置數(shù)據(jù)備份機(jī)制,實(shí)時(shí)或定時(shí)備份采集數(shù)據(jù)。
6.數(shù)據(jù)重復(fù)采集
問(wèn)題:缺乏統(tǒng)一規(guī)劃,不同部門(mén)或環(huán)節(jié)重復(fù)收集相同數(shù)據(jù),浪費(fèi)資源。
解決方法:建立企業(yè)級(jí)數(shù)據(jù)管理平臺(tái),梳理各部門(mén)數(shù)據(jù)需求,繪制數(shù)據(jù)地圖,明確各數(shù)據(jù)歸屬與采集責(zé)任;制定數(shù)據(jù)共享規(guī)范,促進(jìn)部門(mén)間數(shù)據(jù)流通。
7.隱私與合規(guī)問(wèn)題
問(wèn)題:采集敏感個(gè)人信息未獲授權(quán),或違反行業(yè)法規(guī),面臨法律風(fēng)險(xiǎn)。
解決方法:設(shè)立數(shù)據(jù)合規(guī)官,負(fù)責(zé)解讀法規(guī)政策;采集前向用戶明確告知數(shù)據(jù)用途、范圍、存儲(chǔ)方式,獲用戶同意;加密敏感數(shù)據(jù),遵循 “最小必要” 原則采集。
05、實(shí)操3
1.判斷是否以png結(jié)尾? (根據(jù)實(shí)際情況調(diào)整)
if filename.endswith('.png'):
2.篩選 通道
基礎(chǔ)知識(shí)
RGB 通道:這是最常見(jiàn)的色彩模式,用于表示彩色圖像。R(紅色)、G(綠色)、B(藍(lán)色)三個(gè)通道分別存儲(chǔ)了圖像中對(duì)應(yīng)顏色的強(qiáng)度信息,通過(guò)這三個(gè)通道的不同組合,可以呈現(xiàn)出豐富多彩的顏色。
RGBA 通道:在 RGB 的基礎(chǔ)上增加了 A(透明度)通道,用于表示圖像的透明度信息。A 通道的值范圍從 0 到 255,0 表示完全透明,255 表示完全不透明。
灰度通道:也稱為 L 通道,圖像只有一個(gè)通道,存儲(chǔ)的是灰度值,表示圖像的亮度信息?;叶戎捣秶ǔ?0(黑色)到 255(白色),可以用來(lái)表示黑白圖像或彩色圖像的亮度分量。
CMYK 通道:C(青色)、M(洋紅色)、Y(黃色)、K(黑色)四個(gè)通道,常用于印刷領(lǐng)域。與 RGB 通道不同,CMYK 是一種減色模式,通過(guò)這四種顏色的油墨混合來(lái)產(chǎn)生各種顏色。
篩選 通道的語(yǔ)句? if img.mode == 'XXXX':? ? (注意最后有封號(hào),XXXX是通道的值)
流程圖
1.加載數(shù)據(jù)house.csv? 2.數(shù)據(jù)預(yù)處理·移除ID列·獨(dú)熱編碼·填充缺失值 3.數(shù)據(jù)標(biāo)準(zhǔn)化 4.劃分?jǐn)?shù)據(jù)集80%訓(xùn)練集,20%測(cè)試集 5.構(gòu)建模型3層全連接網(wǎng)絡(luò)287→128→256→1 6.訓(xùn)練配置·Adam優(yōu)化器· MSE損失函數(shù) 7.訓(xùn)練評(píng)估·若干輪訓(xùn)練·輸出RMSE