1. 下載基因組文件，ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/864/125/GCA_002864125.1_ASM286412v1/GCA_002864125.1_ASM286412v1_genomic.fna.gz

使用misa.pl 查找ssr位點(diǎn)

 生成的misa文件有
wc -l tsh_wgs.fna.misa
127131 tsh_wgs.fna.misa    
 #生成的misa文件行數(shù)，但statistics文件里顯示Total number of identified SSRs:                 146445
Number of SSRs present in compound formation:    19315
即總共的SSRs 146445 = 127131（行數(shù)）- 1（表頭）+19315（復(fù)合衛(wèi)星數(shù)量）=146445 也即復(fù)合衛(wèi)星計(jì)算為2個(gè)SSR

3. p3_in.pl 將misa.pl生成的misa文件處理成primer3 可以識(shí)別的內(nèi)容

網(wǎng)上資料說需要改p3_in.pl 里的內(nèi)容，將print OUT 后內(nèi)容更改成primer可以識(shí)別的內(nèi)容，之后運(yùn)行p3_in.pl ，生成的p3in文件內(nèi)容為空。之后發(fā)現(xiàn)可能是因?yàn)榛蚪M序列文件> 后的序列名稱含有空格，而misa.pl程序會(huì)用下劃線補(bǔ)全空格。可能是因?yàn)闊o法對(duì)應(yīng)misa文件與基因組的序列名稱，導(dǎo)致生成空文件。

4. 將基因組序列名稱只保留是scaffold內(nèi)容，序列名稱無空格。

sed -i 's/>.Taishanhong />/;s/, .//' fasta文件名稱，將Taishanhong以前的內(nèi)容替換為空，將 ","以后的內(nèi)容替換為空

5. 可以運(yùn)行 p3_in.pl 不過生成的 p3in文件有204GB，好奇怪。也沒搞懂 p3in文件里的SEQUENCE_TEMPLATE=是如何得到的。

6. 查看生成的p3in文件，p3_in.pl 的print OUT 內(nèi)容只有這四行，

image

其中

6.1 SEQUENCE_ID=scaffold1_1 表示scaffold1 上查找到的第一個(gè)位點(diǎn)，

想看一下scaffold1總共查到到多少個(gè)位點(diǎn)，使用

grep "scaffold1_" tsh_wgs.fna.p3in |wc -l

grep -c "scaffold1_" tsh_wgs.fna.p3in

感覺很慢，沒有出現(xiàn)結(jié)果，直接 grep "scaffold1_" tsh_wgs.fna.p3in 查看scaffold上有3793個(gè)位點(diǎn)。

6.2 SEQUENCE_TEMPLATE= 猜測(cè)模板序列可能是scaffold1 整條序列的堿基。

sed -n 2p tsh_wgs.fnarow1-4.p3in |awk -F "=" '{print $2}' | wc -m

6916724 #p3inp3in文件里 SEQUENCE_ID=scaffold1_1 的模板序列堿基數(shù)量

需要統(tǒng)計(jì)一下基因組數(shù)據(jù)里scaffold1的堿基數(shù)量，fna文件里scaffold的堿基是每行的數(shù)量固定，有很多行，就需要提取scaffold1 與下一個(gè)scaffold之間的內(nèi)容并計(jì)算字符數(shù)。

grep -n "scaffold" tsh_wgs.fna |less -SN

  1 1:>scaffold1

  2 86462:>scaffold10       #即scaffold1 的內(nèi)容在第1行于第86462之間，也即從第2行到                                                     86461行。tsh_wgs.fna 文件中scaffold1共有86461-2+1= 8640 行。

  3 134759:>scaffold100

sed -n '2,86461p' tsh_wgs.fna | wc -l

86460 #提取了86460行堿基

sed -n '2,86461p' tsh_wgs.fna | wc -m

7003183 #與p3in 的堿基數(shù)量不一致，可能wc -m計(jì)算的不僅僅是堿基字母數(shù)量

sed -n '2p' tsh_wgs.fna | wc -m

81 #即第二行有81個(gè)字符，但是tsh_wgs.fna文件里第二行只有80個(gè)堿基，

sed -n '2p' tsh_wgs.fna | awk -F "" '{print $80}'

G #為第二行的最后一個(gè)堿基

image

了解到第81個(gè)字符為行尾符。

說明上邊的計(jì)算沒錯(cuò)。tsh_wgs.fna scaffold1里的

字符數(shù) 7003183 - 總共的行尾符數(shù)量 86460（即總行數(shù)86460） = 總堿基數(shù)

=p3in文件里的 SEQUENCE_ID=scaffold1_1 的模板序列字符數(shù) 6916724 - 模板序列行數(shù)1

=6916723

即p3_in.pl 把與misa文件ID序列名稱對(duì)應(yīng)的序列全部作為模板連。就相當(dāng)于p3in文件里的內(nèi)容很大一部分為基因組tsh_wgs.fna的堿基序列，單單scaffold1就出現(xiàn)了 3793次也即scaffold1查到到的ssr位點(diǎn)數(shù)。

6.3 PRIMER_PRODUCT_SIZE_RANGE=100-280

不知道這個(gè)是不是需要提前設(shè)置，還是在primer3相關(guān)的配置文件里配置這個(gè)內(nèi)容

6.4 TARGET=2055,18

p3_in.pl 文件里默認(rèn)把起始ssr的起始位點(diǎn)減去3 得到目標(biāo)序列開始位點(diǎn)2055，ssr長(zhǎng)度加 6 得到目標(biāo)序列長(zhǎng)度。

從基因組中提取只包含重復(fù)序列的一小段序列信息的bed文件。

7.1 cat tsh_wgs.fna.misa | awk -F "\t" 'NR >1{print$1"\t"$6-150"\t"$7+150}'> tsh_wgs_ssr.bed

在ssr序列起始終止位點(diǎn)向兩端延伸150bp。

利用bed文件提取需要給基因組文件構(gòu)建fai索引

 7.2 samtools fadix tsh_wgs.fna 

7.3 bedtools getfasta -fi tsh_wgs.fna -bed tsh_wgs_ssr.bed -fo tsh_wgs_ssr.fa

遇見問題Error: malformed BED entry at line 6643\. Start Coordinate detected that is < 0\. Exiting.

7.4

sed -n 6643p tsh_wgs_ssr.bed

scaffold1000    -30    281 #在scaffold 的較開始端有ssr位點(diǎn)，起始位置-150 變成了負(fù)數(shù)。#問題好多呀

7.5

sed -n 6644p tsh_wgs.fna.misa

scaffold1000    1      p2      (AG)6  12      120    131 #misa文件中ssr位點(diǎn)的起始位點(diǎn)為12

就是需要將bed文件中$2起始位置小于0的全部改為1，或在生成bed文件過程中將小于150的起始位置n-(n-1).

7.6 查到bed文件小于起始位點(diǎn)數(shù)值小于0的行數(shù)

7.6.1 cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $0}' |wc -l

         78 #有78行起始位點(diǎn)小于0

7.6.2   cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $1}' | wc -l

          78  #只打印scaffold 這一列也是有78 行

7.6.3  cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $1}' | sort | uniq -c |wc -l

          77  #排除重復(fù) 只打印出哪些scaffold ，起始位點(diǎn)小于0，有77 條           掃scaffold，說明一條scaffold 上有2個(gè)位點(diǎn)的起始位置小于0

7.6.4  cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $1}' | sort | uniq -c | awk        '$1 >1{print$0}'

          2 scaffold637   #scaffold637 里有2個(gè)ssr位點(diǎn)起始位置小于0

7.7 怎么樣把小于0數(shù)值的改為1

cat tsh_wgs_ssr.bed |sed 's/-.*\t/1/g' | awk '$2 < 0 {print $0}' | wc -l

0 #匹配-負(fù)號(hào)內(nèi)容，并改為1，沒有查找到小于0的行，是因?yàn)榘?.*\t替換為了1，即有的行只有2列

cat tsh_wgs_ssr.bed | sed 's/-.*\t/1\t/' | awk '$2<=1 {print($0)}' | wc -l

80 # 即起始位置小于等于1的行數(shù)有80行

grep -w -n "1" tsh_wgs_ssr.bed

23072:scaffold136      1      315

46722:scaffold2011      1      330 #起始位點(diǎn)等于1的有兩行，說明可以通過匹配- 來更改小于0的起始位點(diǎn)。

grep -w -n "1" tsh_wgs_ssr.bed | wc -l

80  #更改后的等于1的有80 行

終于解決了，學(xué)了下正則表達(dá)式

借助bedtools提取bed文件的相應(yīng)序列
8.1提取序列

bedtools getfasta -fi tsh_wgs.fna -bed tsh_wgs_ssr.bed - fo tsh_wgs_ssr.fa

Feature (scaffold1081:1618-1998) beyond the length of scaffold1081 size (1879 bp).  Skipping.

Feature (scaffold1142:1594-1907) beyond the length of scaffold1142 size (1758 bp).  Skipping.

..................... 
      #有的ssr位點(diǎn)在scaffold尾端，終止位置加150之后超過scaffold長(zhǎng)度

8.2 處理終止位置大于序列總長(zhǎng)度的信息行

復(fù)制  Feature 信息，將75行報(bào)錯(cuò)的信息內(nèi)容更改，終止位置序列總bp數(shù)
$ cat *.bed > all.bed  
#將 2個(gè)bed文件合并為一個(gè)bed文件。即原先的bed文件和修改后的bed文件。

8.3 提取all.bed文件的序列

$ bedtools getfasta -fi tsh_wgs.fna -bed all.bed -fo  tsh_wgs_ssr.fa
$ grep -c ">"  tsh_wgs_ssr.fa
127130
$ wc -l  tsh_wgs.fna.misa
127131 tsh_wgs.fna.misa   
tsh_wgs_ssr.fa 序列條數(shù)與 sh_wgs.fna.misa 的查找到的ID總數(shù)（減去表頭）一樣

8.4 使用misa鑒定位點(diǎn)

$ perl /home/Pomgroup/gdp/app/misa/misa.pl tsh_wgs_ssr.fa
     16 Total number of sequences examined:              127130
     17 Total size of examined sequences (bp):           40938166
     18 Total number of identified SSRs:                 155330
     19 Number of SSR containing sequences:              127123
     20 Number of sequences containing more than 1 SSR:  23222
     21 Number of SSRs present in compound formation:    19525
    奇怪，對(duì)提取的序列重新搜索SSRs與原基因組文件搜索到的SSRs數(shù)量不同
比基因組SSRs多出 155330 - 146445 = 8885個(gè)位點(diǎn)，
$ wc -L tsh_wgs.fna.misa
8383774 tsh_wgs.fna.misa  原misa文件中最長(zhǎng)行，即復(fù)合衛(wèi)星中間的插入大于100bp

8.4.1 看一下什么原因

@1
$ sed -n '58p' tsh_wgs.fna.misa
scaffold1       57      c       (A)10gaaaaaaa(AAG)5gg(GA)10     55      99231   99285 
#這個(gè)復(fù)合位點(diǎn)計(jì)算了插入片段片段的長(zhǎng)度。
而以tsh_wgs.fna.misa第3388行為例
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}'|awk -F "[()]" '{print NF}'
5
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk -F "[()]" '{print NF}'
5
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk -F "[()]" '{print $1}'
scaffold1       3387    c
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}'|awk -F "[()]" '{print $1}'

$1字段開頭有分隔符，所以可以直接以（）為分隔符，查看某一列，
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}'|awk -F "[()]" '{print$3}' |wc -m
617363   #可見插入片段的長(zhǎng)度有617363 -1（$2是7,為重復(fù)的次數(shù))=617362 bp #有沒有行尾符？
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$5}'
34 #顯示衛(wèi)星的長(zhǎng)度只有34bp，通過起始位點(diǎn)與終止位點(diǎn)的計(jì)算。
6299381 - 6299348 +1 =34
而不計(jì)算插入序列重復(fù)序列的總長(zhǎng)度為2(CT)*7 + 1（T）*21=35 ， 可能是把插入系列作為一個(gè)堿基？
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}' |grep -o "[0-9]"
#查看重復(fù)序列的重復(fù)次數(shù)  數(shù)字
7
2
1

(CT)7....（T）21


$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$6}'
6299348 #起始位點(diǎn)
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$7}'
6299381 #終止位點(diǎn)

misa的坐標(biāo)系統(tǒng)為“1-start, fully-closed” system，即從重復(fù)開始的那個(gè)堿基計(jì)算位點(diǎn)位置到終止堿基位點(diǎn)。
 @2 查看3388行所在scaffold1的bp數(shù)
grep -n  "scaffold" tsh_wgs.fna |less  -SN
      1 1:>scaffold1
      2 86462:>scaffold10
即堿基位于2-86461行
$ sed -n '2,86461p' tsh_wgs.fna |wc -l
86460
$ sed -n '2,86461p' tsh_wgs.fna |wc -m
7003183
7003183-86460=6919723 scaffold1長(zhǎng)度
？？沒有找到插入序列這么長(zhǎng)的原因。

處理misa文件

$ perl p3_in.pl  tsh_wgs_ssr.fa.misa
135805 records created.

$ wc -l tsh_wgs_ssr.fa.misa
135806 tsh_wgs_ssr.fa.misa
    #所有行都準(zhǔn)確識(shí)別

10 .使用primer3 批量設(shè)計(jì)引物

前段時(shí)間學(xué)的已經(jīng)忘了差不多啦，反正是有各種參數(shù)，
感謝作者對(duì)各種參數(shù)的解釋
primer3 的使用參數(shù)

/home/Pomgroup/gdp/app/primer/primer3-2.4.0/src/primer3_core [--format_output] [--default_version=1|--default_version=2] [--io_version=4] [--p3_settings_file=<file_path>] [--echo_settings_file] [--strict_tags] [--output=<file_path>] [--error=<file_path>] [input_file]
$ /home/Pomgroup/gdp/app/primer/primer3-2.4.0/src/primer3_core --p3_settings_file=/home/Pomgroup/gdp/app/primer/primer3-2.4.0/settings_files/p3_th_settings.txt --output= tsh_ssr.p3out --error= tsh.error tsh_wgs_ssr.fa.p3in
#程序沒有反應(yīng)，可能是因?yàn)?-output=后于輸出文件之間有空格。更改后運(yùn)行正常

10.1 p3_out.pl 處理設(shè)計(jì)好的引物

perl tsh_ssr.p3out tsh_wgs_ssr.fa.misa
Semicolon seems to be missing at tsh_ssr.p3out line 1.
Can't modify constant item in scalar assignment at tsh_ssr.p3out line 1, near "s                   caffold1:"
syntax error at tsh_ssr.p3out line 1, near "scaffold1:"
Identifier too long at tsh_ssr.p3out line 2.
  #perl后沒有 p3_out.pl
$ perl p3_out.pl  tsh_ssr.p3out tsh_wgs_ssr.fa.misa
Primer modelling was successful for  sequences.
Primer modelling failed for 135805 sequences. 
# 產(chǎn)生 的tsh_ssr.result文件為空

用師兄的python程序可以將文件整理到一個(gè)結(jié)果

$ wc -l tsh_ssr.result
97156 tsh_ssr.result  #相當(dāng)于結(jié)果的總共的位點(diǎn)數(shù)有97155個(gè)
而
$ grep -c "SEQUENCE_ID" tsh_ssr.p3out
135805   #文件有135805條模板序列
同時(shí)
$ wc -l tsh_wgs_ssr.fa.misa
135806 tsh_wgs_ssr.fa.misa  #除去表頭misa文件也有135805行
135805 - 97155 = 35650 個(gè)位點(diǎn)沒有合并到結(jié)果文件

misa文件與之后的result文件在不同scaffold上的位點(diǎn)統(tǒng)計(jì)

可見misa在scaffold1011查到到一個(gè)位點(diǎn)，而result文件里沒有出現(xiàn)scaffold1011里的位點(diǎn)，查看p3out文件里，scaffold1011引物設(shè)計(jì)情況

scaffold1011查到到的唯一沒有設(shè)計(jì)出引物

SEQUENCE_ID=scaffold1011:1563-1892_1
SEQUENCE_TEMPLATE=AATAATACTGAAAGCTTGTGGTTAGATATGCTGATCACTTGTCCAAATCTAGAGGACTACtaattgatattatattaCCGAGCTCGTGGTTAGATGGATACATGGACAATTTTATGTAGAAGACTACTAATTGATTTATTACtgatgtgatatatatatatatatatatatatatatatctattacaCCAAGCGCGATGTACTCAAATCTTATGATATTTTACCCGAAAGGATTCAAGGGAGAAAACCCAGATCTATCTGTCTACATATGTTCGATATTACAGATACTCTTTTTTGATGAATGTGTATTATTGATTCTCATTATCATTA
PRIMER_PRODUCT_SIZE_RANGE=100-280
TARGET=147,36
PRIMER_MAX_END_STABILITY=250
PRIMER_LEFT_EXPLAIN=considered 1380, GC content failed 998, low tm 310, high tm 23, high hairpin stability 13, ok 36
PRIMER_RIGHT_EXPLAIN=considered 1380, GC content failed 1080, low tm 243, high tm 15, ok 42
PRIMER_PAIR_EXPLAIN=considered 1512, unacceptable product size 1512, ok 0
PRIMER_LEFT_NUM_RETURNED=0
PRIMER_RIGHT_NUM_RETURNED=0
PRIMER_INTERNAL_NUM_RETURNED=0
PRIMER_PAIR_NUM_RETURNED=0
=

misa文件中scaffold110

result文件中scaffold110

查看scaffold110 在misa文件與result文件前后變化
#將 tsh_ssr.p3out 文件中 SEQUENCE_ID= 中有scaffold110的內(nèi)容提取的文件
$ sed -n '/scaffold110:/p' tsh_ssr.p3out |awk -F "=" '{print$2}' > p3out_scaffold110_ssr.txt
#將result文件中 第一列ID為 scaffold110 提取出來
$ sed -n '/scaffold110:/p' tsh_ssr.result |awk -F "\t" '{print$1}' > result_scaffold110_ssr.txt
#查看兩個(gè)文件中重復(fù)與沒有重復(fù)的內(nèi)容，統(tǒng)計(jì)到的個(gè)數(shù)為1的就是id就是在最后整理到的時(shí)候沒有整理到最后的result文件里id，可是是這些id沒有設(shè)計(jì)出引物。
$ cat result_scaffold110_ssr.txt p3out_scaffold110_ssr.txt |sort|uniq -c
#將兩個(gè)文件沒有重復(fù)的內(nèi)容提取到 p3out_result_miss.txt
$ cat result_scaffold110_ssr.txt p3out_scaffold110_ssr.txt |sort|uniq -c | awk '$1~/1/{print$2}' > p3out_result_miss.txt
#統(tǒng)計(jì)下miss掉的id個(gè)數(shù)
wc -l p3out_result_miss.txt
71 p3out_result_miss.txt #等于上邊scaffold110 在兩個(gè)文件中的差值即316-245=71
#查看這71個(gè)id因?yàn)槭裁丛驔]有被統(tǒng)計(jì)到結(jié)果文件中，根據(jù)p3out_result_miss.txt里的id名稱在p3out文件里提取對(duì)應(yīng)的所有內(nèi)容。#不會(huì)只能現(xiàn)學(xué)了，用python？#（大寫的擱置）

統(tǒng)計(jì)result文件內(nèi) 各scaffold的包括位點(diǎn)數(shù)

$cat tsh_ssr.result | awk -F ":" 'NR>1{print $1}' | sort | uniq -c > result.statistics

以tsh_wgs_ssr.fa.misa 文件中scaffold1000為例只檢測(cè)到3個(gè)位點(diǎn)？

$ cat  tsh_wgs_ssr.fa.misa | awk -F ":" '$1~"scaffold1000" {print$0}'
scaffold1000:1-281      1       p2      (AG)6   12      119     130
scaffold1000:131-480    1       c       (CTC)8cttcctccatt(TTC)5 50      150     199
scaffold1000:1414-1733  1       p2      (TC)10  20      150     169
$ grep -c "scaffold1000:" tsh_wgs_ssr.fa #序列文件中scaffold1000也是只有3個(gè)位點(diǎn)
$ grep -c "scaffold1000" tsh_wgs.fna.misa
3 #也是3個(gè)位點(diǎn)，是因?yàn)閟caffold1000序列短，一開始以為scaffold都很長(zhǎng)呢啊啊啊啊，

10 使用e-PCR檢測(cè)引物的有效性

$ nohup /home/Pomgroup/gdp/app/epcr/e-PCR-2.3.12/e-PCR /home/Pomgroup/gdp/ssr/tsh/tshscaffold/ssrfa/ssrepcr/tsh_ssr_result_epcr.txt D=100-500 /home/Pomgroup/gdp/ssr/tsh/tshscaffold/tsh_wgs.fna N=2 G=2 T=3 > tsh_ssr_result_afepcr.txt &
結(jié)果文件內(nèi)容為
scaffold1   scaffold1:5934613-5934928_1 +   5934661 5934761 101/100-500 0   0   
scaffold1   scaffold1:2910453-2910765_1 +   2910543 2910724 182/100-500 0   0   
scaffold1   scaffold1:879458-879772_1   +   879469  879675  207/100-500 0   0   
#加號(hào)一列有個(gè)別減號(hào)，還不清楚+ - 的含義，可能是代表是否擴(kuò)增成功。
e-PCR的參數(shù)也不懂，先學(xué)一下e-PCR 的說明書。

10.1 e-PCR的參數(shù)

    M=##    Margin (default 50)
    W=##    Wordsize  (default 7)
    N=##    Max mismatches allowed (default 0) 允許的最大錯(cuò)配，（是堿基錯(cuò) 
                         配么不清楚）
    G=##    Max indels allowed (default 0) 允許的indel最大錯(cuò)配
    F=##    Use ## discontinuos words
    O=##    Set output file to ##
    T=##    Set output format (1..4)  輸出的文件格式
        D=##-## Set default sts size  #sts長(zhǎng)度
    P=+-    Postprocess hits on/off
    V=+-    Verbose on/Off
        A=a|f   Use presize alignmens (only if gaps>0), slow
                 a - Allways or f - as Fallback
        X=+-    Use 5'-end lowercase masking of primers (default -)
        U=+-    Uppercase all primers (default -)
    -mid    Same as T=2
compat-options 可以出現(xiàn)在命令行的任何地方
#EPCR版本
$ /home/Pomgroup/gdp/app/epcr/e-PCR-2.3.12/e-PCR -V
e-PCR cmdline tool version 2.3.12

epcrf帶有primer比對(duì)信息的內(nèi)容

即epcr將result文件中的left 引物與基因組比對(duì)，將result文件中的right引物的反向互補(bǔ)序列與基因組比對(duì)，如果完全比對(duì)則表明可以擴(kuò)增。

對(duì)提取后的

11 篩查唯一結(jié)果

X 先挑選設(shè)計(jì)出的類型為重復(fù)類型P3 的引物，序列較長(zhǎng)的位點(diǎn)設(shè)計(jì)引物，看設(shè)計(jì)出來引物是否可以擴(kuò)增出條帶。

查看重復(fù)序列為p3的位點(diǎn)

$ cat tsh_ssr.result |awk 'BEGIN{FS=OFS="\t"}$3~/p3/{print$0}' | awk 'BEGIN{FS=OFS="\t"}$5>15{print$0}' |less -SN
挑選不同scaffold上的位點(diǎn)總共20對(duì)，

將序列全部改為大寫重新設(shè)計(jì)引物，一是epcr對(duì)引物的大小寫有要求，二是第一次的引物設(shè)計(jì)參數(shù)設(shè)置不合理吧，需要重新設(shè)計(jì)引物

采用默認(rèn)參數(shù)設(shè)置

$ nohup /home/Pomgroup/gdp/app/primer/primer3-2.4.0/src/primer3_core --default_version=2 --output=tsh_wgs_ssr_upper.fa.p3out --error= tsh_wgs_ssr_upper.fa.error tsh_wgs_ssr_upper.fa.p3in && echo "well done" || echo "failure" &

挑選p3類型引物20對(duì)選擇進(jìn)行預(yù)實(shí)驗(yàn)

$ cat tsh_wgs_ssr_upper.result |awk 'BEGIN{FS=OFS="\t"}$3~/p3/{print$0}'|awk 'BEGIN{FS=OFS="\t"}$5>15{print$0}' | >  tsh_wgs_ssr_upper.p3great15.result

bedtools getfasta -fi tns.fna -bed tns_misa_ssr_big0.bed -fo tns_misa_ssr.fna
刪除起始位置小于0的 bed文件行

關(guān)于引物設(shè)計(jì)

image.png

上下為反向互補(bǔ)序列，上邊為5-3方向，下邊為3-5方向
中間標(biāo)記顏色的為SSR重復(fù)序列，引物設(shè)計(jì)是根據(jù)位點(diǎn)兩端序列進(jìn)行設(shè)計(jì)，并不是從位點(diǎn)前的第一個(gè)堿基往左數(shù)多少個(gè)堿基作為引物，因?yàn)橐镌O(shè)計(jì)有要求，所有引物最后一個(gè)堿基往前移動(dòng)，并調(diào)整引物長(zhǎng)度，計(jì)算后判斷哪段序列作為引物合適。所有ssr引物擴(kuò)增的產(chǎn)物長(zhǎng)度是引物長(zhǎng)度，+ssr序列長(zhǎng)度，+引物3端最后一個(gè)堿基據(jù)ssr序列5端的長(zhǎng)度

misa生成的后綴為misa的文件時(shí)每個(gè)位點(diǎn)的信息，statistics文件是一個(gè)總概括文件，statistics文件里的統(tǒng)計(jì)的1-6重復(fù)型ssr的數(shù)量是把復(fù)合微衛(wèi)星中的單個(gè)微衛(wèi)星計(jì)算進(jìn)去，加入在misa后綴文件里有p1（單核苷酸重復(fù)）類型經(jīng)手動(dòng)查找計(jì)數(shù)共10個(gè)，在statistics文件里p1（單核苷酸重復(fù)）類型有15個(gè)，說明所有復(fù)合微衛(wèi)星內(nèi)含有5個(gè)單獨(dú)的單核苷酸重復(fù)ssr。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

使用misa查找ssr位點(diǎn)

使用misa查找ssr位點(diǎn)

10 .使用primer3 批量設(shè)計(jì)引物

10.1 p3_out.pl 處理設(shè)計(jì)好的引物

統(tǒng)計(jì)result文件內(nèi) 各scaffold的包括位點(diǎn)數(shù)

以tsh_wgs_ssr.fa.misa 文件中scaffold1000為例只檢測(cè)到3個(gè)位點(diǎn)？

10 使用e-PCR檢測(cè)引物的有效性

10.1 e-PCR的參數(shù)

對(duì)提取后的

11 篩查唯一結(jié)果

X 先挑選設(shè)計(jì)出的類型為重復(fù)類型P3 的引物，序列較長(zhǎng)的位點(diǎn)設(shè)計(jì)引物，看設(shè)計(jì)出來引物是否可以擴(kuò)增出條帶。

將序列全部改為大寫重新設(shè)計(jì)引物，一是epcr對(duì)引物的大小寫有要求，二是第一次的引物設(shè)計(jì)參數(shù)設(shè)置不合理吧，需要重新設(shè)計(jì)引物

挑選p3類型引物20對(duì)選擇進(jìn)行預(yù)實(shí)驗(yàn)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

使用misa查找ssr位點(diǎn)

10 .使用primer3 批量設(shè)計(jì)引物

10.1 p3_out.pl 處理設(shè)計(jì)好的引物

統(tǒng)計(jì)result文件內(nèi) 各scaffold的包括位點(diǎn)數(shù)

以tsh_wgs_ssr.fa.misa 文件中scaffold1000為例只檢測(cè)到3個(gè)位點(diǎn)？

10 使用e-PCR檢測(cè)引物的有效性

10.1 e-PCR的參數(shù)

對(duì)提取后的

11 篩查唯一結(jié)果

X 先挑選設(shè)計(jì)出的類型為 重復(fù)類型P3 的引物，序列較長(zhǎng)的位點(diǎn)設(shè)計(jì)引物，看設(shè)計(jì)出來引物是否可以擴(kuò)增出條帶。

將序列全部改為大寫重新設(shè)計(jì)引物，一是epcr對(duì)引物的大小寫有要求，二是第一次的引物設(shè)計(jì)參數(shù)設(shè)置不合理吧，需要重新設(shè)計(jì)引物

挑選p3類型引物20對(duì)選擇進(jìn)行預(yù)實(shí)驗(yàn)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

X 先挑選設(shè)計(jì)出的類型為重復(fù)類型P3 的引物，序列較長(zhǎng)的位點(diǎn)設(shè)計(jì)引物，看設(shè)計(jì)出來引物是否可以擴(kuò)增出條帶。