- 使用misa.pl 查找ssr位點(diǎn)
生成的misa文件有
wc -l tsh_wgs.fna.misa
127131 tsh_wgs.fna.misa
#生成的misa文件行數(shù),但statistics文件里顯示Total number of identified SSRs: 146445
Number of SSRs present in compound formation: 19315
即總共的SSRs 146445 = 127131(行數(shù))- 1(表頭)+19315(復(fù)合衛(wèi)星數(shù)量)=146445 也即復(fù)合衛(wèi)星計(jì)算為2個(gè)SSR
3. p3_in.pl 將misa.pl生成的misa文件處理成primer3 可以識(shí)別的內(nèi)容
網(wǎng)上資料說需要改p3_in.pl 里的內(nèi)容,將print OUT 后內(nèi)容更改成primer可以識(shí)別的內(nèi)容,之后運(yùn)行p3_in.pl ,生成的p3in文件內(nèi)容為空。之后發(fā)現(xiàn)可能是因?yàn)榛蚪M序列文件> 后的序列名稱含有空格,而misa.pl程序會(huì)用下劃線補(bǔ)全空格。可能是因?yàn)闊o法對(duì)應(yīng)misa文件與基因組的序列名稱,導(dǎo)致生成空文件。
4. 將基因組序列名稱只保留是scaffold內(nèi)容,序列名稱無空格。
sed -i 's/>.Taishanhong />/;s/, .//' fasta文件名稱,將Taishanhong以前的內(nèi)容替換為空,將 ","以后的內(nèi)容替換為空
5. 可以運(yùn)行 p3_in.pl 不過生成的 p3in文件有204GB,好奇怪。也沒搞懂 p3in文件里的SEQUENCE_TEMPLATE=是如何得到的。
6. 查看生成的p3in文件,p3_in.pl 的print OUT 內(nèi)容只有這四行,
其中
6.1 SEQUENCE_ID=scaffold1_1 表示scaffold1 上查找到的第一個(gè)位點(diǎn),
想看一下scaffold1總共查到到多少個(gè)位點(diǎn),使用
grep "scaffold1_" tsh_wgs.fna.p3in |wc -l
grep -c "scaffold1_" tsh_wgs.fna.p3in
感覺很慢,沒有出現(xiàn)結(jié)果,直接 grep "scaffold1_" tsh_wgs.fna.p3in 查看scaffold上有3793個(gè)位點(diǎn)。
6.2 SEQUENCE_TEMPLATE= 猜測(cè)模板序列可能是scaffold1 整條序列的堿基。
sed -n 2p tsh_wgs.fnarow1-4.p3in |awk -F "=" '{print $2}' | wc -m
6916724 #p3inp3in文件里 SEQUENCE_ID=scaffold1_1 的模板序列堿基數(shù)量
需要統(tǒng)計(jì)一下基因組數(shù)據(jù)里scaffold1的堿基數(shù)量,fna文件里scaffold的堿基是每行的數(shù)量固定,有很多行,就需要提取scaffold1 與 下一個(gè)scaffold之間的內(nèi)容并計(jì)算字符數(shù)。
grep -n "scaffold" tsh_wgs.fna |less -SN
1 1:>scaffold1
2 86462:>scaffold10 #即scaffold1 的內(nèi)容在第1行于第86462之間,也即從第2行到 86461行。tsh_wgs.fna 文件中scaffold1共有86461-2+1= 8640 行。
3 134759:>scaffold100
sed -n '2,86461p' tsh_wgs.fna | wc -l
86460 #提取了86460行堿基
sed -n '2,86461p' tsh_wgs.fna | wc -m
7003183 #與p3in 的堿基數(shù)量不一致,可能wc -m計(jì)算的不僅僅是堿基字母數(shù)量
sed -n '2p' tsh_wgs.fna | wc -m
81 #即第二行有81個(gè)字符,但是tsh_wgs.fna文件里第二行只有80個(gè)堿基,
sed -n '2p' tsh_wgs.fna | awk -F "" '{print $80}'
G #為第二行的最后一個(gè)堿基
了解到第81個(gè)字符為行尾符。
說明上邊的計(jì)算沒錯(cuò)。tsh_wgs.fna scaffold1里的
字符數(shù) 7003183 - 總共的行尾符數(shù)量 86460(即總行數(shù)86460) = 總堿基數(shù)
=p3in文件里的 SEQUENCE_ID=scaffold1_1 的模板序列字符數(shù) 6916724 - 模板序列行數(shù)1
=6916723
即p3_in.pl 把與misa文件ID序列名稱對(duì)應(yīng)的序列 全部作為模板連。就相當(dāng)于p3in文件里的內(nèi)容很大一部分為 基因組tsh_wgs.fna的堿基序列,單單scaffold1就出現(xiàn)了 3793次也即scaffold1查到到的ssr位點(diǎn)數(shù)。
6.3 PRIMER_PRODUCT_SIZE_RANGE=100-280
不知道這個(gè)是不是需要提前設(shè)置,還是在primer3相關(guān)的配置文件里配置這個(gè)內(nèi)容
6.4 TARGET=2055,18
p3_in.pl 文件里默認(rèn)把起始ssr的起始位點(diǎn)減去3 得到目標(biāo)序列開始位點(diǎn)2055,ssr長(zhǎng)度加 6 得到目標(biāo)序列長(zhǎng)度。
- 從基因組中提取只包含重復(fù)序列的一小段序列信息的bed文件。
7.1 cat tsh_wgs.fna.misa | awk -F "\t" 'NR >1{print$1"\t"$6-150"\t"$7+150}'> tsh_wgs_ssr.bed
在ssr序列起始終止位點(diǎn)向兩端延伸150bp。
利用bed文件提取需要給基因組文件構(gòu)建fai索引
7.2 samtools fadix tsh_wgs.fna
7.3 bedtools getfasta -fi tsh_wgs.fna -bed tsh_wgs_ssr.bed -fo tsh_wgs_ssr.fa
遇見問題Error: malformed BED entry at line 6643\. Start Coordinate detected that is < 0\. Exiting.
7.4
sed -n 6643p tsh_wgs_ssr.bed
scaffold1000 -30 281 #在scaffold 的較開始端有ssr位點(diǎn),起始位置-150 變成了負(fù)數(shù)。#問題好多呀
7.5
sed -n 6644p tsh_wgs.fna.misa
scaffold1000 1 p2 (AG)6 12 120 131 #misa文件中ssr位點(diǎn)的起始位點(diǎn)為12
就是需要將bed文件中$2起始位置小于0的全部改為1,或在生成bed文件過程中將小于150的起始位置n-(n-1).
7.6 查到bed文件小于 起始位點(diǎn)數(shù)值小于0的行數(shù)
7.6.1 cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $0}' |wc -l
78 #有78行起始位點(diǎn)小于0
7.6.2 cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $1}' | wc -l
78 #只打印scaffold 這一列也是有78 行
7.6.3 cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $1}' | sort | uniq -c |wc -l
77 #排除重復(fù) 只打印出哪些scaffold ,起始位點(diǎn)小于0,有77 條 掃scaffold,說明一條scaffold 上有2個(gè)位點(diǎn)的起始位置小于0
7.6.4 cat tsh_wgs_ssr.bed | awk ' $2 < 0{print $1}' | sort | uniq -c | awk '$1 >1{print$0}'
2 scaffold637 #scaffold637 里有2個(gè)ssr位點(diǎn)起始位置小于0
7.7 怎么樣把小于0數(shù)值的改為1
cat tsh_wgs_ssr.bed |sed 's/-.*\t/1/g' | awk '$2 < 0 {print $0}' | wc -l
0 #匹配-負(fù)號(hào)內(nèi)容,并改為1,沒有查找到小于0的行,是因?yàn)榘?.*\t替換為了1,即有的行只有2列
cat tsh_wgs_ssr.bed | sed 's/-.*\t/1\t/' | awk '$2<=1 {print($0)}' | wc -l
80 # 即起始位置小于等于1的行數(shù)有80行
grep -w -n "1" tsh_wgs_ssr.bed
23072:scaffold136 1 315
46722:scaffold2011 1 330 #起始位點(diǎn)等于1的有兩行,說明可以通過匹配- 來更改小于0的起始位點(diǎn)。
grep -w -n "1" tsh_wgs_ssr.bed | wc -l
80 #更改后的等于1的有80 行
終于解決了,學(xué)了下正則表達(dá)式
- 借助bedtools提取bed文件的相應(yīng)序列
8.1提取序列
bedtools getfasta -fi tsh_wgs.fna -bed tsh_wgs_ssr.bed - fo tsh_wgs_ssr.fa
Feature (scaffold1081:1618-1998) beyond the length of scaffold1081 size (1879 bp). Skipping.
Feature (scaffold1142:1594-1907) beyond the length of scaffold1142 size (1758 bp). Skipping.
.....................
#有的ssr位點(diǎn)在scaffold尾端,終止位置加150之后超過scaffold長(zhǎng)度
8.2 處理終止位置大于序列總長(zhǎng)度的信息行
復(fù)制 Feature 信息,將75行報(bào)錯(cuò)的信息內(nèi)容更改,終止位置序列總bp數(shù)
$ cat *.bed > all.bed
#將 2個(gè)bed文件合并為一個(gè)bed文件。即原先的bed文件和修改后的bed文件。
8.3 提取all.bed文件的序列
$ bedtools getfasta -fi tsh_wgs.fna -bed all.bed -fo tsh_wgs_ssr.fa
$ grep -c ">" tsh_wgs_ssr.fa
127130
$ wc -l tsh_wgs.fna.misa
127131 tsh_wgs.fna.misa
tsh_wgs_ssr.fa 序列條數(shù)與 sh_wgs.fna.misa 的查找到的ID總數(shù)(減去表頭)一樣
8.4 使用misa鑒定位點(diǎn)
$ perl /home/Pomgroup/gdp/app/misa/misa.pl tsh_wgs_ssr.fa
16 Total number of sequences examined: 127130
17 Total size of examined sequences (bp): 40938166
18 Total number of identified SSRs: 155330
19 Number of SSR containing sequences: 127123
20 Number of sequences containing more than 1 SSR: 23222
21 Number of SSRs present in compound formation: 19525
奇怪,對(duì)提取的序列重新搜索SSRs與原基因組文件搜索到的SSRs數(shù)量不同
比基因組SSRs多出 155330 - 146445 = 8885個(gè)位點(diǎn),
$ wc -L tsh_wgs.fna.misa
8383774 tsh_wgs.fna.misa 原misa文件中最長(zhǎng)行,即復(fù)合衛(wèi)星中間的插入大于100bp
8.4.1 看一下什么原因
@1
$ sed -n '58p' tsh_wgs.fna.misa
scaffold1 57 c (A)10gaaaaaaa(AAG)5gg(GA)10 55 99231 99285
#這個(gè)復(fù)合位點(diǎn)計(jì)算了插入片段片段的長(zhǎng)度。
而以tsh_wgs.fna.misa第3388行為例
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}'|awk -F "[()]" '{print NF}'
5
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk -F "[()]" '{print NF}'
5
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk -F "[()]" '{print $1}'
scaffold1 3387 c
(base) [Pomgroup@localhost tshscaffold]$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}'|awk -F "[()]" '{print $1}'
$1字段開頭有分隔符,所以可以直接以()為分隔符,查看某一列,
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}'|awk -F "[()]" '{print$3}' |wc -m
617363 #可見插入片段的長(zhǎng)度有617363 -1($2是7,為重復(fù)的次數(shù))=617362 bp #有沒有行尾符?
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$5}'
34 #顯示衛(wèi)星的長(zhǎng)度只有34bp,通過起始位點(diǎn)與終止位點(diǎn)的計(jì)算。
6299381 - 6299348 +1 =34
而不計(jì)算插入序列重復(fù)序列的總長(zhǎng)度為2(CT)*7 + 1(T)*21=35 , 可能是把插入系列作為一個(gè)堿基?
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$4}' |grep -o "[0-9]"
#查看重復(fù)序列的重復(fù)次數(shù) 數(shù)字
7
2
1
(CT)7....(T)21
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$6}'
6299348 #起始位點(diǎn)
$ sed -n '3388p' tsh_wgs.fna.misa |awk '{print$7}'
6299381 #終止位點(diǎn)
misa的坐標(biāo)系統(tǒng)為“1-start, fully-closed” system,即從重復(fù)開始的那個(gè)堿基計(jì)算位點(diǎn)位置到終止堿基位點(diǎn)。
@2 查看3388行所在scaffold1的bp數(shù)
grep -n "scaffold" tsh_wgs.fna |less -SN
1 1:>scaffold1
2 86462:>scaffold10
即堿基位于2-86461行
$ sed -n '2,86461p' tsh_wgs.fna |wc -l
86460
$ sed -n '2,86461p' tsh_wgs.fna |wc -m
7003183
7003183-86460=6919723 scaffold1長(zhǎng)度
??沒有找到插入序列這么長(zhǎng)的原因。
- 處理misa文件
$ perl p3_in.pl tsh_wgs_ssr.fa.misa
135805 records created.
$ wc -l tsh_wgs_ssr.fa.misa
135806 tsh_wgs_ssr.fa.misa
#所有行都準(zhǔn)確識(shí)別
10 .使用primer3 批量設(shè)計(jì)引物
前段時(shí)間學(xué)的已經(jīng)忘了差不多啦,反正是有各種參數(shù),
感謝作者對(duì)各種參數(shù)的解釋
primer3 的使用參數(shù)
/home/Pomgroup/gdp/app/primer/primer3-2.4.0/src/primer3_core [--format_output] [--default_version=1|--default_version=2] [--io_version=4] [--p3_settings_file=<file_path>] [--echo_settings_file] [--strict_tags] [--output=<file_path>] [--error=<file_path>] [input_file]
$ /home/Pomgroup/gdp/app/primer/primer3-2.4.0/src/primer3_core --p3_settings_file=/home/Pomgroup/gdp/app/primer/primer3-2.4.0/settings_files/p3_th_settings.txt --output= tsh_ssr.p3out --error= tsh.error tsh_wgs_ssr.fa.p3in
#程序沒有反應(yīng),可能是因?yàn)?-output=后于輸出文件之間有空格。更改后運(yùn)行正常
10.1 p3_out.pl 處理設(shè)計(jì)好的引物
perl tsh_ssr.p3out tsh_wgs_ssr.fa.misa
Semicolon seems to be missing at tsh_ssr.p3out line 1.
Can't modify constant item in scalar assignment at tsh_ssr.p3out line 1, near "s caffold1:"
syntax error at tsh_ssr.p3out line 1, near "scaffold1:"
Identifier too long at tsh_ssr.p3out line 2.
#perl后沒有 p3_out.pl
$ perl p3_out.pl tsh_ssr.p3out tsh_wgs_ssr.fa.misa
Primer modelling was successful for sequences.
Primer modelling failed for 135805 sequences.
# 產(chǎn)生 的tsh_ssr.result文件為空
用師兄的python程序可以將文件整理到一個(gè)結(jié)果
$ wc -l tsh_ssr.result
97156 tsh_ssr.result #相當(dāng)于結(jié)果的總共的位點(diǎn)數(shù)有97155個(gè)
而
$ grep -c "SEQUENCE_ID" tsh_ssr.p3out
135805 #文件有135805條模板序列
同時(shí)
$ wc -l tsh_wgs_ssr.fa.misa
135806 tsh_wgs_ssr.fa.misa #除去表頭misa文件也有135805行
135805 - 97155 = 35650 個(gè)位點(diǎn)沒有合并到結(jié)果文件
可見misa在scaffold1011查到到一個(gè)位點(diǎn),而result文件里沒有出現(xiàn)scaffold1011里的位點(diǎn),查看p3out文件里,scaffold1011引物設(shè)計(jì)情況
scaffold1011查到到的唯一沒有設(shè)計(jì)出引物
SEQUENCE_ID=scaffold1011:1563-1892_1
SEQUENCE_TEMPLATE=AATAATACTGAAAGCTTGTGGTTAGATATGCTGATCACTTGTCCAAATCTAGAGGACTACtaattgatattatattaCCGAGCTCGTGGTTAGATGGATACATGGACAATTTTATGTAGAAGACTACTAATTGATTTATTACtgatgtgatatatatatatatatatatatatatatatctattacaCCAAGCGCGATGTACTCAAATCTTATGATATTTTACCCGAAAGGATTCAAGGGAGAAAACCCAGATCTATCTGTCTACATATGTTCGATATTACAGATACTCTTTTTTGATGAATGTGTATTATTGATTCTCATTATCATTA
PRIMER_PRODUCT_SIZE_RANGE=100-280
TARGET=147,36
PRIMER_MAX_END_STABILITY=250
PRIMER_LEFT_EXPLAIN=considered 1380, GC content failed 998, low tm 310, high tm 23, high hairpin stability 13, ok 36
PRIMER_RIGHT_EXPLAIN=considered 1380, GC content failed 1080, low tm 243, high tm 15, ok 42
PRIMER_PAIR_EXPLAIN=considered 1512, unacceptable product size 1512, ok 0
PRIMER_LEFT_NUM_RETURNED=0
PRIMER_RIGHT_NUM_RETURNED=0
PRIMER_INTERNAL_NUM_RETURNED=0
PRIMER_PAIR_NUM_RETURNED=0
=
查看scaffold110 在misa文件與result文件前后變化
#將 tsh_ssr.p3out 文件中 SEQUENCE_ID= 中有scaffold110的內(nèi)容提取的文件
$ sed -n '/scaffold110:/p' tsh_ssr.p3out |awk -F "=" '{print$2}' > p3out_scaffold110_ssr.txt
#將result文件中 第一列ID為 scaffold110 提取出來
$ sed -n '/scaffold110:/p' tsh_ssr.result |awk -F "\t" '{print$1}' > result_scaffold110_ssr.txt
#查看兩個(gè)文件中重復(fù)與沒有重復(fù)的內(nèi)容,統(tǒng)計(jì)到的個(gè)數(shù)為1的就是id就是在最后整理到的時(shí)候沒有整理到最后的result文件里id,可是是這些id沒有設(shè)計(jì)出引物。
$ cat result_scaffold110_ssr.txt p3out_scaffold110_ssr.txt |sort|uniq -c
#將兩個(gè)文件沒有重復(fù)的內(nèi)容提取到 p3out_result_miss.txt
$ cat result_scaffold110_ssr.txt p3out_scaffold110_ssr.txt |sort|uniq -c | awk '$1~/1/{print$2}' > p3out_result_miss.txt
#統(tǒng)計(jì)下miss掉的id個(gè)數(shù)
wc -l p3out_result_miss.txt
71 p3out_result_miss.txt #等于上邊scaffold110 在兩個(gè)文件中的差值即316-245=71
#查看這71個(gè)id因?yàn)槭裁丛驔]有被統(tǒng)計(jì)到結(jié)果文件中,根據(jù)p3out_result_miss.txt里的id名稱在p3out文件里提取對(duì)應(yīng)的所有內(nèi)容。#不會(huì)只能現(xiàn)學(xué)了,用python?#(大寫的擱置)
統(tǒng)計(jì)result文件內(nèi) 各scaffold的包括位點(diǎn)數(shù)
$cat tsh_ssr.result | awk -F ":" 'NR>1{print $1}' | sort | uniq -c > result.statistics
以tsh_wgs_ssr.fa.misa 文件中scaffold1000為例只檢測(cè)到3個(gè)位點(diǎn)?
$ cat tsh_wgs_ssr.fa.misa | awk -F ":" '$1~"scaffold1000" {print$0}'
scaffold1000:1-281 1 p2 (AG)6 12 119 130
scaffold1000:131-480 1 c (CTC)8cttcctccatt(TTC)5 50 150 199
scaffold1000:1414-1733 1 p2 (TC)10 20 150 169
$ grep -c "scaffold1000:" tsh_wgs_ssr.fa #序列文件中scaffold1000也是只有3個(gè)位點(diǎn)
$ grep -c "scaffold1000" tsh_wgs.fna.misa
3 #也是3個(gè)位點(diǎn),是因?yàn)閟caffold1000序列短,一開始以為scaffold都很長(zhǎng)呢啊啊啊啊,
10 使用e-PCR檢測(cè)引物的有效性
$ nohup /home/Pomgroup/gdp/app/epcr/e-PCR-2.3.12/e-PCR /home/Pomgroup/gdp/ssr/tsh/tshscaffold/ssrfa/ssrepcr/tsh_ssr_result_epcr.txt D=100-500 /home/Pomgroup/gdp/ssr/tsh/tshscaffold/tsh_wgs.fna N=2 G=2 T=3 > tsh_ssr_result_afepcr.txt &
結(jié)果文件內(nèi)容為
scaffold1 scaffold1:5934613-5934928_1 + 5934661 5934761 101/100-500 0 0
scaffold1 scaffold1:2910453-2910765_1 + 2910543 2910724 182/100-500 0 0
scaffold1 scaffold1:879458-879772_1 + 879469 879675 207/100-500 0 0
#加號(hào)一列有個(gè)別減號(hào),還不清楚+ - 的含義,可能是代表是否擴(kuò)增成功。
e-PCR的參數(shù)也不懂,先學(xué)一下e-PCR 的說明書。
10.1 e-PCR的參數(shù)
M=## Margin (default 50)
W=## Wordsize (default 7)
N=## Max mismatches allowed (default 0) 允許的最大錯(cuò)配,(是堿基錯(cuò)
配么不清楚)
G=## Max indels allowed (default 0) 允許的indel最大錯(cuò)配
F=## Use ## discontinuos words
O=## Set output file to ##
T=## Set output format (1..4) 輸出的文件格式
D=##-## Set default sts size #sts長(zhǎng)度
P=+- Postprocess hits on/off
V=+- Verbose on/Off
A=a|f Use presize alignmens (only if gaps>0), slow
a - Allways or f - as Fallback
X=+- Use 5'-end lowercase masking of primers (default -)
U=+- Uppercase all primers (default -)
-mid Same as T=2
compat-options 可以出現(xiàn)在命令行的任何地方
#EPCR版本
$ /home/Pomgroup/gdp/app/epcr/e-PCR-2.3.12/e-PCR -V
e-PCR cmdline tool version 2.3.12
即epcr將result文件中的left 引物與基因組比對(duì),將result文件中的right引物的反向互補(bǔ)序列與基因組比對(duì),如果完全比對(duì)則表明可以擴(kuò)增。
對(duì)提取后的
11 篩查唯一結(jié)果
X 先挑選設(shè)計(jì)出的類型為 重復(fù)類型P3 的引物,序列較長(zhǎng)的位點(diǎn)設(shè)計(jì)引物,看設(shè)計(jì)出來引物是否可以擴(kuò)增出條帶。
查看重復(fù)序列為p3的位點(diǎn)
$ cat tsh_ssr.result |awk 'BEGIN{FS=OFS="\t"}$3~/p3/{print$0}' | awk 'BEGIN{FS=OFS="\t"}$5>15{print$0}' |less -SN
挑選不同scaffold上的位點(diǎn)總共20對(duì),
將序列全部改為大寫重新設(shè)計(jì)引物,一是epcr對(duì)引物的大小寫有要求,二是第一次的引物設(shè)計(jì)參數(shù)設(shè)置不合理吧,需要重新設(shè)計(jì)引物
采用默認(rèn)參數(shù)設(shè)置
$ nohup /home/Pomgroup/gdp/app/primer/primer3-2.4.0/src/primer3_core --default_version=2 --output=tsh_wgs_ssr_upper.fa.p3out --error= tsh_wgs_ssr_upper.fa.error tsh_wgs_ssr_upper.fa.p3in && echo "well done" || echo "failure" &
挑選p3類型引物20對(duì)選擇進(jìn)行預(yù)實(shí)驗(yàn)
$ cat tsh_wgs_ssr_upper.result |awk 'BEGIN{FS=OFS="\t"}$3~/p3/{print$0}'|awk 'BEGIN{FS=OFS="\t"}$5>15{print$0}' | > tsh_wgs_ssr_upper.p3great15.result
bedtools getfasta -fi tns.fna -bed tns_misa_ssr_big0.bed -fo tns_misa_ssr.fna
刪除起始位置小于0的 bed文件行
關(guān)于引物設(shè)計(jì)
上下為反向互補(bǔ)序列,上邊為5-3方向,下邊為3-5方向
中間標(biāo)記顏色的為SSR重復(fù)序列,引物設(shè)計(jì)是根據(jù)位點(diǎn)兩端序列進(jìn)行設(shè)計(jì),并不是從位點(diǎn)前的第一個(gè)堿基往左數(shù)多少個(gè)堿基作為引物,因?yàn)橐镌O(shè)計(jì)有要求,所有引物最后一個(gè)堿基往前移動(dòng),并調(diào)整引物長(zhǎng)度,計(jì)算后判斷哪段序列作為引物合適。所有ssr引物擴(kuò)增的產(chǎn)物長(zhǎng)度是引物長(zhǎng)度,+ssr序列長(zhǎng)度,+引物3端最后一個(gè)堿基據(jù)ssr序列5端的長(zhǎng)度
misa生成的后綴為misa的文件時(shí)每個(gè)位點(diǎn)的信息,statistics文件是一個(gè)總概括文件,statistics文件里的統(tǒng)計(jì)的1-6重復(fù)型ssr的數(shù)量是把復(fù)合微衛(wèi)星中的單個(gè)微衛(wèi)星計(jì)算進(jìn)去,加入在misa后綴文件里有p1(單核苷酸重復(fù))類型經(jīng)手動(dòng)查找計(jì)數(shù)共10個(gè),在statistics文件里p1(單核苷酸重復(fù))類型有15個(gè),說明所有復(fù)合微衛(wèi)星內(nèi)含有5個(gè)單獨(dú)的單核苷酸重復(fù)ssr。