Genome Browser使用指导

Genome Browser User’s Guide

Connect to the MySql server using this command:
mysql -user=genome -host=genome-mysql.cse.ucsc.edu -A

其他相关数据库登录:

TreeFam 数据库登录:
Anonymous MySQL access at db.treefam.org, port 3308 (anonymous@db.treefam.org:3308)

Ensembl 数据库登录:
mysql -h ensembldb.ensembl.org -u anonymous

内容:
一.什么是Genome Brower(GB)? 六.使用VisiGene图像浏览器;
二.开始:Genome Brower 入门; 七.DNA文本形式;
三.开启GB显示; 八.在assembly间转换数据;
客户路径描述; 九.下载基因组数据;
四.使用BLAT联配; 十.创建和处理客户注释方法;
五.开始表格浏览器;

一.什么是Genome Brower(GB)?

脊椎动物基因组序列已经接近完成,研究重点重新转向分析,序列信息如何有效的显示变得非常重要:仅仅把基因组DNA的30亿字母显示在文本中并没有用处。
相反,UCSC GB提供了一种显示基因组任何范围任何部分信息的快速有效的方法,同时也显示了许多上千的排列注释信息(包括已知基因,预测基因,ESTs,
mRNAs,CpG岛,合成的gaps和coverage,染色体条带,老鼠同源基因等等)。来自公共数据库的一半注释信息由UCSC计算得到,其余的则是由全世界的合作
者提供。使用者也可以把他们自己的常用信息添加到GB中便于教育和研究。

GB把注释信息放在坐标位置下面,能够迅速看到不同信息的相互关系。使用者能够浏览整个染色体查看基因密度,能够打开指定细胞遗传学条带查看疾病候选基
因的位置,也可以缩小一个特殊基因产看他的剪切ESTs和可能的选择性剪切。GB本身并不得出结论;但是他收集了一个位点上所有相关的信息以便使用者去研
究和解释。

GB支持文本和搜索的序列提供快速精确的获取目标区域的信息。其他个人团体提供带有注释信息的二级链接使数据的信息更为详细,为数据库做了补充。为了控
制信息不超负荷,并不显示所有的信息。信息可能被隐藏于一行中,或者根据使用者的标准过滤掉。点击一条信息当中独立的一个选项可以打开描述的比较详细
的一页,该页包含该属性的概要以及站外博物馆(respositories),如PubMed,GenBank,Entrez和OMIM。该页会包含指定条目的position, cytoband,
strand, data source, and encoded protein, mRNA, genomic sequence and alignment的信息。

浏览器顶部的蓝色导航图标提供其他工具和数据资源的链接。例如,DNA link使用户能够看到原始的基因组DNA序列,同时在浏览器窗口中显示坐标范围。可以
通过详细的文本格式选项来显示DNA的信息特性。把GB绑到BLAT上的链接通过不同的整合数据改变坐标,同时可以看到Ensembl,NCBI Map Viewer的注释信息
从而获得相关数据库的详细信息。

GB的数据凝聚了大量合作者的心血,涉及来自国际生物医学研究团体的成千上万工作者。UCSC生物信息组本身并不测序。尽管他闭门创造了绝大多数注释信息,
但是这些注释信息都是基于全世界许多实验室和研究小组所提供的公共数据。GB注释的产生与该小组外的其他个人以及研究小组的努力是分不开的。GB的主要角
色是建立基因组信息整合,创造GB工作环境,并使他能够在网上为科研工作者提供服务。大部分序列数据,注释信息以及软件都提供公共下载。

除GB(基因浏览器)外,UCSC基因组生物信息组也提供了其他工具来观看和解释基因组数据:
BLAT-快速的序列联配工具,与Blast类似。
Table Browser-在GB下,基于简单的文本来获取数据库
Gene Sorter-一个基因组的表达,同源以及其他信息通过许多方式联系起来。
Proteome Browser-蛋白属性数据以及大量相关信息的链接

二. 开始:Genome Brower 入门;
UCSC基因组生物信息学主页提供了不同基因组的GB.点击蓝色的侧钮开始,接着可以选择你所需的基因组。
在指定位置打开GB浏览器:
输入你所要查询基因大概位置的区域打开GB导向或者也可以使用默认设置打开GB。打开GB窗口:
1.从下拉菜单中选择你要显示生物的类别,基因组和编号。如果要获得不再使用的旧版本号,可以在GB存档中查询。
2.指定你要查询的基因组的位置。选择位置,在入口页面 position or search term 文本框中输入有效的编号或者是接受已经显示的默认设置。搜索支持不
同的编号类型:基因号,mRNA或EST注册号,染色体条带,类似于GenBank文本中的描述词语,或者指定的染色体范围。为了显示有同一染色体两个特征的区域,
可以使用分号,例如CRYBB3;CRYBB1.入口页面显示了GB支持的一些搜索例子。
3.点击提交按钮打开GB浏览器窗口到请求位置。如果指定关键字(注册号,基因号等等)被查询,关键字就会被高亮显示。

入口页面有可能返回许多搜索匹配的列表,而不是立即显示GB窗口。如果是那样点击你感兴趣的关键字,GB将会打开那个位置。
搜索引擎并非是一个位点范围内的搜索引擎。它主要搜索GenBank mRNA记录,这些记录的文本注释包括基因名,基因号,杂志名,作者名和参考序列的mRNAs。
GB也支持其他被选择标志符的搜索,诸如NP和NM注册号,OMIM标志符以及Entrez基因IDs。但是查询的一些类型会返回错误,如后来集成到GenBank中的记录,
取消了基因名以及同义词。如果你的初次查询不成功,试着输入另一相关关键词可能会产生相同的位置。例如,你查询一个基因号没有产生结果,试着输入mRNA
注册号,gene ID号或者和这个基因相关的描述性词语。

使用BLAT查找基因位置:
如果你有基因组,mRNA或者蛋白序列,但是不知道他在基因组中的位置或者名字,BLAT工具会通过同源联配快速确定他的位置,同时提供测序的区域。搜索将返
回基因家族比较近的成员和合成的复制产物。查询序列的整个设置可以以fasta格式不断查询。
一个比较成功的BLAT搜索会返回与输入序列匹配的一个或多个基因组的列表。如果要查看GB中的一个联配,可以点击匹配的浏览器链接。详细的链接可以用来观
察联配结果以决定匹配质量是否达到要求从而优化GB结果。如果BLAT中hit结果太多,可以通过RepeatMasker过滤序列缩小搜索范围,然后进行BLAT搜索。

打开带有常用注释信息的GB:
你可以从入口和注释信息页添加常用信息特性从而打开带有常用注释信息显示的GB窗口。如果想要更多关于创建和使用常用注释信息可以参照创建常用注释信息部分。
可以通过三种方式输入注释信息:
-在注释文件文本框中输入带有注释信息的文件名;
-在大的文本框中打入或粘贴注释信息的数据;
-如果注释信息可以从URL获得,在大的文本框中输入URL。
输入注释信息后,点击入口网页顶部的提交按钮打开带有注释信息显示的GB。
GB也提供如何收集注释信息。
注意:如果你试图上传但你的注释信息却不能正常显示,你可能需要重新设置一下GB的默认设置再上传。常用注释信息中的错误如何发现并解决可以参照问题发现
和解决部分。

文本形式浏览基因组数据:
Table Browser是下面的进入GB的开源MySQL的相关数据库的入口,它以文本列的形式而不是图形形式显示基因组数据。如果想更多了解如何使用Table Browser,
参照Getting Started: on the Table Browser.

从外部入口打开GB浏览器:
多个外部入口提供GB的直接链接。包括:Entrez Gene,AceView, Ensembl, SuperFamily, GeneLynx 和 GeneCards.文章杂志也能链接到浏览器并能提
供常用信息。当使用文章的链接时要确保提供完整的信息以提供恰当的坐标。

使用技巧:
为了便于返回GB中你感兴趣的区域,保存你打算访问或希望与其他人分享的坐标范围或页面显示的书签。
尽管全面的信息设置可能并没有准备好,最好使用最近的数据。注意当未完成染色体gaps被填补上,认为的duplications减少,DNA链的方向被纠正以后,所给信息
的坐标会发生改变。GB提供多种工具来正确的在不同版本之间进行转换。如果想更多了解这种转换工具的信息,看Converting data between assemblies部分。
为了确保研究不受浏览器版本的干扰或停电,在书签中保存浏览器的mirror站点。
记住GB不能超额显示草图基因组的全部信息。由于一些切实的困难在测序过程中可能会发生组装错误或者序列的gaps。引入人为的拷贝,误导的匹配都会发生。

三.解析和开启GB显示:
GB注释信息显示了入口搜索指定的通过BLAT搜索或是上传的常用注释信息基因位置的注释信息。在这个页中有五种主要特性:navigation controls设置,chromosome
ideogram[Ideogram (理数图):代表染色体G 带图表],annotations tracks image, display configuration buttons和display controls设置。
第一次打开GB,将会使用默认值设置注释信息。通过使用导航,设置和显示控件,你可以制定注释信息显示来适合你的需要。如果要知道GB支持的注释信息的完整描述,
可以查看Annotation Track Descriptions部分。
GB尽管没有监视或记录使用者的活动和提交数据,但它保留同一页面不同部分间的使用者属性。如果要存储缺省设置,点击GB入口网页上的”Click here to reset”。
返回路径的缺省设置显示(但保留GB的其他设置),点击GB页中的default track。

显示习惯用法:layout spacelayout spacelayout space
GB中显示的注释路径使用习惯用法的常用设置:
注释路径描述:每一个注释路径都和包含这个路径讨论信息的页面相关联。这种方法通常用来创建注释,数据来源和
注释路径详细页
基因预测路径:方块代表编码外显子,水平线代表内含子。5′和3′的UTR由细线方块代表前导和末尾的联配区域。在模式的完整显示中,连接内含子的箭头显示转录的方向。
在一些没有内含子的地方(例如单内含子基因,特别是在缩小的时候),箭头显示在外显子区域那里。
PSL联配路径:联配区域(外显子通常)以黑色方框显示。在高密显示下,黑色的程度放映了匹配的数目。在完整模式下,在联配中,联配区域有代表空格的线(剪切出来的内
含子)所连接,带有转录方向的箭头由剪切位点决定。当没有空格线的时候箭头就现是在方框自己上面。为了防止显示不了,GB增加了一个上标限制在路径图像里可以看到的
联配的数目。当这个限制增加的时候,浏览器显示在高密度模式下显示最好的数百个联配,然后在路径的最后一列里列促没有显示联配的数目。缩小可以显示更多的路口或者
查看更为详细的信息。
链路径(2个物种联配):Single line, double line;如果在基因组的特殊位置有多条链,单线的gaps通常是未加工的假基因,而双线的gaps则是paralogs和未加工
假基因。
“Net”路径(2个物种联配):方框代表没有gap的联配,而细线代表gaps。分为四类Top,Syn,Inv,NonSyn
Top:最好最长的匹配,在地一行显示。
Syn:当gap在水平线上时,在相同染色体上的结构。
Inv:当gap在上面但是在相反方向上时相同染色体上的结构。
NonSyn:与染色体匹配但是不同于其上面的gap。
相关物种线性和ortholog信息: blocks of various colors
相关物种保守性(Wiggle tracks): logarithmic scale(对数范围),mountain ranges;
改变单个注释信息的显示模式:
每个注释信息都包含五种显示方式:
Hide(隐藏,即不显示):
Dense(即所有资料密集在一条直线上):
Full(每个特征有一个分开的线条,最多达300):
Squish:
Pack:
Changing the display mode for a group of tracks
Hiding the track display controls
Changing the display of a track by using filters and configuration options
Zooming and scrolling the tracks display
Changing the displayed track position
Changing the width of the annotation track window
Changing the text size in the annotation track image
Hiding the annotation track labels
Hiding the display grid on the annotation tracks imagePrinting a copy of the annotation track window
Hiding the chromosome ideogram
Printing a copy of the annotation track window

四. Using BLAT alignment:
BLAT:对于DNA序列,BLAT是用来设计寻找95%及以上相似至少40个碱基的序列。
对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。
通常起源于3.5亿年前的基因家族都可以检测到。通过使用NCBI的BLAST和psi-BLAST,然后使用BLAT对UCSC基因组进行联配可以找到更多的差异序列。实际上,
BLAT对灵长类的DNA以及陆地脊椎动物的蛋白效果都很好。
BLAT通常用来:
-mRNA或蛋白在基因组中的位置
-决定基因外显子的结构
-显示全长基因的编码区域
-分离一个物种他自己的EST
-查找基因家族
-从其他物种中查找人类基因的同源物
BLAT查询:fasta格式
BLAT limitations:
DNA input sequences are limited to a maximum length of 25,000 bases. Protein or 七. translated input sequences must not exceed
5000 letters. As many as 25 multiple sequences may be submitted at the same time. The maximum combined length of DNA input for
multiple sequence submissions is 50,000 bases (with a 25,000 base limit per individual sequence). For protein or translated
input, the maximum combined input length is 12,500 letters (with a 5000 letter limit per individual sequence).
NOTE: Program-driven BLAT use is limited to a maximum of one hit every 15 seconds and no more than 5000 hits per day.
BLAST序列搜索结果:
从BLAT输出结果生成常用注释信息: PSL format 输出选项;
使用BLAT用作大批量任务处理以及商业用途
BLAT文档:BLAT Program Specifications以及Blat section

注释信息描述
参见三

五.Getting started on the Table Browser
Table Browser提供基于文本形式来获取存储在GB数据库中基因组汇编和注释数据。可提供很便利的下载,参见Downloading Genome Data部分。
如何使用可参见Table Browser User Guide。

六. Using the VisiGene Image Browser
*************
maybe helpful to Treefam

七. DNA文本格式:
retrieval: Upstream or downstream end of the sequence;
formatting:exon;
coloring of text:

八.在assembly间转换数据:

九.下载数据

十.创建常用注释方法 *****helpful to treefam*****
GB有几十个UCSC和合作者提供的注释信息。除了这些标准的注释信息外,使用者也可以自己上传临时的注释数据,48小时后会自动删除。使用者使常用注释信息被其他使用者所浏览。
许多个人和实验室把custom tracks添加到GB站点中供其他人使用。浏览这些注释信息可以点击GB主页中的Custom Tracks。
Custom annotation tracks与Standard tracks相似,但是不是MySQL基因组数据库中的一部分。
GB注释信息基于line-oriented format(行导向格式)。注释文件包含三种行类型:browser lines, track lines, data lines.空行和带”#”的行会被忽略掉。
构建注释文件并在GB中显示步骤:
1.格式化数据
以Tab为分隔符叙述数据文件。注释文件要以标准的GFF格式或者也可以是GTF,PSL,BED或者WIG。染色体参考文献以chrN格式。
2.定义GB显示特性
设置browser lines;
3.定义注释路径显示特性
设置track line;
例子:
Example 1:
Here is an example of a simple annotation file that contains a list of chromosome coordinates.

browser position chr22:20100000-20100900
track name=coords description=”Chromosome coordinates list” visibility=2
chr22 20100000 20100100
chr22 20100011 20100200
chr22 20100215 20100400
chr22 20100350 20100500
chr22 20100700 20100800
chr22 20100700 20100900

Example 2: BED格式
Here is an example of an annotation file that defines 2 separate annotation tracks in BED format. The first track displays blue one-base tick marks every 10000 bases on chr 22. The second track displays red 100-base features alternating with blank space in the same region of chr 22.

browser position chr22:20100000-20140000
track name=spacer description=”Blue ticks every 10000 bases” color=0,0,255,
chr22 20100000 20100001
chr22 20110000 20110001
chr22 20120000 20120001
track name=even description=”Red ticks every 100 bases, skip 100″ color=255,0,0
chr22 20100000 20100100 first
chr22 20100200 20100300 second
chr22 20100400 20100500 third
Click here to view this track in the Genome Browser.

BED(Extensible Data format)

Example 3:
The track name line in this example has been split over 2 lines for documentation purposes. If you paste this example into the Genome Browser, you must remove the line break to display the track successfully.

browser position chr22:1000-10000
browser hide all
track name=”BED track” description=”BED format custom track example” visibility=2
color=0,128,0 useScore=1
chr22 1000 5000 itemA 960 + 1100 4700 0 2 1567,1488, 0,2512
chr22 2000 7000 itemB 200 - 2200 6950 0 4 433,100,550,1500 0,500,2000,3500

4.在GB中显示你的注释信息:
Home page->Genome Browser->manage custom tracks->add custome tracks->填写内容->Submit button

5.给个人途径特性添加细节页面
在GB中成功构建你的信息后,你可能会希望定制一些个详细信息特性。
Example 4:
browser position chr22:10000000-10020000
browser hide all
track name=clones description=”Clones” visibility=2
color=0,128,0 useScore=1
url=”***://genome.ucsc.edu/goldenPath/help/clones.html#$$”
chr22 10000000 10004000 cloneA 960
chr22 10002000 10006000 cloneB 200
chr22 10005000 10009000 cloneC 700
chr22 10006000 10010000 cloneD 600
chr22 10011000 10015000 cloneE 300
chr22 10012000 10017000 cloneF 100

6.与其他人分享你的注释信息。 ******Treefam*****

十一.把Custom Track写入Genome Browserr
1.打开Add Cutom Tracks页
2.上传custom track data
3.(可选)上传custom track description 页
4.上传track

十二.显示和管理Custom Tracks



无觅相关文章插件,快速提升流量