PDF をダウンロード

1
Handbooks
DDBJ Sequence Read Archive Handbook
公開日: 2014年3月25日; 最終更新日: 2015年1月7日
DRA について
メタデータ
メタデータオブジェクト
オブジェクトの構成例
Submission
Study (BioProject)
Sample (BioSample)
Experiment
Run
Analysis
データファイル
登録するデータファイルの形式について
BAM ファイル
fastq
454
Illumina Genome Analyzer
SOLiD
Ion Torrent
Helicos Heliscope
Complete Genomics
Pacific Biosciences
DRA へのデータ登録
DRA 登録の流れ
DRA へのデータ登録方法
新規 DRA 登録の作成
シークエンスデータのアップロード
メタデータ作成ツールでのメタデータ作成
補足: technical reads を登録する場合
データファイルの Validation
アクセッション番号の受領
データ公開
登録の更新
公開予定日の変更
メタデータの更新
データファイルの追加
データの削除
補足: MD5 値
MD5 値の取得 (Linux)
MD5 値の取得 (Mac OS X)
MD5 値の取得 (Windows)
免責事項
DRA について
DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®,Illumina Genome Analyzer®,Applied
Biosystems SOLiD® System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は
International Nucleotide Sequence Database Collaboration (INSDC) のメンバーであり, NCBI Sequence
Read Archive (SRA) と EBI Sequence Read Archive (ERA) との国際協力のもと,運営されています。
Analysis 以外のオブジェクトは3極でミラーリングされます。
DDBJ Sequence Read Archive Handbook Handbook
2
従来のキャピラリ式シークエンサからの出力データは DDBJ Trace Archive にご登録ください。
メタデータ
メタデータオブジェクト
メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。 メタデータは
Submission,BioProject,BioSample,Experiment,Run,Analysis の各オブジェクトで構成されます。 各オブジェク
トは XML スキーマで定義され,相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されま
す。 オブジェクトの構造とアクセッション番号は DDBJ/EBI/NCBI で共通です。 Experiment,Run,Analysis は SRA
のオブジェクトで,BioProject と BioSample は SRA 以外のデータベースになります。アクセッション番号はオブジェク
トに対して発行されます。
メタデータの詳細は対応する XML スキーマをご覧ください。XML Schemas (NCBI)
S ubmis s ion
登録するオブジェクトをとりまとめるためだけのオブジェクト。
BioProje ct
研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。
BioS ample
生物学的なサンプルに関する記述。物理的に異なるサンプルはユニークな属性セットをもった BioSample として登録
します。
Expe rime nt
BioSample に由来するシークエンス用ライブラリーとシークエンスの方法について記載します。 Experiment は1つの
BioProject と1つの BioSample を参照します。 複数の Experiment は1つの BioSample を参照することができます
が,逆に1つの Experiment が複数の BioSample を参照することはできません。
Run
シークエンス用ライブラリー (Experiment) に属するファイル群をまとめます。 Experiment を介してシークエンスデータ
ファイルは特定のサンプルにリンクされます。 Run に含まれる全てのファイルは1つの SRA/fastq ファイルに統合され
ます。ですので,異なるサンプルや replicates に由来するファイルは同じ Run に含めるべきではありません。 一方,ペ
アードのデータファイルは同じ Run に含め,ペアードリードが正しくペアとして処理されるようにします。
Analys is
Run に格納されたシークエンスデータに関連するデータで,しかるべき登録先がないようなデータを登録します。
DDBJ Sequence Read Archive Handbook Handbook
3
メタデータオブジェクト
オブジェクトの構成例
登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。
最もシンプルなケース
三つの菌株の比較ゲノム解析
(Technical, Biological) replicate がある場合
関連するデータが別々の論文に発表される場合
最も シンプルなケース
最もシンプルなケース
三つの 菌株の 比較ゲノム 解析
三つの菌株の比較ゲノム解析.
(Te chnical, Biolog ical) re plicate が ある 場合
関連する FAQ: DRA 登録にはいくつのサンプルが必要ですか?
DDBJ Sequence Read Archive Handbook Handbook
4
(Technical, Biolog ical) replicate がある場合
関連す る データ が 別々の 論文に発表さ れ る 場合
関連するデータが別々の論文に発表される場合
メ タデータ各項目の 説明
必須*
条件によって必須*
Submission
Ce nte r Name
登録者が所属する組織に関する情報を記載します。
Center Name *
登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの
Center Name が必要です。登録においてエイリアスはメタデータオブジェクト間の相互参照に用いられます。
DDBJ Sequence Read Archive Handbook Handbook
5
メタデータ作成ツールはアカウント情報から Center Name を自動的に取得し,メタデータに埋め込みます。
Center Name は登録の所有権を示すものではなく,SRA が運用上使用している略称です。所有権は Submitter に記載される
登録者にあります。
Lab Name *
登録者が所属する研究室やグループ名。
Hold Until
公開方法を指定します。
Hold Until*
公開予定日を設定します。最長で2年後まで設定でき,延長することができます。
Immediate Release *
即日公開。登録作業が終わり次第,データが公開されます。
S ubmitte r
登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡
は記入された全てのアドレスに対して行われます。責任者以外の人が登録作業をした場合,その作業者を Contact に
含めてください。Contact 情報は公開されません。Contact 情報を明示したい場合は BioProject に記載してくださ
い。
Name *
登録者の名前。
E-mail*
登録者の電子メールアドレス。
Study (BioProject)
BioProject ID*
BioProject に登録済みのプロジェクトから該当するものを1つ選択します。従来の SRA Study オブジェクトは BioProject で代
用されます。BioProject の登録方法は BioProject Handbook を参照してください。
Sample (BioSample)
BioSample ID*
BioSample に登録済みのサンプルから該当するものを選択します。従来の SRA Sample オブジェクトは BioSample で代用
されます。BioSample の登録方法は BioSample Handbook を参照してください。
Experiment
Alias
自動的に Experiment に付けられる名前。アクセッション番号のないメタデータオブジェクトは Alias で参照されます。
Title *
検索結果で表示される Experiment の短いタイトルです。ユニークなタイトルを付けます。
Library Name
ライブラリーの名前。
Library Source *
ライブラリー構築に用いた試料。
L ib ra ry S o u rce
D e s crip t io n
DDBJ Sequence Read Archive Handbook Handbook
6
L ib ra ry S o u rce
D e s crip t io n
GENOMIC
Geno mic DNA (includes PCR pro ducts fro m geno mic DNA).
TRANSCRIPTOMIC
Transcriptio n pro ducts o r no n geno mic DNA (EST, cDNA, RT-PCR, screened libraries).
METATRANSCRIPTOMIC
Transcriptio n pro ducts fro m co mmunity targets.
METAGENOMIC
Mixed material fro m metageno me.
SYNTHETIC
Synthetic DNA.
VIRAL RNA
Viral RNA.
OTHER
Other, unspecified, o r unkno wn library so urce material.
Library Selection*
シークエンスに用いたサンプルの選別や濃縮方法。
L ib ra ry S e le ct io n
D e s crip t io n
RANDOM
Rando m shearing o nly.
PCR
So urce material was selected by designed primers.
RANDOM PCR
So urce material was selected by rando mly generated primers.
RT-PCR
So urce material was selected by reverse transcriptio n PCR.
cDNA
co mplementary DNA.
CAGE
Cap-analysis gene expressio n.
RACE
Rapid Amplificatio n o f cDNA Ends.
ChIP
Chro matin immuno precipitatio n.
MNase
Micro co ccal Nuclease (MNase) digestio n.
DNAse
Deo xyribo nuclease (DNase) digestio n.
HMPR
Hypo -methylated partial restrictio n digest.
MF
Methyl Filtrated.
MSLL
Methylatio n Spanning Linking Library.
5-methylcytidine antibo dy
Selectio n o f methylated DNA fragments using an antibo dy raised
against 5-methylcyto sine o r 5-methylcytidine (m5C)MBD2 pro tein
methyl-CpG binding do main : Enrichment by methyl-CpG binding
do main.
MBD2 pro tein methyl-CpG binding do main
MBD2 pro tein methyl-CpG binding do main.
Hybrid Selectio n
Selectio n by hybridizatio n in array o r so lutio n.
Reduced Representatio n
Repro ducible geno mic subsets, o ften generated by restrictio n
fragment size selectio n, co ntaining a manageable number o f lo ci to
facilitate re-sampling.
Restrictio n Digest
DNA fractio natio n using restrictio n enzymes.
size fractio natio n
Physical selectio n o f size appro priate targets.
CF-S
Co t-filtered single/lo w-co py geno mic DNA.
CF-M
Co t-filtered mo derately repetitive geno mic DNA.
CF-H
Co t-filtered highly repetitive geno mic DNA.
CF-T
Co t-filtered theo retical single-co py geno mic DNA.
MDA
multiple displacement amplificatio n.
padlo ck pro bes capture metho d
Padlo ck Pro bes capture strategy to be used in co njuctio n with
Bisulfite-Seq.
o ther
Other library enrichment, screening, o r selectio n pro cess.
unspecified
Library enrichment, screening, o r selectio n is no t specified.
DDBJ Sequence Read Archive Handbook Handbook
7
Library Strategy*
ライブラリーの構築手法。
L ib ra ry S t ra t e g y
D e s crip t io n
WGS
Who le geno me sho tgun.
WGA
Who le geno me amplificatio n.
WCS
Who le chro mo so me (o r o ther replico n) sho tgun.
WXS
Rando m sequencing o f exo nic regio ns selected fro m the geno me.
CLONE
Geno mic clo ne based (hierarchical) sequencing.
CLONEEND
Clo ne end (5', 3', o r bo th) sequencing.
POOLCLONE
Sho tgun o f po o led clo nes (usually BACs and Fo smids).
FINISHING
Sequencing intended to finish (clo se) gaps in existing co verage.
AMPLICON
Sequencing o f o verlapping o r distinct PCR o r RT-PCR pro ducts.
RNA-Seq
Rando m sequencing o f who le transcripto me.
EST
Single pass sequencing o f cDNA templates.
FL-cDNA
Full-length sequencing o f cDNA templates.
CTS
Co ncatenated Tag Sequencing.
miRNA-Seq
Micro RNA and o ther small no n-co ding RNA sequencing.
ChIP-Seq
Direct sequencing o f chro matin immuno precipitates.
MNase-Seq
Direct sequencing fo llo wing MNase digestio n.
DNase-Hypersensitivity
Sequencing o f hypersensitive sites, o r segments o f o pen chro matin that are mo re
readily cleaved by DNaseI.
Bisulfite-Seq
Sequencing fo llo wing treatment o f DNA with bisulfite to co nvert cyto sine residues to
uracil depending o n methylatio n status.
MRE-Seq
Methylatio n-Sensitive Restrictio n Enzyme Sequencing strategy.
MeDIP-Seq
Methylated DNA Immuno precipitatio n Sequencing strategy.
MBD-Seq
Direct sequencing o f methylated fractio ns sequencing strategy.
Tn-Seq
Gene fitness determinatio n thro ugh transpo so n seeding.
Other
Library strategy no t listed.
Library Construction Protocol
ライブラリー構築方法のプロトコール。
Instrument*
シークエンサの機種を選択します。
In s t ru me n t M o d e l
4 54 GS
4 54 GS 20
4 54 GS FLX
4 54 GS FLX+
4 54 GS FLX Titanium
4 54 GS Junio r
unspecified
Illumina Geno me Analyzer
Illumina Geno me Analyzer II
DDBJ Sequence Read Archive Handbook Handbook
8
In s t ru me n t M o d e l
Illumina Geno me Analyzer IIx
Illumina HiSeq 10 0 0
Illumina HiSeq 20 0 0
Illumina HiSeq 250 0
Illumina MiSeq
Illumina HiScanSQ
unspecified
AB SOLiD System
AB SOLiD System 2.0
AB SOLiD System 3.0
AB SOLiD 3 Plus System
AB SOLiD 4 System
AB SOLiD 4 hq System
AB SOLiD PI System
AB 550 0 Genetic Analyzer
AB 550 0 xl Genetic Analyzer
unspecified
Helico s HeliSco pe
unspecified
PacBio RS
PacBio RS
Co mplete Geno mics
Io n To rrent PGM
Io n To rrent Pro to n
Spot Type *
データファイル中のリード構成を選択します。
S p o t T yp e
D e s crip t io n
single
Single read
paired (FF)
Paired reads with same directio n.
paired (FR)
Paired reads with o ppo site directio n.
Nominal Length*
ペアリードのためのインサートのサイズ。
Nominal Sdev
インサートサイズの標準偏差 (典型的には Nominal Leng th の 10% 程度)
Spot Length*
データファイル中のリードの長さを記載します。ペアードの場合は両リード長を合計した数値 (ギャップ長は除きます) を記入しま
す。
Spot leng th が一定の場合,一定の値を記入
リード長が一定ではない 454 プラットフォームの場合,フロー数を記入
不定長の fastq の場合,平均長を記入
BioSample Used*
DDBJ Sequence Read Archive Handbook Handbook
9
Experiment が参照している BioSample を選択します。
Run
Alias
自動的に Run に付けられる名前。アクセッション番号のないメタデータオブジェクトは Alias で参照されます。
Title *
Run の短いタイトル。ユニークなタイトルを付けます。
Experiment Referenced*
Run が属する Experiment を選択します。
Data file s for Run
Run に含めるデータファイルを選択します。
File Name *
シークエンスデータファイル名。
Run/Analysis contains files *
データファイルが属する Run/Analysis を選択します。
File Type *
シークエンスデータのファイル形式。
File T yp e
D e s crip t io n
fastq
fastq files with co nstant read length
generic_fastq
fastq files with variable read length
sff
4 54 Standard Flo wgram Fo rmat file
Illumina_native
Illumina native files o ther than qseq
Illumina_native_qseq
Illumina qseq file
SOLiD_native
SOLiD csfasta and qual files
Helico s_native
A kind o f fastq fo rmat specific to the Helico s platfo rm
bam
Binary SAM fo rmat fo r use by lo aders that co mbine alignment and sequencing data
tab
A tab-delimited table maps "SN in SQ line o f BAM header" and "reference fasta file"
reference_fasta
Reference sequence file in single fasta fo rmat used to co nstruct SRA archive file fo rmat.
Filename must end with ".fa"
MD5 Checksum*
シークエンスデータファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法については補足: MD5 値をご覧ください。
Analysis
Alias
自動的に Analysis に付けられる名前。 Alias はデータベース内部で使用されます。アクセッション番号のないメタデータオブジェ
クトは Alias で参照されます。
Title *
Analysis オブジェクトのタイトル。
Description*
Analysis の内容を記述します。
Analysis Type *
DDBJ Sequence Read Archive Handbook Handbook
10
Analysis の種類を選択します。
An a lys is T yp e
D e s crip t io n
De No vo Assembly
A placement o f sequences including trace, SRA, GI reco rds into a multiple alignment
fro m which a co nsensus is co mputed..
Reference Alignment
A multiple alignment o f sho rt reads against a reference substrate.
Sequence Anno tatio n
Per sequence anno tatio n o f named attributes and values.
Example: Pro cessed sequencing data fo r submissio n to dbEST witho ut assembly.
Reads have already been submitted to o ne o f the sequence read archives in raw
fo rm.
The fasta data submitted under this analysis o bject result fro m the fo llo wing
treatments, which may serve to filter reads fro m the raw dataset:
- sequencing adapter remo val
- lo w quality trimming
- po ly-A tail remo val
- strand o rientatio n
- co ntaminant remo val.
Abundance Measurement
Identify the to o ls and pro cessing steps used to pro duce the abundance
measurements (co verage tracks).
Data file s for Analys is
Analysis に含めるデータファイルを選択します。
File Name *
Analysis file のファイル名。
Run/Analysis contains files *
データファイルが属する Run/Analysis を選択します。
File Type *
シークエンスデータのファイル形式。
File T yp e
D e s crip t io n
bam
Binary fo rm o f the Sequence alignment/map fo rmat fo r read placements, fro m the SAM to o ls pro ject.
See http://so urcefo rge.net/pro jects/samto o ls/.
tab
A tab delimited text file that can be viewed as a spreadsheet. The first line sho uld co ntain co lumn
headers..
ace
Multiple alignment file o utput fro m the phred assembler and similar pro grams.
See http://www.phrap.o rg/co nsed/distributio ns/README.16 .0 .txt fo r a descriptio n o f the ACE file
fo rmat..
fasta
Sequence data fo rmat indicating sequence base calls.The fo rmat is simple: a header line initiated
with the > character, data lines fo llo wing with base calls..
wig
The wiggle (WIG) fo rmat allo ws display o f co ntinuo us-valued data in track fo rmat.This display type is
useful fo r GC percent, pro bability sco res, and transcripto me data.
See http://geno me.ucsc.edu/go ldenPath/help/wiggle.html fo r a descriptio n o f the Wiggle Track
fo rmat..
bed
BED fo rmat pro vides a flexible way to define the data lines that are displayed in an anno tatio n track.
See http://geno me.ucsc.edu/FAQ/FAQfo rmat#fo rmat1 fo r a descriptio n o f the BED fo rmat..
VCF
Variant Call Fo rmat.
See http://www.10 0 0 geno mes.o rg/wiki/analysis/variant%20 call%20 fo rmat/vcf-variant-call-fo rmatversio n-4 1 fo r a descriptio n o f the VCF fo rmat.
MAF
Mutatio n Anno tatio n Fo rmat
GFF
General Feature Fo rmat
DDBJ Sequence Read Archive Handbook Handbook
11
MD5 Checksum*
Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法については補足: MD5 値をご覧ください。
データファイル
アライメントデータやシークエンスデータを登録します。
fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。
プールされたデータはサンプルごとに分割し,シークエンスデータが単一の BioSample に由来するようにして
ください。
データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかに
ディレクトリを作成しないでください。
qseq ファイルそのものを圧縮しないでください。 tar アーカイブした qseq ファイル全体を gzip/bzip2 圧縮し
てください。
BAM や SFF などのバイナリーファイルは圧縮しないでください。
登録するデータファイルの形式について
DRA のメタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応し
ていません。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール
中には無い項目をメタデータに記載する場合」はメタデータを XML ファイルで登録する必要があります。
ファイル形式とメタ データ の 作成方法
1. BAM 形式でのアライメントデータ: 登録ツールでメタデータを作成
2. Technical read (アダプター,プライマーやバーコード配列) を除去した シークエンスデータ: 登録ツールでメタ
データを作成
3. Technical read (アダプター,プライマーやバーコード配列) を含む生データファイル: 登録ツールが未対応なため
XML でメタデータを作成
BAM ファイル
Run にアライメントデータを登録する場合は,「BAM」,「リファレンス配列 fasta」,「SN と リファレンス配列 の対応表」
の3点セットが必要です。
Run ではなく,Analysis に登録する場合は,「SN と リファレンス配列の対応表」は不要です。
1. BAM
アライメントデータを ArchiveBAM フォーマットで登録することができます。 ArchiveBAM フォーマットは
Sequence Alignment/Map (SAM) Format (http://samtools.sourceforge.net/SAM1.pdf) を基にして定義
されています。ArchiveBAM フォーマットは SRA へデータを登録するため,オリジナルの SAM フォーマットに
INSDC がルールと制限を追加したものです。
ArchiveBAM フォーマットの仕様については ArchiveCRAM 1.0 specification をご覧ください。圧縮していない
BAM ファイルをアップロードしてください。
Run の File Type には "bam" を選択します。
2. リ ファレ ンス 配列 fas ta
リファレンス配列を fasta ファイルで登録します。マルチ fasta ではなくシングル fasta 形式にし,拡張子を ".fa" に
します。 Run の File Type には "reference_fasta" を選択します。
3. S N- リ ファレ ンス 配列の 対応表
ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN」と「リファレンス fasta ファイル
DDBJ Sequence Read Archive Handbook Handbook
12
(拡張子 .fa を除いたもの)」との対応関係をタブ区切りで記載します。 Run の File Type には "tab" を選択しま
す。
BAM ファイルヘッダー
@HD VN:1.0 GO:none SO:coordinate @SQ SN:chr1 LN:249250621 @SQ SN:chr2 LN:243199373 @SQ SN:chr3 LN:198022430 ...
SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル ref1.fa が対応。
chr1 ref1 chr2 ref2 chr3 ref3 ...
fastq
リード長が揃っている fastq ファイル: Run の file type で fastq を選択
リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択
Quality value は phred 形式にしてください。ファイルは tar でまとめないでください。データ転送に時間がかかる場
合には,必要に応じて fastq ファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。
454
454 からのシークエンスデータは sff ファイル か fastq ファイルで登録します。
sff ファイル中のリード名は,プレート内の位置情報とユニークな run id を反映した情報を含んでいるので,sff ファイ
ルを書き変えないでください。
sffファイル形式はすでに最適化されており,ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを
送付してください。
sff ファイルに2つ以上のサンプルに由来するデータが含まれている場合は,sff から生成した fastq ファイルをサンプ
ルごとに分割して登録してください。
Data Series Number of Channels Description
.sff
1
Flowg ram (base call, phattention_text quality score, flow value)
Illumina Genome Analyzer
Illumina Native Data
Illumina pipeline v1.4 以降
ファイル名を変更せずに qseq ファイルを Run の Data Block ごとに tar でまとめたものを登録します。 ペアードの
データファイルが Data Block ごとの tar ファイルに含まれている場合,ペアはリード名から自動判定されます。
データ転送に時間がかかる場合には,必要に応じて tar アーカイブファイル全体を gzip (.gz) もしくは bzip2 (.bz2)
で圧縮してください。qseq ファイルそのものは圧縮しないでください。
Data Series Number of Channels Description
_qseq.txt
1
Base calls and quality scores per read
SOLiD
S O LiD Native Format
それぞれのランからの csfasta と QV.qual ファイルを登録します。fastq ファイルは受け付けていません。ペアードデー
タの場合には,ペアのファイル (F3 と R3) を登録します。 ファイルは tar でまとめないでください。データ転送に時間が
かかる場合には,必要に応じてデータファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。
Data Series Number of Channels Description
.csfasta
1
Base calls per read in color space
_QV.qual
1
Color space quality scores
DDBJ Sequence Read Archive Handbook Handbook
13
Ion Torrent
sff ファイルもしくは fastq ファイルを登録します。
Helicos Heliscope
sms ファイル(helicos_native 形式)もしくは quality value をすべて "14" として作成した fastq ファイルを登録しま
す。
Complete Genomics
fastq ファイルを登録します。
Pacific Biosciences
fastq ファイルを登録します。
DRA へのデータ登録
ヒ トを対象とした研究データ の 登録について
ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシー
は,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている
必要があります。
原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。
次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。
解析後の配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が,次世代シークエンサから
生み出されるゲノムや大量データの登録受付先になります。
特許に関連す る データ の 登録
登録するデータが特許に関連する場合は,「特許に関連する塩基配列の登録に関する注意,データの優先権」の
内容を必ずご確認ください。
DRA 登録の流れ
1. 登録アカウントを作成
D-way 登録アカウントを作成
公開鍵と center name をアカウントに登録し,DRA 登録を可能に
2. プロジェクトとサンプル情報を登録
BioProject
研究プロジェクトの内容
「なぜ」そのサンプルをシークエンスしたのか
BioSample
生物学的,物理的にユニークなサンプル
DDBJ Sequence Read Archive Handbook Handbook
14
「何を」シークエンスしたのか
メタデータをタブ区切りテキストファイルで登録できます
3. DRA 登録を作成しデータファイルをアップロード
新規 DRA 登録を作成
Experiment と Run を投稿する前にデータファイルを scp でアップロード
4. シークエンシングの技術的な情報を提供
DRA Experiment
特定のサンプルから構築したライブラリーについての説明
「どのように」シークエンスをしたのか
複数の Experiment は一つの Sample を参照できるが,逆はできない
DRA Run
Experiment と Run を投稿した後,データファイルの validation を開始
Run にリンクしている全てのデータファイルは1つのデータセットにまとめられる
ファイルは SRA ファイル形式に変換される
DRA へのデータ登録方法
新規 DRA 登録の作成
D-way (https://trace.ddbj.nig.ac.jp/D-way) にログインします。 上部の DRA メニューから DRA のデータ登録一
覧ページへ進みます。
メタデータオブジェクトの構成例はこちらをご覧ください。
[Create new Submission(s)] をクリックし,新規登録を作成します。
同時に,データ受付サーバ (dradata.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファ
イルはこのディレクトリにアップロードします。
なお,登録のステータスには以下のものがあります。 "submission_validated" と "data_error" になった登録
は,DRA スタッフが査定します。
DRA 登録のステータス一覧
ステータス
状態
New
メタデータの投稿前
DDBJ Sequence Read Archive Handbook Handbook
15
ステータス
状態
metadata_submitted
メタデータが投稿された
data_validating
データファイルの Validation 中
data_error
データファイルの Validation エラー
submission_validated メタデータとデータファイルの Validation が完了
completed
アクセッション番号が発行された
confidential
非公開
Public
公開
シークエンスデータのアップロード
メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。
タ ーミナ ルによ る シークエンス データ の 転送 (Linux/ Mac O S X)
ファイルを SCP 転送します。
$ scp <Your Files> <D-way Login ID>@dradata.ddbj.nig.ac.jp:~/<Submission ID>
<Your Files> 転送するファイル。例: file1 file2 (file1とfile2),file* (fileではじまる全てのファイル)
<D-way Login ID> D-way の Login ID (例: drauser)
<Submission ID> 登録の Submission ID (例: drauser-0003)
鍵を作成したときに指定したパスフレーズを入力します。
Enter passphrase for key '/home/you/.ssh/id_rsa':
サーバにログインし,直接ファイルを操作することができます。サーバに SSH でログインします。
$ ssh <D-way Login ID>@dradata.ddbj.nig.ac.jp
鍵を作成したときに指定したパスフレーズを入力します。
Enter passphrase for key '/home/you/.ssh/id_rsa':
ログインに成功すると,次のコマンドプロンプトが表示されます。
[[email protected] ~]$
サーバのログイン環境は,登録者専用のプライベート環境になっていて,登録者以外はアクセスすることができません。
実行できるコマンドは下記のものに制限されています。
ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip
WinS CP によ る シークエンス データ の 転送 (Window s )
WinSCP (http://winscp.net/eng/download.php) をインストールし,起動します。
以下のように設定した後, 右中央にある [Advanced...] をクリックします。
DDBJ Sequence Read Archive Handbook Handbook
16
File protocol: SFTP
Hos t name : dradata.ddbj.nig.ac.jp
Port numbe r: 22
Us e r name : (D-way の Login ID を入力)
Pas s w ord: (空欄のまま)
"Authentication" にある "Private key file" で,事前に作成した秘密鍵を選択します。
最後に,下中央にある [Login] をクリックします。
初回接続時には警告メッセージが表示されますが,“はい” を選択してください (次回から表示されません)。次の画面
では,鍵を作成した際に指定したパスフレーズを入力します。
ログインに成功すると,左側のウィンドウにユーザの PC のフォルダ,右側のウィンドウにデータ受付サーバの登録者専
用ディレクトリが表示されます。 左側ウィンドウでファイルを選択し右側ウィンドウへ “ドラッグ&ドロップ” し,サーバへ
ファイルを転送します。
DDBJ Sequence Read Archive Handbook Handbook
17
転送したファイルは,ファイルを選択し [削除] ボタンをクリックすることで削除できます。
Cybe rduck によ る シークエンス データ の 転送 (Mac O S X)
Cyberduck (http://cyberduck.ch) をインストールし,起動します。
トップ画面で “Open Connection” を選択します。
使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。
Cyberduck の起動画面で,以下のように設定し More Options の “Use Public Key Authentication” をチェック
します。
S e rve r: dradata.ddbj.nig.ac.jp
Port: 22
Us e rname : (D-wayのLogin IDを入力)
Pas s w ord: (空欄のまま)
Add to Ke ychain: (チェックを入れる)
DDBJ Sequence Read Archive Handbook Handbook
18
秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) >
id_rsa” に保存されています。
初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。
ログインに成功すると,データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選
択しウィンドウに “ドラッグ&ドロップ” することで,ファイルをサーバに転送します。
dradata.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。 実行できるコマンドは下記
のものに制限されています。
ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip
DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を
超えるような場合は DRA サーバを利用することができます。 MSS チームに連絡した後,ファイルを
/submission/[submitter ID]/mass にアップロードします。
メタデータ作成ツールでのメタデータ作成
DDBJ Sequence Read Archive Handbook Handbook
19
作成した新規登録をクリックし,登録詳細ページへ移動します。
登録詳細ページ中の [Submit/Update Metadata] をクリックし,メタデータ作成ツールを起動します。
メタデータは Submission,Study (=BioProject),Sample (=BioSample),Experiment,Run,Analysis (任意) オブ
ジェクトで構成されています。 メタデータ作成ツールの画面上で,Submission > Study > Sample >Experiment >
Run > (Analysis) の順に,各項目に内容を英語で入力します。 必須項目は赤色のアスタリスク記号 (*) で示されて
います。
画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが
表示された場合は内容を修正してください。
データを失わないためにも,こまめに [Save] で入力内容を保存してください。
S ubmis s ion
公開予定日を2年以内に設定します。 Submitter には実作業者と責任者を含む複数人を指定してください。
Submitter 情報は一般に公開されません。
S tudy (=BioProje ct)
自身のアカウントで作成した BioProject 一覧から,該当する BioProject ID を1つ選択します。 複数の BioProject
を登録することは出来ません。 自身のアカウント以外で取得された BioProject を使用したい場合は DRA チームに連
絡してください。
複数の BioProject を使用するときは,必要な数分の DRA 新規登録を作成します。
DDBJ Sequence Read Archive Handbook Handbook
20
S ample (=BioS ample )
自身のアカウントで作成した BioSample 一覧から,該当する BioSample ID を全て選択します。Ctrl キーを押しなが
らクリックすると,複数の BioSample ID を選択することができます。 自身のアカウント以外で取得された BioSample
を使用したい場合は DRA チームに連絡してください。
Expe rime nt
Metadata に必要数の Experiment を入力します。Paired データの場合は,それぞれのリードを結合した座標におけ
る開始塩基位置を指定します。
[Add new Experiment(s)] をクリックすると Experiment が1つ追加されます。
[Copy Experiment #1] をクリックすると,一行目の Experiment をコピーすることができます。
[Add new Experiment(s)] 右横のボックスに必要数を記入してから [Add new Experiment(s)] ボタンをクリックする
と,指定された数分の Experiment が追加されます。
不要な Experiment は [Delete] ボタンで削除することができます。
[Download TSV file] ボタンをクリックすると, Experiment を,タブ区切りテキストファイルとしてダウンロード
し,Excel© などの表計算ソフトでメタデータを作成することができます。 Excel などで作成した内容をタブ区切りテキ
ストファイルとして保存し,[Upload TSV file] からアップロードします。
TSVファイルをダウンロードする前に,ウェブ上で必要数の Experiment を作成し,Save しておきます。
DDBJ Sequence Read Archive Handbook Handbook
21
Run
必要な数の Run を作成後,それぞれの Run について,対応する Experiment を選択します。不要な Run は
[Delete] ボタンで削除します。
[Select data files for Run] ボタンをクリックし,データファイル選択画面に移動します。 アップロードされているシーク
エンスデータファイルが表示されるので,それぞれの Run に含まれるデータファイルを選択し,属性を記入します。
ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。
"MD5 Checksum" の項目に必要なMD5値は,[補足: MD5 値] を参考にして取得することが出来ます。
[Download TSV file] ボタンをクリックすると Run をタブ区切りテキストファイルとしてダウンロードし,Excel© などの
表計算ソフトでメタデータを作成することができます。 Excel などで作成した内容をタブ区切りテキストファイルとして保
存し,[Upload TSV file] からアップロードします。
テキストファイルをダウンロードする前に,ウェブ上で必要数の Run を作成し, Save しておきます。
Analysis (任意) が不要な場合は [Submit] をクリックし,入力を完了します。
Analys is (任意)
必要な数の Analysis を作成後,それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボ
タンで削除することができます。
DDBJ Sequence Read Archive Handbook Handbook
22
[Select data files for Analysis] ボタンをクリックし,それぞれの Analysis に含まれるデータファイルについて詳細を
入力します。
"MD5 Checksum" の項目に必要なMD5値は,[補足: MD5 値] を参考にして取得することが出来ます。
[Submit] をクリックして,入力を完了します。
補足: technical reads を登録する場合
XML での メタ データ 作成方法
メタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応していませ
ん。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール中には無
い項目をメタデータに記載する場合」は メタデータを XML ファイルで登録します。
1. メタデータ作成ツールでメタデータを作成し,投稿します。
2. metadata_submitted になった登録の Submission,Experiment,Run,Analysis (任意) を XML ファイルとして
ダウンロードします。
3. XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にして
ください。 その他の項目については,SRA XML schema (NCBI) 中の説明や DRASearch での実際の XML ファ
イルをご参照ください。
4. 編集した XML をアップロードします。Submission,Experiment,Run,Analysis (任意) の XML ファイルを選択
し,同時にアップロードします。
アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エ
ラーは発生した場合はファイルを修正してください。
データファイルの Validation
転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの
整合性が検証されます。
DDBJ Sequence Read Archive Handbook Handbook
23
“Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップ
ロードされたファイル名と MD5 値」が一覧表示されます。
登録詳細画面中の [Validate data files] をクリックし,シークエンスデータファイルの validation を開始します。
Validation は以下の順番で実行され,いずれかのステップでエラーが起きると,ステータスが "data_error" になりま
す。 [Stop validation] をクリックして Validation を停止してから,メタデータの編集やファイルの再アップロードを行っ
てください。
FAQ: データファイルの validation エラーへの対処方法は?
MD5 Che ck
メタデータに記載されている MD5 値と,実際のファイルの MD5 値とが一致するかチェックされ,一致しない場合はエ
ラーが表示されます。 エラーの場合は [Submit/Update Metadata] からメタデータを修正するか,ファイルを再アップ
ロードしてください。
Data Che ck
シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマッ
トとメタデータとの整合性が検証されます。 作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop
validation] をクリックして Validation 処理を停止した後,メタデータを修正,もしくは,データファイルを再アップロードし
ます。 ファイルサイズが大きい場合は Validation に時間がかかります。
問題が無ければ登録のステータスが "submission_validated" になり,validate されたファイルが別ディレクトリに移
されます。
登録のステータスが "submission_validated" もしくは "data_error" になると DRA スタッフが査定を始めます。
DRA スタッフ から指示があるまで D-way を操作せずにお待ちください。
アクセッション番号の受領
メタデータとシークエンスデータに問題がなければ,プレフィックス DR (Submission (DRA),Experiment (DRX),Run
(DRR),Analysis (DRZ)) のアクセッション番号が発行され,ステータスが “completed” になります。アクセッション番
号は “Component” に表示されます。
また,Submitter には,定型メールにて,アクセッション番号が通知されます。
データ公開
登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり,即日公開が指定されてい
る場合以外は,以下の理由でデータが公開されるまで非公開で保持されます。
DDBJ Sequence Read Archive Handbook Handbook
24
DRA では以下の場合にデータを公開しています。
A. 登録者から公開依頼の連絡を受けた場合
B. 登録者がアクセッション番号を公表した事を確認した場合。
登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しま
せん。
公表とは,アクセッション番号を不特定多数の対象に知らせる行為 (学術論文,学会,インターネット,報道機関
などを媒体とした発表) を指します。
C. 公開予定日が到来した場合
D. DRA Run (DRR) アクセッション番号が引用されている DDBJ/EMBL-Bank/GenBank レコード (TSA,WGS,
CON など) が公開された場合
B, C または D の場合は登録者の了解がなくても例外なく公開します。
FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは?
データが公開されると,数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。
DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist
オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を
分けて登録してください。
登録の更新
公開予定日の変更
公開予定日は最長で2年後まで指定でき,繰り返し更新することができます。Hold Date の [Change] をクリックし,公
開予定日変更ページに移動し,予定日を変更します。
データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され,ftp に
データファイルが公開され,数日以内に DRA 検索システムにインデックスされます。
メタデータの更新
[Submit/Update Metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完
了後,メタデータ作成ツールの [Submit] ボタンをクリックし,更新内容を DRA データベースに反映させます。
関連する文献が公表された場合は pubmed ID を BioProject に追加します。
データファイルの追加
DRA では登録が完了した Run オブジェクトに直接データを追加することはできません。別の Submission で新しく
Experiment-Run オブジェクトを追加し,既存の BioProject や BioSample を参照することでデータを追加します。
D-way にログインし,[Create new Submission(s)] をクリックし,新規 DRA 登録を作成します。 作成した新規登録
でデータを追加する対象の BioProject と BioSample を選択します。
新たにサンプルを追加する場合は BioProject を共有し,新規登録で BioSample - Experiment - Run を追加し
ます。
既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し,新規登録で Experiment - Run
を追加します。
続いて DRA Experiment と Run タブで,Experiment,Run オブジェクトとデータファイルを追加します。
DDBJ Sequence Read Archive Handbook Handbook
25
メタデータを submit し,validation を実行します。追加された Experiment/Run オブジェクトに対してアクセッション
番号が発行されます。
追加したデータに対応する BioProject 番号は同一ですが,Submission に対する DRA 番号は異なります。
DDBJ Sequence Read Archive Handbook Handbook
26
既存の登録が完了した DRA 登録にデータファイルを追加する場合は DRA チームに連絡してください。
データの削除
DRA チームに連絡してください。
補足: MD5 値
MD5 (Message Digest Algorithm 5) はハッシュ関数であり,与えられたファイルに対してハッシュ値 (MD5値,32桁
の英数字) を出力します。ファイルが破損していると MD5 値が変化します。 DRA では,到着したファイルの MD5 値の
一致をチェックすることで,ファイルの破損がないかどうか確認しています。
MD5 値の取得 (Linux)
ファイルの MD5 値を取得します。
$ md5sum file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2
MD5 値の取得 (Mac OS X)
ファイルの MD5 値を取得します。
$ md5 file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2
MD5 値の取得 (Windows)
Fsum Frontend (http://fsumfe.sourceforge.net/) をインストールし,起動します。
まず, "md5" にチェックを入れてください。
DDBJ Sequence Read Archive Handbook Handbook
27
[+] ボタンをクリックし,必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可
能です。
最後に,[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンか
ら,MD5 値の一覧表 (.html, .csv, .xml) を作成することができます。
免責事項
ソフトウェアの入手と利用は利用者の責任において行って下さい。 ソフトウェアの利用や誤った使用によって発生した損
失や損害に対して DDBJ は一切の責任を負いません。
DDBJ Sequence Read Archive Handbook Handbook