私は> 1000gbff.gzのゲノムファイルを持っており、それぞれからメタデータを抽出し、別々の列にメタデータエントリがあります。ゲノムのgbffファイルからメタデータを抽出
答えて
Bioinformatics Toolboxのgenbankread
をMatlabで使用できます。あなたが望むものを実現する方法の例を次に示します。
results = [];
% unzip data
gunzip('*.gbff.gz');
% process each file
files = dir('*.gbff');
for file = {files.name}
data = genbankread(char(file));
% process each file entry
for i = 1:size(data, 2)
LocusName = '';
Definition = '';
Organism = '';
GenesTotal = NaN;
GenesCoding = NaN;
RRNAs = '';
TRNAs = NaN;
IsolationSource = '';
Country = '';
% copy fields
if isfield(data(i), 'LocusName')
LocusName = data(i).LocusName;
end
if isfield(data(i), 'Definition')
Definition = data(i).Definition;
end
if isfield(data(i), 'Source')
Organism = data(i).Source;
end
% parse comments
if isfield(data(i), 'Comment')
for j = 1:size(data(i).Comment, 1)
tokens = regexp(data(i).Comment(j, :), ...
'^\s*([^\s].*[^\s])\s*::\s*([^\s].*[^\s])\s*$', 'tokens');
if ~isempty(tokens)
switch tokens{1}{1}
case 'Genes (total)'
GenesTotal = str2double(tokens{1}{2});
case 'Genes (coding)'
GenesCoding = str2double(tokens{1}{2});
case 'rRNAs'
RRNAs = tokens{1}{2};
case 'tRNAs'
TRNAs = str2double(tokens{1}{2});
end
end
end
end
% parse features
if isfield(data(i), 'Features')
Feature = '';
for j = 1:size(data(i).Features, 1)
tokens = regexp(data(i).Features(j, :), '^(\w+)', 'tokens');
if isempty(tokens)
tokens = regexp(data(i).Features(j, :), ...
'^\s+/(\w+)="([^"]+)"', 'tokens');
if ~isempty(tokens)
switch Feature
case 'source'
switch tokens{1}{1}
case 'isolation_source'
IsolationSource = tokens{1}{2};
case 'country'
Country = tokens{1}{2};
end
end
end
else
Feature = tokens{1}{1};
end
end
end
% append entries to results
results = [results; struct(...
'File', char(file), 'LocusName', LocusName, 'Definition', Definition, ...
'Organism', Organism, 'GenesTotal', GenesTotal, ...
'GenesCoding', GenesCoding, 'RRNAs', RRNAs, 'TRNAs', TRNAs, ...
'IsolationSource', IsolationSource, 'Country', Country)];
end
end
% data is in variable results
恐ろしい、ありがとう! – user2861089
'/ isolation_source =" Human "'と '/ country =" Switzerland "'のような変数を結果に追加しようとしましたが、エラーが出ます。フロント?とにかく、他のすべてがうまくいく。ありがとう。 – user2861089
@ user2861089シンプルな解析とフィーチャブロックの抽出を含むようにコードを更新しました –
- 1. scikit-bioはgff3ファイルのゲノム特徴を抽出する
- 2. iOS上のmovファイルからメタデータを抽出する
- 3. WordおよびExcelファイルからメタデータを抽出しますか?
- 4. AFPファイルからメタデータを抽出する方法は?
- 5. jpg画像からJava抽出exif(メタデータ)
- 6. Pythonのmp4メタデータ抽出
- 7. Python DjangoのFileオブジェクトからメタデータを抽出する方法
- 8. marklogicのバイナリドキュメントからメタデータを抽出する
- 9. 一部のアイスキャストストリームからメタデータを抽出できません。
- 10. Androidのビデオファイルからメタデータを抽出する
- 11. excelファイルからメタデータを抽出し、wordfinderにアップロードしています。5.0d
- 12. mp3からメタデータを抽出するには?
- 13. ウェブサイトからメタデータを抽出するASP.NET MVC3
- 14. ワード文書から原点プロパティ(メタデータ)を抽出するR
- 15. Python Beautiful Soup HTMLメタデータを抽出する
- 16. .dwgメタデータの抽出、編集、保存
- 17. PHPを使用したPDFからのコメントやブックマークなどのメタデータの抽出
- 18. Global.ascxファイルからの情報の抽出
- 19. パスからのファイル名の抽出MYSQL
- 20. .flaファイルからのアクションスクリプトの抽出
- 21. 複数のファイルからパターンの抽出
- 22. ファイルから単語を抽出する
- 23. ファイルからビットマップを抽出する
- 24. SWFファイルからビデオを抽出する
- 25. SFSファイルからリソースを抽出する
- 26. mp4ファイルからローテーションメタデータを抽出する
- 27. .apkファイルからアプリケーションコードを抽出する
- 28. XMLファイルからテキストを抽出する
- 29. PDFファイルからテキストを抽出する
- 30. WYSIWYGからdocファイルを抽出
プログラミング言語は? – bfontaine
可能であれば、matlabまたはRが好きですか? – user2861089