File EnsemblSeqProxy.java

Branches:

Statements:

213

Methods:

Classes:

LOC:

926

NCLOC:

527

Total complexity:

Complexity density:

0.4

Statements/Method:

7.89

Methods/Class:

13.5

Average method complexity:

3.15

Classes

Class	Line #	Total Statements	Complexity	Uncovered Elements	TOTAL Coverage	Actions
EnsemblSeqProxy	59	211	83	248	0.2439024424.4%
EnsemblSeqProxy.EnsemblSeqType	68	2	2	4	0.00%

Class EnsemblSeqProxy

Class EnsemblSeqProxy	Line # 59	Total Statements 211	Complexity 83	Uncovered Elements 248	TOTAL Coverage 0.2439024424.4%
EnsemblSeqProxy() EnsemblSeqProxy()	111111	1.01	1.01	0.00	1.0 1.0100%
EnsemblSeqProxy(String) EnsemblSeqProxy(String)	119119	1.01	1.01	1.01	0.0 0.00%
getSequenceRecords(String) : AlignmentI getSequenceRecords(String) : AlignmentI	128128	21.021	4.04	25.025	0.0 0.00%
addFeaturesAndProduct(String,AlignmentI) : void addFeaturesAndProduct(String,AlignmentI) : void	195195	14.014	7.07	22.022	0.0 0.00%
addProteinProduct(SequenceI) : void addProteinProduct(SequenceI) : void	254254	33.033	9.09	45.045	0.0 0.00%
getCrossReferences(SequenceI) : void getCrossReferences(SequenceI) : void	347347	8.08	2.02	10.010	0.0 0.00%
fetchSequences(List<String>,AlignmentI) : AlignmentI fetchSequences(List<String>,AlignmentI) : AlignmentI	380380	26.026	12.012	44.044	0.0 0.00%
getUrl(List<String>) : URL getUrl(List<String>) : URL	452452	11.011	3.03	15.015	0.0 0.00%
getObjectType() : String getObjectType() : String	485485	1.01	1.01	1.01	0.0 0.00%
getMaximumQueryCount() : int getMaximumQueryCount() : int	495495	1.01	1.01	1.01	0.0 0.00%
useGetRequest() : boolean useGetRequest() : boolean	501501	1.01	1.01	1.01	0.0 0.00%
getRequestMimeType(boolean) : String getRequestMimeType(boolean) : String	507507	1.01	2.02	3.03	0.0 0.00%
getResponseMimeType() : String getResponseMimeType() : String	513513	1.01	1.01	1.01	0.0 0.00%
getGenomicRangesFromFeatures(SequenceI,String,int) : MapList getGenomicRangesFromFeatures(SequenceI,String,int) : MapList	551551	28.028	10.010	6.06	0.8636364 0.863636486.4%
isSpliceable() : boolean isSpliceable() : boolean	640640	1.01	1.01	0.00	1.0 1.0100%
transferFeature(SequenceFeature,SequenceI,MapList,boolean) : void transferFeature(SequenceFeature,SequenceI,MapList,boolean) : void	670670	13.013	5.05	19.019	0.0 0.00%
reverseComplementAlleles(SequenceFeature) : void reverseComplementAlleles(SequenceFeature) : void	708708	13.013	3.03	3.03	0.8235294 0.823529482.4%
reverseComplementAllele(StringBuilder,String) : void reverseComplementAllele(StringBuilder,String) : void	744744	6.06	4.04	0.00	1.0 1.0100%
transferFeatures(String,SequenceI,SequenceI) : boolean transferFeatures(String,SequenceI,SequenceI) : boolean	778778	8.08	4.04	12.012	0.0 0.00%
transferFeatures(List<SequenceFeature>,SequenceI,MapList,String) : boolean transferFeatures(List<SequenceFeature>,SequenceI,MapList,String) : boolean	816816	8.08	2.02	10.010	0.0 0.00%
retainFeature(SequenceFeature,String) : boolean retainFeature(SequenceFeature,String) : boolean	846846	1.01	1.01	1.01	0.0 0.00%
featureMayBelong(SequenceFeature,String) : boolean featureMayBelong(SequenceFeature,String) : boolean	861861	4.04	3.03	0.00	1.0 1.0100%
getDescription() : String getDescription() : String	874874	1.01	1.01	1.01	0.0 0.00%
findFeatures(SequenceI,String,String) : List<SequenceFeature> findFeatures(SequenceI,String,String) : List<SequenceFeature>	891891	7.07	3.03	9.09	0.0 0.00%
isTranscript(String) : boolean isTranscript(String) : boolean	920920	1.01	1.01	0.00	1.0 1.0100%

Class EnsemblSeqProxy.EnsemblSeqType

Class EnsemblSeqProxy.EnsemblSeqType	Line # 68	Total Statements 2	Complexity 2	Uncovered Elements 4	TOTAL Coverage 0.00%
EnsemblSeqType(String) EnsemblSeqType(String)	9696	1.01	1.01	1.01	0.0 0.00%
getType() : String getType() : String	101101	1.01	1.01	1.01	0.0 0.00%

Contributing tests

This file is covered by 27 tests. .

Contributing tests

Test contribution	Test	Result
0.111445785	jalview.ext.ensembl.EnsemblGenomeTest.testGetGenomicRangesFromFeaturesjalview.ext.ensembl.EnsemblGenomeTest.testGetGenomicRangesFromFeatures	1PASS
0.105421685	jalview.ext.ensembl.EnsemblCdnaTest.testGetGenomicRangesFromFeatures_reverseStrandjalview.ext.ensembl.EnsemblCdnaTest.testGetGenomicRangesFromFeatures_reverseStrand	1PASS
0.105421685	jalview.ext.ensembl.EnsemblCdsTest.testGetGenomicRangesFromFeaturesjalview.ext.ensembl.EnsemblCdsTest.testGetGenomicRangesFromFeatures	1PASS
0.105421685	jalview.ext.ensembl.EnsemblCdnaTest.testGetGenomicRangesFromFeaturesjalview.ext.ensembl.EnsemblCdnaTest.testGetGenomicRangesFromFeatures	1PASS
0.09939759	jalview.ext.ensembl.EnsemblGeneTest.testGetGenomicRangesFromFeatures_ncRNA_gene_reverseStrandjalview.ext.ensembl.EnsemblGeneTest.testGetGenomicRangesFromFeatures_ncRNA_gene_reverseStrand	1PASS
0.09939759	jalview.ext.ensembl.EnsemblGeneTest.testGetGenomicRangesFromFeaturesjalview.ext.ensembl.EnsemblGeneTest.testGetGenomicRangesFromFeatures	1PASS
0.09337349	jalview.ext.ensembl.EnsemblCdnaTest.testGetGenomicRangesFromFeatures_mixedStrandjalview.ext.ensembl.EnsemblCdnaTest.testGetGenomicRangesFromFeatures_mixedStrand	1PASS
0.084337346	jalview.ext.ensembl.EnsemblSeqProxyTest.testReverseComplementAllelesjalview.ext.ensembl.EnsemblSeqProxyTest.testReverseComplementAlleles	1PASS
0.039156627	jalview.ext.ensembl.EnsemblSeqProxyTest.testReverseComplementAllelejalview.ext.ensembl.EnsemblSeqProxyTest.testReverseComplementAllele	1PASS
0.03313253	jalview.ext.ensembl.EnsemblGenomeTest.testRetainFeaturejalview.ext.ensembl.EnsemblGenomeTest.testRetainFeature	1PASS
0.03313253	jalview.ext.ensembl.EnsemblCdnaTest.testRetainFeaturejalview.ext.ensembl.EnsemblCdnaTest.testRetainFeature	1PASS
0.027108435	jalview.ext.ensembl.EnsemblCdsTest.testRetainFeaturejalview.ext.ensembl.EnsemblCdsTest.testRetainFeature	1PASS
0.012048192	jalview.ext.ensembl.EnsemblGeneTest.testRetainFeaturejalview.ext.ensembl.EnsemblGeneTest.testRetainFeature	1PASS
0.012048192	jalview.ext.ensembl.EnsemblGenomeTest.testIdentifiesSequencejalview.ext.ensembl.EnsemblGenomeTest.testIdentifiesSequence	1PASS
0.006024096	jalview.ext.ensembl.EnsemblCdnaTest.testIdentifiesSequencejalview.ext.ensembl.EnsemblCdnaTest.testIdentifiesSequence	1PASS
0.006024096	jalview.ext.ensembl.EnsemblCdsTest.testIsValidReferencejalview.ext.ensembl.EnsemblCdsTest.testIsValidReference	1PASS
0.006024096	jalview.ext.ensembl.EnsemblCdnaTest.testIsValidReferencejalview.ext.ensembl.EnsemblCdnaTest.testIsValidReference	1PASS
0.006024096	jalview.analysis.CrossRefTest.testFindXrefSequences_uniprotEmblManyToManyjalview.analysis.CrossRefTest.testFindXrefSequences_uniprotEmblManyToMany	3FAIL
0.006024096	jalview.ws.seqfetcher.DbRefFetcherTest.testStandardProtDbsjalview.ws.seqfetcher.DbRefFetcherTest.testStandardProtDbs	1PASS
0.006024096	jalview.analysis.CrossRefTest.testFindXrefSequences_withFetchjalview.analysis.CrossRefTest.testFindXrefSequences_withFetch	3FAIL
0.006024096	jalview.ext.ensembl.EnsemblProteinTest.testGetAccesionIdFromQueryjalview.ext.ensembl.EnsemblProteinTest.testGetAccesionIdFromQuery	1PASS
0.006024096	jalview.ext.ensembl.EnsemblCdsTest.testIdentifiesSequencejalview.ext.ensembl.EnsemblCdsTest.testIdentifiesSequence	1PASS
0.006024096	jalview.analysis.CrossRefTest.testFindXrefSequences_forGeneAndTranscriptsjalview.analysis.CrossRefTest.testFindXrefSequences_forGeneAndTranscripts	3FAIL
0.006024096	jalview.ext.ensembl.EnsemblGeneTest.testGetFeatureColourSchemejalview.ext.ensembl.EnsemblGeneTest.testGetFeatureColourScheme	1PASS
0.006024096	jalview.ext.ensembl.EnsemblGeneTest.testIdentifiesSequencejalview.ext.ensembl.EnsemblGeneTest.testIdentifiesSequence	1PASS
0.006024096	jalview.ext.ensembl.EnsemblProteinTest.testIsValidReferencejalview.ext.ensembl.EnsemblProteinTest.testIsValidReference	1PASS
0.006024096	jalview.ext.ensembl.EnsemblGeneTest.testGetTranscriptFeaturesjalview.ext.ensembl.EnsemblGeneTest.testGetTranscriptFeatures	1PASS

Source view

* Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)

* Copyright (C) $$Year-Rel$$ The Jalview Authors

* This file is part of Jalview.

* Jalview is free software: you can redistribute it and/or

* modify it under the terms of the GNU General Public License

* as published by the Free Software Foundation, either version 3

* of the License, or (at your option) any later version.

* Jalview is distributed in the hope that it will be useful, but

* WITHOUT ANY WARRANTY; without even the implied warranty

* of MERCHANTABILITY or FITNESS FOR A PARTICULAR

* PURPOSE. See the GNU General Public License for more details.

* You should have received a copy of the GNU General Public License

* along with Jalview. If not, see <http://www.gnu.org/licenses/>.

* The Jalview Authors are detailed in the 'AUTHORS' file.

package jalview.ext.ensembl;

import jalview.analysis.AlignmentUtils;

import jalview.analysis.Dna;

import jalview.bin.Cache;

import jalview.datamodel.Alignment;

import jalview.datamodel.AlignmentI;

import jalview.datamodel.DBRefEntry;

import jalview.datamodel.DBRefSource;

import jalview.datamodel.Mapping;

import jalview.datamodel.SequenceFeature;

import jalview.datamodel.SequenceI;

import jalview.datamodel.features.SequenceFeatures;

import jalview.exceptions.JalviewException;

import jalview.io.FastaFile;

import jalview.io.FileParse;

import jalview.io.gff.Gff3Helper;

import jalview.io.gff.SequenceOntologyFactory;

import jalview.io.gff.SequenceOntologyI;

import jalview.util.Comparison;

import jalview.util.DBRefUtils;

import jalview.util.IntRangeComparator;

import jalview.util.MapList;

import java.io.IOException;

import java.net.MalformedURLException;

import java.net.URL;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.Collections;

import java.util.List;

/**

* Base class for Ensembl sequence fetchers

* @see http://rest.ensembl.org/documentation/info/sequence_id

* @author gmcarstairs

public abstract class EnsemblSeqProxy extends EnsemblRestClient

{

protected static final String NAME = "Name";

protected static final String DESCRIPTION = "description";

* enum for 'type' parameter to the /sequence REST service

public enum EnsemblSeqType

{

/**

* type=genomic to fetch full dna including introns

GENOMIC("genomic"),

/**

* type=cdna to fetch coding dna including UTRs

CDNA("cdna"),

/**

* type=cds to fetch coding dna excluding UTRs

CDS("cds"),

/**

* type=protein to fetch peptide product sequence

PROTEIN("protein");

* the value of the 'type' parameter to fetch this version of

* an Ensembl sequence

private String type;

EnsemblSeqType(String t)

{

type = t;

}

100

101

public String getType()

{

return type;

}

}

/**

* Default constructor (to use rest.ensembl.org)

110

111

public EnsemblSeqProxy()

{

super();

}

/**

* Constructor given the target domain to fetch data from

118

119

public EnsemblSeqProxy(String d)

{

super(d);

}

/**

* Makes the sequence queries to Ensembl's REST service and returns an

126

* alignment consisting of the returned sequences.

127

128

@Override

129

public AlignmentI getSequenceRecords(String query) throws Exception

130

{

131

// TODO use a String... query vararg instead?

132

133

// danger: accession separator used as a regex here, a string elsewhere

134

// in this case it is ok (it is just a space), but (e.g.) '\' would not be

135

List<String> allIds = Arrays

136

.asList(query.split(getAccessionSeparator()));

137

AlignmentI alignment = null;

inProgress = true;

* execute queries, if necessary in batches of the

142

* maximum allowed number of ids

143

144

int maxQueryCount = getMaximumQueryCount();

145

for (int v = 0, vSize = allIds.size(); v < vSize; v += maxQueryCount)

146

{

147

int p = Math.min(vSize, v + maxQueryCount);

148

List<String> ids = allIds.subList(v, p);

149

try

150

{

151

alignment = fetchSequences(ids, alignment);

152

} catch (Throwable r)

153

{

154

inProgress = false;

155

String msg = "Aborting ID retrieval after " + v

156

+ " chunks. Unexpected problem (" + r.getLocalizedMessage()

157

+ ")";

158

System.err.println(msg);

r.printStackTrace();

break;

}

}

if (alignment == null)

{

return null;

}

* fetch and transfer genomic sequence features,

171

* fetch protein product and add as cross-reference

172

173

for (String accId : allIds)

174

{

175

addFeaturesAndProduct(accId, alignment);

176

}

177

178

for (SequenceI seq : alignment.getSequences())

179

{

180

getCrossReferences(seq);

}

return alignment;

}

/**

* Fetches Ensembl features using the /overlap REST endpoint, and adds them to

188

* the sequence in the alignment. Also fetches the protein product, maps it

189

* from the CDS features of the sequence, and saves it as a cross-reference of

* the dna sequence.

* @param accId

* @param alignment

protected void addFeaturesAndProduct(String accId, AlignmentI alignment)

196

{

197

if (alignment == null)

{

return;

}

try

{

* get 'dummy' genomic sequence with gene, transcript,

206

* exon, cds and variation features

207

208

SequenceI genomicSequence = null;

209

EnsemblFeatures gffFetcher = new EnsemblFeatures(getDomain());

210

EnsemblFeatureType[] features = getFeaturesToFetch();

211

AlignmentI geneFeatures = gffFetcher.getSequenceRecords(accId,

212

features);

213

if (geneFeatures != null && geneFeatures.getHeight() > 0)

214

{

215

genomicSequence = geneFeatures.getSequenceAt(0);

216

}

217

if (genomicSequence != null)

218

{

219

220

* transfer features to the query sequence

221

222

SequenceI querySeq = alignment.findName(accId, true);

223

if (transferFeatures(accId, genomicSequence, querySeq))

{

* fetch and map protein product, and add it as a cross-reference

228

* of the retrieved sequence

229

230

addProteinProduct(querySeq);

231

}

232

}

233

} catch (IOException e)

234

{

235

System.err.println(

236

"Error transferring Ensembl features: " + e.getMessage());

}

}

/**

* Returns those sequence feature types to fetch from Ensembl. We may want

242

* features either because they are of interest to the user, or as means to

243

* identify the locations of the sequence on the genomic sequence (CDS

244

* features identify CDS, exon features identify cDNA etc).

* @return

protected abstract EnsemblFeatureType[] getFeaturesToFetch();

249

250

/**

251

* Fetches and maps the protein product, and adds it as a cross-reference of

252

* the retrieved sequence

253

254

protected void addProteinProduct(SequenceI querySeq)

255

{

256

String accId = querySeq.getName();

257

try

258

{

259

AlignmentI protein = new EnsemblProtein(getDomain())

260

.getSequenceRecords(accId);

261

if (protein == null || protein.getHeight() == 0)

262

{

263

System.out.println("No protein product found for " + accId);

264

return;

265

}

266

SequenceI proteinSeq = protein.getSequenceAt(0);

267

268

269

* need dataset sequences (to be the subject of mappings)

270

271

proteinSeq.createDatasetSequence();

272

querySeq.createDatasetSequence();

273

274

MapList mapList = AlignmentUtils.mapCdsToProtein(querySeq,

proteinSeq);

if (mapList != null)

{

// clunky: ensure Uniprot xref if we have one is on mapped sequence

279

SequenceI ds = proteinSeq.getDatasetSequence();

280

// TODO: Verify ensp primary ref is on proteinSeq.getDatasetSequence()

281

Mapping map = new Mapping(ds, mapList);

282

DBRefEntry dbr = new DBRefEntry(getDbSource(),

283

getEnsemblDataVersion(), proteinSeq.getName(), map);

284

querySeq.getDatasetSequence().addDBRef(dbr);

285

DBRefEntry[] uprots = DBRefUtils.selectRefs(ds.getDBRefs(),

286

new String[]

287

{ DBRefSource.UNIPROT });

288

DBRefEntry[] upxrefs = DBRefUtils.selectRefs(querySeq.getDBRefs(),

289

new String[]

290

{ DBRefSource.UNIPROT });

291

if (uprots != null)

292

{

293

for (DBRefEntry up : uprots)

294

{

295

// locate local uniprot ref and map

296

List<DBRefEntry> upx = DBRefUtils.searchRefs(upxrefs,

297

up.getAccessionId());

DBRefEntry upxref;

if (upx.size() != 0)

{

upxref = upx.get(0);

if (upx.size() > 1)

{

Cache.log.warn(

"Implementation issue - multiple uniprot acc on product sequence.");

}

}

else

{

upxref = new DBRefEntry(DBRefSource.UNIPROT,

312

getEnsemblDataVersion(), up.getAccessionId());

313

}

314

315

Mapping newMap = new Mapping(ds, mapList);

316

upxref.setVersion(getEnsemblDataVersion());

317

upxref.setMap(newMap);

318

if (upx.size() == 0)

319

{

320

// add the new uniprot ref

321

querySeq.getDatasetSequence().addDBRef(upxref);

}

}

}

* copy exon features to protein, compute peptide variants from dna

329

* variants and add as features on the protein sequence ta-da

330

331

AlignmentUtils.computeProteinFeatures(querySeq, proteinSeq,

332

mapList);

333

}

334

} catch (Exception e)

335

{

336

System.err

337

.println(String.format("Error retrieving protein for %s: %s",

338

accId, e.getMessage()));

}

}

/**

* Get database xrefs from Ensembl, and attach them to the sequence

* @param seq

protected void getCrossReferences(SequenceI seq)

348

{

349

while (seq.getDatasetSequence() != null)

350

{

351

seq = seq.getDatasetSequence();

352

}

353

354

EnsemblXref xrefFetcher = new EnsemblXref(getDomain(), getDbSource(),

355

getEnsemblDataVersion());

356

List<DBRefEntry> xrefs = xrefFetcher.getCrossReferences(seq.getName());

357

for (DBRefEntry xref : xrefs)

{

seq.addDBRef(xref);

}

* and add a reference to itself

364

365

DBRefEntry self = new DBRefEntry(getDbSource(), getEnsemblDataVersion(),

seq.getName());

seq.addDBRef(self);

}

/**

* Fetches sequences for the list of accession ids and adds them to the

372

* alignment. Returns the extended (or created) alignment.

* @param ids

* @param alignment

* @return

* @throws JalviewException

378

* @throws IOException

379

380

protected AlignmentI fetchSequences(List<String> ids,

381

AlignmentI alignment) throws JalviewException, IOException

382

{

383

if (!isEnsemblAvailable())

384

{

385

inProgress = false;

386

throw new JalviewException("ENSEMBL Rest API not available.");

387

}

388

FileParse fp = getSequenceReader(ids);

if (fp == null)

{

return alignment;

}

FastaFile fr = new FastaFile(fp);

395

if (fr.hasWarningMessage())

396

{

397

System.out.println(

398

String.format("Warning when retrieving %d ids %s\n%s",

399

ids.size(), ids.toString(), fr.getWarningMessage()));

400

}

401

else if (fr.getSeqs().size() != ids.size())

402

{

403

System.out.println(String.format(

404

"Only retrieved %d sequences for %d query strings",

405

fr.getSeqs().size(), ids.size()));

406

}

407

408

if (fr.getSeqs().size() == 1 && fr.getSeqs().get(0).getLength() == 0)

409

{

410

411

* POST request has returned an empty FASTA file e.g. for invalid id

412

413

throw new IOException("No data returned for " + ids);

414

}

415

416

if (fr.getSeqs().size() > 0)

417

{

418

AlignmentI seqal = new Alignment(fr.getSeqsAsArray());

419

for (SequenceI sq : seqal.getSequences())

420

{

421

if (sq.getDescription() == null)

422

{

423

sq.setDescription(getDbName());

424

}

425

String name = sq.getName();

426

if (ids.contains(name)

427

|| ids.contains(name.replace("ENSP", "ENST")))

428

{

429

DBRefEntry dbref = DBRefUtils.parseToDbRef(sq, getDbSource(),

430

getEnsemblDataVersion(), name);

sq.addDBRef(dbref);

}

}

if (alignment == null)

{

alignment = seqal;

}

else

{

alignment.append(seqal);

}

}

return alignment;

}

/**

* Returns the URL for the REST call

448

449

* @return

450

* @throws MalformedURLException

451

452

@Override

453

protected URL getUrl(List<String> ids) throws MalformedURLException

454

{

455

456

* a single id is included in the URL path

457

* multiple ids go in the POST body instead

458

459

StringBuffer urlstring = new StringBuffer(128);

460

urlstring.append(getDomain() + "/sequence/id");

461

if (ids.size() == 1)

462

{

463

urlstring.append("/").append(ids.get(0));

464

}

465

// @see https://github.com/Ensembl/ensembl-rest/wiki/Output-formats

466

urlstring.append("?type=").append(getSourceEnsemblType().getType());

467

urlstring.append(("&Accept=text/x-fasta"));

468

469

String objectType = getObjectType();

470

if (objectType != null)

471

{

472

urlstring.append("&").append(OBJECT_TYPE).append("=")

.append(objectType);

}

URL url = new URL(urlstring.toString());

return url;

}

/**

* Override this method to specify object_type request parameter

* @return

protected String getObjectType()

{

return null;

}

/**

* A sequence/id POST request currently allows up to 50 queries

492

493

* @see http://rest.ensembl.org/documentation/info/sequence_id_post

494

495

@Override

496

public int getMaximumQueryCount()

{

return 50;

}

@Override

protected boolean useGetRequest()

{

return false;

}

@Override

protected String getRequestMimeType(boolean multipleIds)

509

{

510

return multipleIds ? "application/json" : "text/x-fasta";

}

@Override

protected String getResponseMimeType()

515

{

516

return "text/x-fasta";

}

/**

* @return the configured sequence return type for this source

522

523

protected abstract EnsemblSeqType getSourceEnsemblType();

524

525

/**

526

* Returns a list of [start, end] genomic ranges corresponding to the sequence

527

* being retrieved.

528

529

* The correspondence between the frames of reference is made by locating

530

* those features on the genomic sequence which identify the retrieved

531

* sequence. Specifically

532

* <ul>

533

* <li>genomic sequence is identified by "transcript" features with

534

* ID=transcript:transcriptId</li>

535

* <li>cdna sequence is identified by "exon" features with

536

* Parent=transcript:transcriptId</li>

537

* <li>cds sequence is identified by "CDS" features with

538

* Parent=transcript:transcriptId</li>

539

* </ul>

540

541

* The returned ranges are sorted to run forwards (for positive strand) or

542

* backwards (for negative strand). Aborts and returns null if both positive

543

* and negative strand are found (this should not normally happen).

544

545

* @param sourceSequence

546

* @param accId

547

* @param start

548

* the start position of the sequence we are mapping to

549

* @return

550

551

protected MapList getGenomicRangesFromFeatures(SequenceI sourceSequence,

552

String accId, int start)

553

{

554

List<SequenceFeature> sfs = sourceSequence.getFeatures()

555

.getPositionalFeatures();

if (sfs.isEmpty())

{

return null;

}

* generously initial size for number of cds regions

563

* (worst case titin Q8WZ42 has c. 313 exons)

564

565

List<int[]> regions = new ArrayList<>(100);

566

int mappedLength = 0;

567

int direction = 1; // forward

568

boolean directionSet = false;

569

570

for (SequenceFeature sf : sfs)

571

{

572

573

* accept the target feature type or a specialisation of it

574

* (e.g. coding_exon for exon)

575

576

if (identifiesSequence(sf, accId))

577

{

578

int strand = sf.getStrand();

579

strand = strand == 0 ? 1 : strand; // treat unknown as forward

580

581

if (directionSet && strand != direction)

582

{

583

// abort - mix of forward and backward

584

System.err.println(

585

"Error: forward and backward strand for " + accId);

return null;

}

direction = strand;

directionSet = true;

* add to CDS ranges, semi-sorted forwards/backwards

if (strand < 0)

{

regions.add(0, new int[] { sf.getEnd(), sf.getBegin() });

}

else

{

regions.add(new int[] { sf.getBegin(), sf.getEnd() });

601

}

602

mappedLength += Math.abs(sf.getEnd() - sf.getBegin() + 1);

if (!isSpliceable())

{

* 'gene' sequence is contiguous so we can stop as soon as its

608

* identifying feature has been found

break;

}

}

}

if (regions.isEmpty())

616

{

617

System.out.println("Failed to identify target sequence for " + accId

618

+ " from genomic features");

return null;

}

* a final sort is needed since Ensembl returns CDS sorted within source

624

* (havana / ensembl_havana)

625

626

Collections.sort(regions, direction == 1 ? IntRangeComparator.ASCENDING

627

: IntRangeComparator.DESCENDING);

628

629

List<int[]> to = Arrays

630

.asList(new int[]

631

{ start, start + mappedLength - 1 });

632

633

return new MapList(regions, to, 1, 1);

}

/**

* Answers true if the sequence being retrieved may occupy discontiguous

638

* regions on the genomic sequence.

639

640

protected boolean isSpliceable()

{

return true;

}

/**

* Returns true if the sequence feature marks positions of the genomic

647

* sequence feature which are within the sequence being retrieved. For

648

* example, an 'exon' feature whose parent is the target transcript marks the

649

* cdna positions of the transcript.

* @param sf

* @param accId

* @return

protected abstract boolean identifiesSequence(SequenceFeature sf,

String accId);

/**

* Transfers the sequence feature to the target sequence, locating its start

660

* and end range based on the mapping. Features which do not overlap the

661

* target sequence are ignored.

662

663

* @param sf

664

* @param targetSequence

665

* @param mapping

666

* mapping from the sequence feature's coordinates to the target

667

* sequence

668

* @param forwardStrand

669

670

protected void transferFeature(SequenceFeature sf,

671

SequenceI targetSequence, MapList mapping, boolean forwardStrand)

672

{

673

int start = sf.getBegin();

674

int end = sf.getEnd();

675

int[] mappedRange = mapping.locateInTo(start, end);

676

677

if (mappedRange != null)

678

{

679

String group = sf.getFeatureGroup();

680

if (".".equals(group))

681

{

682

group = getDbSource();

683

}

684

int newBegin = Math.min(mappedRange[0], mappedRange[1]);

685

int newEnd = Math.max(mappedRange[0], mappedRange[1]);

686

SequenceFeature copy = new SequenceFeature(sf, newBegin, newEnd,

687

group, sf.getScore());

688

targetSequence.addSequenceFeature(copy);

689

690

691

* for sequence_variant on reverse strand, have to convert the allele

692

* values to their complements

693

694

if (!forwardStrand && SequenceOntologyFactory.getInstance()

695

.isA(sf.getType(), SequenceOntologyI.SEQUENCE_VARIANT))

696

{

697

reverseComplementAlleles(copy);

}

}

}

/**

* Change the 'alleles' value of a feature by converting to complementary

704

* bases, and also update the feature description to match

* @param sf

static void reverseComplementAlleles(SequenceFeature sf)

709

{

710

final String alleles = (String) sf.getValue(Gff3Helper.ALLELES);

if (alleles == null)

{

return;

}

StringBuilder complement = new StringBuilder(alleles.length());

716

for (String allele : alleles.split(","))

717

{

718

reverseComplementAllele(complement, allele);

719

}

720

String comp = complement.toString();

721

sf.setValue(Gff3Helper.ALLELES, comp);

722

sf.setDescription(comp);

723

724

725

* replace value of "alleles=" in sf.ATTRIBUTES as well

726

* so 'output as GFF' shows reverse complement alleles

727

728

String atts = sf.getAttributes();

729

if (atts != null)

730

{

731

atts = atts.replace(Gff3Helper.ALLELES + "=" + alleles,

732

Gff3Helper.ALLELES + "=" + comp);

733

sf.setAttributes(atts);

}

}

/**

* Makes the 'reverse complement' of the given allele and appends it to the

739

* buffer, after a comma separator if not the first

* @param complement

* @param allele

static void reverseComplementAllele(StringBuilder complement,

745

String allele)

746

{

747

if (complement.length() > 0)

748

{

749

complement.append(",");

}

* some 'alleles' are actually descriptive terms

754

* e.g. HGMD_MUTATION, PhenCode_variation

755

* - we don't want to 'reverse complement' these

756

757

if (!Comparison.isNucleotideSequence(allele, true))

758

{

759

complement.append(allele);

}

else

{

for (int i = allele.length() - 1; i >= 0; i--)

764

{

765

complement.append(Dna.getComplement(allele.charAt(i)));

}

}

}

/**

* Transfers features from sourceSequence to targetSequence

772

773

* @param accessionId

774

* @param sourceSequence

775

* @param targetSequence

776

* @return true if any features were transferred, else false

777

778

protected boolean transferFeatures(String accessionId,

779

SequenceI sourceSequence, SequenceI targetSequence)

780

{

781

if (sourceSequence == null || targetSequence == null)

{

return false;

}

// long start = System.currentTimeMillis();

787

List<SequenceFeature> sfs = sourceSequence.getFeatures()

788

.getPositionalFeatures();

789

MapList mapping = getGenomicRangesFromFeatures(sourceSequence,

790

accessionId, targetSequence.getStart());

if (mapping == null)

{

return false;

}

boolean result = transferFeatures(sfs, targetSequence, mapping,

797

accessionId);

798

// System.out.println("transferFeatures (" + (sfs.size()) + " --> "

799

// + targetSequence.getFeatures().getFeatureCount(true) + ") to "

800

// + targetSequence.getName() + " took "

801

// + (System.currentTimeMillis() - start) + "ms");

return result;

}

/**

* Transfer features to the target sequence. The start/end positions are

807

* converted using the mapping. Features which do not overlap are ignored.

808

* Features whose parent is not the specified identifier are also ignored.

809

810

* @param sfs

811

* @param targetSequence

* @param mapping

* @param parentId

* @return

protected boolean transferFeatures(List<SequenceFeature> sfs,

817

SequenceI targetSequence, MapList mapping, String parentId)

818

{

819

final boolean forwardStrand = mapping.isFromForwardStrand();

820

821

822

* sort features by start position (which corresponds to end

823

* position descending if reverse strand) so as to add them in

824

* 'forwards' order to the target sequence

825

826

SequenceFeatures.sortFeatures(sfs, forwardStrand);

827

828

boolean transferred = false;

829

for (SequenceFeature sf : sfs)

830

{

831

if (retainFeature(sf, parentId))

832

{

833

transferFeature(sf, targetSequence, mapping, forwardStrand);

transferred = true;

}

}

return transferred;

}

/**

* Answers true if the feature type is one we want to keep for the sequence.

842

* Some features are only retrieved in order to identify the sequence range,

843

* and may then be discarded as redundant information (e.g. "CDS" feature for

844

* a CDS sequence).

845

846

@SuppressWarnings("unused")

847

protected boolean retainFeature(SequenceFeature sf, String accessionId)

848

{

849

return true; // override as required

}

/**

* Answers true if the feature has a Parent which refers to the given

854

* accession id, or if the feature has no parent. Answers false if the

855

* feature's Parent is for a different accession id.

* @param sf

* @param identifier

* @return

protected boolean featureMayBelong(SequenceFeature sf, String identifier)

862

{

863

String parent = (String) sf.getValue(PARENT);

864

// using contains to allow for prefix "gene:", "transcript:" etc

865

if (parent != null

866

&& !parent.toUpperCase().contains(identifier.toUpperCase()))

867

{

868

// this genomic feature belongs to a different transcript

return false;

}

return true;

}

@Override

public String getDescription()

876

{

877

return "Ensembl " + getSourceEnsemblType().getType()

878

+ " sequence with variant features";

}

/**

* Returns a (possibly empty) list of features on the sequence which have the

883

* specified sequence ontology term (or a sub-type of it), and the given

884

* identifier as parent

* @param sequence

* @param term

* @param parentId

* @return

protected List<SequenceFeature> findFeatures(SequenceI sequence,

892

String term, String parentId)

893

{

894

List<SequenceFeature> result = new ArrayList<>();

895

896

List<SequenceFeature> sfs = sequence.getFeatures()

897

.getFeaturesByOntology(term);

898

for (SequenceFeature sf : sfs)

899

{

900

String parent = (String) sf.getValue(PARENT);

901

if (parent != null && parent.equalsIgnoreCase(parentId))

{

result.add(sf);

}

}

return result;

}

/**

* Answers true if the feature type is either 'NMD_transcript_variant' or

912

* 'transcript' or one of its sub-types in the Sequence Ontology. This is

913

* needed because NMD_transcript_variant behaves like 'transcript' in Ensembl

914

* although strictly speaking it is not (it is a sub-type of

* sequence_variant).

* @param featureType

* @return

public static boolean isTranscript(String featureType)

921

{

922

return SequenceOntologyI.NMD_TRANSCRIPT_VARIANT.equals(featureType)

923

|| SequenceOntologyFactory.getInstance().isA(featureType,

924

SequenceOntologyI.TRANSCRIPT);

925

}

926

}

jalviewX

File EnsemblSeqProxy.java

Coverage histogram

Code metrics

Classes

Class EnsemblSeqProxy

Class EnsemblSeqProxy.EnsemblSeqType

Contributing tests

Contributing tests

Source view