Correspondence – SoyBase

Gene Model Translation / Correspondence

The set of allelic genes found in multiple individuals in a species or closely related species may be called a "pangene set," with the gene models that correspond by homology and position being called a pangene. The pangene set calculated for Glycine accessions at SoyBase can be used to find corresponding genes across assemblies and annotations.

There are several good options for identifying corresponding genes in different accessions or annotations. If you have ...

One or a few genes to look up? Use the Gene Search tool, then click on the "PANGENE SETS" link.
Try it out with a sample gene, Glyma.01G000322.
At the linked pangene report page in InterMine (set "Rows to page" to "All" to see all corresponding genes).
Many genes to look up among reference accessions? Download a correspondence table for the reference lines.
- #pangene
- glyma.FiskebyIII.gnm1.ann1
- glyma.JD17.gnm1.ann1
- glyma.Lee.gnm1.ann1
- glyma.Lee.gnm2.ann1
- glyma.Wm82.gnm1.ann1 = Wm82.a1.v1
- glyma.Wm82.gnm2.ann1 = Wm82.a2.v1
- glyma.Wm82.gnm4.ann1 = Wm82.a4.v1
- glyma.Wm82.gnm5.ann1
- glyma.Wm82.gnm6.ann1 = Wm82.a6.v1
- glyma.Wm82_NJAU.gnm1.ann1
- glyma.Zh13.gnm1.ann1
- glyma.Zh13.gnm2.ann1
- glyma.Zh13_IGA1005.gnm1.ann1
- glyma.Zh35_IGA1004.gnm1.ann1
Many genes to look up among non-reference accessions? Download a correspondence table for all pangene accessions.
- glycy.G1267.gnm1.ann1
- glyd3.G1403.gnm1.ann1
- glydo.G1134.gnm1.ann1
- glyfa.G1718.gnm1.ann1
- glyma.58-161.gnm1.ann1
- glyma.Amsoy.gnm1.ann1
- glyma.DongNongNo_50.gnm1.ann1
- glyma.FengDiHuang.gnm1.ann1
- glyma.FiskebyIII.gnm1.ann1
- glyma.HanDouNo_5.gnm1.ann1
- glyma.Hefeng25_IGA1002.gnm1.ann1
- glyma.HeiHeNo_43.gnm1.ann1
- glyma.Huaxia3_IGA1007.gnm1.ann1
- glyma.Hwangkeum.gnm1.ann1
- glyma.JD17.gnm1.ann1
- glyma.JiDouNo_17.gnm1.ann1
- glyma.JinDouNo_23.gnm1.ann1
- glyma.Jinyuan_IGA1006.gnm1.ann1
- glyma.JuXuanNo_23.gnm1.ann1
- glyma.KeShanNo_1.gnm1.ann1
- glyma.Lee.gnm1.ann1
- glyma.Lee.gnm2.ann1
- glyma.Lee.gnm3.ann1
- glyma.PI_398296.gnm1.ann1
- glyma.PI_548362.gnm1.ann1
- glyma.QiHuangNo_34.gnm1.ann1
- glyma.ShiShengChangYe.gnm1.ann1
- glyma.TieFengNo_18.gnm1.ann1
- glyma.TieJiaSiLiHuang.gnm1.ann1
- glyma.TongShanTianEDan.gnm1.ann1
- glyma.WanDouNo_28.gnm1.ann1
- glyma.Wenfeng7_IGA1001.gnm1.ann1
- glyma.Wm82.gnm1.ann1
- glyma.Wm82.gnm2.ann1
- glyma.Wm82.gnm4.ann1
- glyma.Wm82.gnm5.ann1
- glyma.Wm82.gnm6.ann1
- glyma.Wm82_IGA1008.gnm1.ann1
- glyma.Wm82_ISU01.gnm2.ann1
- glyma.Wm82_NJAU.gnm1.ann1
- glyma.XuDouNo_1.gnm1.ann1
- glyma.YuDouNo_22.gnm1.ann1
- glyma.Zh13.gnm1.ann1
- glyma.Zh13.gnm2.ann1
- glyma.Zh13_IGA1005.gnm1.ann1
- glyma.Zh35_IGA1004.gnm1.ann1
- glyma.ZhangChunManCangJin.gnm1.ann1
- glyma.Zhutwinning2.gnm1.ann1
- glyma.ZiHuaNo_4.gnm1.ann1
- glyso.F_IGA1003.gnm1.ann1
- glyso.PI483463.gnm1.ann1
- glyso.PI_549046.gnm1.ann1
- glyso.PI_562565.gnm1.ann1
- glyso.PI_578357.gnm1.ann1
- glyso.W05.gnm1.ann1
- glyst.G1974.gnm1.ann1
- glysy.G1300.gnm1.ann1

Sample data from the correspondence table for the reference lines:

Pangene ID	Wm82.gnm1.ann1 / Wm82.a1.v1	Wm82.gnm2.ann1 / Wm82.a2.v1	Wm82.gnm4.ann1 / Wm82.a4.v1	Wm82.gnm6.ann1 / Wm82.a6.v1	more
Glycine.pan5.pan46446	Glyma01g00210	Glyma.01G000100	Glyma.01G000100	Glyma.01G000100	...
Glycine.pan5.pan46447	Glyma01g00291	Glyma.01G000300	Glyma.01G000322	Glyma.01G000322	...
Glycine.pan5.pan43005	Glyma01g00300	Glyma.01G000400	Glyma.01G000400	Glyma.01G000400	...
Glycine.pan5.pan34709	Glyma01g00321	Glyma.01G000600	Glyma.01G000600	Glyma.01G000600	...
Glycine.pan5.pan74052	NONE	NONE	NONE	Glyma.01G000750	...
Glycine.pan5.pan99999	...	...	...	...	...

Methods

The gene correspondences in the lookup tables above were calculated using the Pandagma package for identifying pangenes from a given collection of annotations. The method is described briefly here:

The Pandagma software package (Cannon, Lee, Berendzen) was used to identify pangene and gene family sets. The main steps in Pandagma's pangene process are:

Make pairwise homology comparisons between each annotation set;
Filter by provided percent identity and coverage parameters;
Identify synteny blocks among all annotation sets;
Cluster genes in synteny blocks;
Add back remaining genes based on homology, constraining by chromosome (e.g., chr1 genes to chr1 clusters)
Add "extra" annotation sets (those with more fragmentary assemblies or questionable annotation quality) to clusters identified above.

The Pandagma package is available at https://github.com/legumeinfo/pandagma, including the configuration used to calculate the pangene data above.

The pangene collection for Glycine, including data in several formats and descriptions of the fies, is in the "Glycine/GENUS/pangenes" section of the Data Store.

If you have extensive programmatic work and need to translate among arbitrary accessions, the gene_translate.pl utility in pandagma may be helpful.

Tools

Gene Model Translation / Correspondence

Methods