Einkorn 유전체학은 가장 오래된 재배 밀의 역사를 밝힙니다.

소식

홈페이지홈페이지 / 소식 / Einkorn 유전체학은 가장 오래된 재배 밀의 역사를 밝힙니다.

Jul 29, 2023

Einkorn 유전체학은 가장 오래된 재배 밀의 역사를 밝힙니다.

Nature(2023)이 기사 인용 6925 Accesses 193 Altmetric Metrics 세부 정보 Einkorn(Triticum monococcum)은 최초로 길들여진 밀 종이었으며 농업 탄생과 농업 탄생의 중심이었습니다.

네이처(2023)이 기사 인용

6925 액세스

193 알트메트릭

측정항목 세부정보

Einkorn(Triticum monococcum)은 최초로 재배된 밀 종이었으며 약 10,000년 전 비옥한 초승달 지대에서 농업의 탄생과 신석기 혁명의 중심이 되었습니다1,2. 여기에서는 완전히 조립된 동원체를 포함하여 야생 및 길들여진 einkorn에 대한 5.2-Gb 게놈 어셈블리를 생성하고 분석합니다. Einkorn 동원체는 매우 역동적이며 구조적 재배열로 인한 고대 및 최근 동원체 이동의 증거를 보여줍니다. 다양성 패널의 전체 게놈 시퀀싱 분석을 통해 아인콘의 개체군 구조와 진화 역사를 밝혀냈고, 비옥한 초승달 지대에서 길들여진 아인콘이 분산된 후 복잡한 혼성화 및 유전자 이입 패턴이 드러났습니다. 우리는 또한 현대 빵밀(Triticum aestivum) A 서브게놈의 약 1%가 einkorn에서 유래함을 보여줍니다. 이러한 자료와 연구 결과는 einkorn 진화의 역사를 강조하고 einkorn과 빵밀의 유전체학 지원 개선을 가속화할 수 있는 기반을 제공합니다.

Einkorn(T. monococcum)은 약 10,000년 전에 종종 문명의 요람이라고 불리는 근동 지역인 비옥한 초승달 지대에서 인간이 재배한 최초의 밀 종이었습니다1,2. 야생 아인콘은 농업이 시작되기 4000년 전 현대 요르단의 수렵채집인들이 구운 빵과 같은 가장 오래된 제품의 성분이었습니다3. Einkorn은 비옥한 초승달 지대에서 농업을 확립하는 데 중추적인 역할을 했으며 야생형과 가축형이 모두 존재하는 유일한 이배체 밀 종(2n = 2x = 14, AmAm 게놈)입니다. 야생 아잉콘과 길들여진 아잉콘 사이의 눈에 띄는 형태적 차이는 곡물 분산 시스템입니다. 야생 einkorn의 rachis는 종자 분산을 촉진하는 깨지기 쉬운 rachis를 가지고 있는 반면, 길들여진 einkorn의 rachis는 부서지지 않습니다4. Einkorn은 4배체 듀럼(Triticum durum) 및 6배체 빵밀(T. aestivum)5의 A 게놈 기증자인 Triticum urartu와 밀접한 관련이 있습니다. T. urartu와 대조적으로, 야생 및 길들여진 einkorn은 다양한 환경 조건에서 재배 및 인간 선택의 오랜 역사를 가지고 있으며, 이는 einkorn을 밀 육종을 위한 유전적 변이의 귀중한 원천으로 만듭니다. 농업적으로 중요한 유전자를 함유한 빵밀에 대한 다양한 천연 및 인공 이콘콘 유전자이입이 설명되었습니다6,7,8,9,10. 인구 유전적 분석에 따르면 야생 einkorn은 세 가지 별개의 그룹(α, β 및 γ 종족)으로 클러스터되어 있으며 터키 남동부의 Karacadağ 산맥 주변 지역을 einkorn 가축화 장소로 지적합니다11,12,13,14,15,16,17 .

여기에서 우리는 einkorn 다양성 패널의 전체 게놈 시퀀싱뿐만 아니라 하나의 야생 및 하나의 길들여진 einkorn 접근의 de novo 주석이 달린 염색체 규모 참조 어셈블리를 포함하여 einkorn에 대한 포괄적인 게놈 자원 세트를 설정하고 분석합니다. 우리의 결과는 einkorn의 복잡한 진화 역사를 밝히고 동원체 구조를 포함한 Triticeae의 게놈 역학에 대한 통찰력을 제공하는 동시에 밀 개선을 위한 게놈 도구 상자를 강화하는 귀중한 자원을 확립합니다.

우리는 PacBio 원형 합의 시퀀싱18, 광학 매핑19 및 염색체 형태 캡처20(확장 데이터 표 1, 보충 표 1 및 보충 그림 1)의 조합을 사용하여 두 개의 einkorn 접근의 참조 어셈블리를 생성했습니다. TA10622는 20세기 초 알바니아에서 채집된 깨지지 않는 라키를 가진 길들여진 einkorn 재래종(T. monococcum L. subsp. monococcum)입니다. 야생 einkorn 등록 TA299(T. monococcum L. subsp. aegilopoides; 종족 α)는 1972년 이라크 북부 탐사 중에 수집되었으며21 부서지기 쉬운 우축을 가지고 있습니다. 어셈블리 무결성은 einkorn 유전자 지도(보충 표 2 및 3)를 사용하여 확인되었습니다. 우리는 두 개의 의사 분자 세트 (그림 1 및 보충 그림 2)와 두 개의 einkorn 어셈블리와 빵 밀 A 하위 게놈 (보충 그림 3) 사이에서 높은 수준의 공선성을 관찰했습니다. 가장 확실한 예외는 잘 설명된 빵밀 염색체 4A의 재배열이었는데, 배수체 밀에서 역전과 전좌가 발생했습니다22. 우리는 각각 TA299 및 TA10622의 7개 유사분자에 대해 32,230개 및 32,090개의 고신뢰도 유전자 모델에 주석을 달았습니다(BUSCO 점수는 TA299의 경우 99.2%, TA10622의 경우 99.4%)(보충 표 4 및 5).

30% missing) at the population level. In JoinMap, we removed identical markers (similarity = 1) and mapped only one marker of the identical pair. We grouped the markers using minimum LOD of 6 and the markers were mapped using a regression mapping approach and the Kosambi function. The linkage maps were visualized using Mapchart (v.2.32; https://www.wur.nl/en/show/mapchart.htm). Linkage maps were constructed using this approach with both wild and domesticated einkorn assemblies./p> 60.0 || MQ < 40.00 || MQRankSum < −12.5 || ReadPosRankSum < −8.0 || SOR > 3.0’. In total, 208,855,939 SNPs were called from 219 einkorn accessions. After quality control using VCFtools108 (v.0.1.17), the raw SNPs were filtered using GATK107 (v.4.1.8.0) and VCFtools108 (v.0.1.17) as follows: SNP clusters, defined as three or more SNPs located within 10 bp; low and high average SNP depth (4 ≤ DP ≥ 15); and SNPs located in the unanchored chromosome were removed. Moreover, one misclassified accession (TA574; initially was classified as γ) was removed on the basis of PCA and divergence analysis. Finally, only biallelic SNPs were retained for further analyses, representing a final VCF file of 121,459,674 SNPs (Supplementary Table 15). These SNPs were annotated using snpEff109 (v.5.0e) with TA299 HC gene models. The false-positive error rate of variant calling (percentage of polymorphic sites in a resequenced TA299 sample compared with the TA299 reference) was 0.008%, which is comparable to the error rates of other studies43,44,45,46 (Supplementary Fig. 19a). Variants were evenly distributed across the seven chromosomes, except for the centromeres that showed a marked reduction in variant densities due to reduced read mapping (Supplementary Fig. 19b, Supplementary Fig. 20 and Supplementary Table 16). Approximately 2.2% of the total SNPs were gene-proximal (2 kb upstream and downstream of a coding sequence). An additional 0.8% of the SNPs were located in introns and 0.5% in exons. Of the exonic SNPs, 317,023 (53.4%) were non-synonymous affecting 26,505 genes, of which 9,145 SNPs resulted in a disruption of coding sequences (premature stop codon) in 5,726 genes. Furthermore, 45.7% of the total SNPs (55,558,212 SNPs) represented rare variants with a minor allele frequency below 1% (Supplementary Fig. 19c and Supplementary Table 17). Variant calling using the TA10622 assembly revealed very similar results on the basis of population divergence, PCA and nucleotide diversity (α, π = 0.0012; β, π = 0.0017; γ, π = 0.0022; domesticated, π = 0.0012; Supplementary Fig. 21a–c), confirming the high accuracy of variant calling and the independence of population structure analyses from which reference assembly is used. The SNP calling against the TA10622 reference assembly was used for the analyses presented in Extended Data Fig. 7a,b,e./p> 10% and 5% randomly sampled SNPs; total SNPs = 5,318,268). First, the genetic distances were computed using Euclidean distances with the ‘dist’ function in the stats R package. The distance matrix was converted to a phylo object using the R package ape and the tree was generated using the phyclus R package. For estimating individual ancestry coefficients, the R package LEA ‘snmf’ function was used with the entropy option and with 10 independent runs for each K (K is the number of putative ancestral populations) from K = 1 to K = 10 using the same SNP subset used to generate the phylogenetic tree. The cross-entropy value decreased with increasing K and reached a plateau starting from K = 6 (Supplementary Fig. 14)./p>13-fold coverage. We used the Illumina reads of TA4342-L96 (Sequence Read Archive: SRR21543761) as the parental control. We followed the MutMap protocol with minor modifications57. High-quality filtered reads were aligned to the T. monococcum accession TA10622 using BWA96. SAM files were converted into .bam files using SAMtools69. SAMtools (markdup option) was used to mark and remove PCR duplicates. Improperly mapped read pairs were removed from the .bam files retaining only concordantly aligned reads with MAPQ ≥ 30. The BCFtools mpileup tool was used for SNP calling70. SNPs were filtered on the basis of the following criteria: minQ ≥ 30, Fisher Strand (FS) > 40, mapping quality (MQ < 40), minDP > 3 and genotype quality (GQ < 20). SNPs within 10 bp proximity of indels were removed and only the biallelic SNPs were retained. SNP positions with an identical allele in both TA4342-L96 and the tin3 mutant bulk were treated as varietal SNPs and were removed from the analysis. SnpSift109 was used to select EMS-type (G/C to A/T) transitions from the VCF file. We considered the positions with a SNP index of ≥0.9 to be homozygous, whereas SNPs with an SNP index of <0.3 were removed, and the rest were considered to be heterozygous. We used the mutplot tool (https://github.com/VivianBailey/Mutplot) to calculate the average SNP index using a window size of 100 kb116. The average SNP index was plotted along the chromosomes using ggplot2117. SnpEff 5.0c (build 2020-11-25 14:23) was used to calculate the effect of the variants on genes./p>