NCBI GEO: 기능 유전체학 데이터 세트용 아카이브—업데이트
추상적인
유전자 발현 옴니버스(GEO, http://www.ncbi.nlm.nih.gov/geo/)는 연구 커뮤니티에서 제출한 고처리량 마이크로어레이 및 차세대 서열 기능 게놈 데이터 세트를 위한 국제 공개 저장소입니다. 이 리소스는 원시 데이터, 처리된 데이터 및 인덱싱, 교차 연결 및 검색 가능한 메타데이터의 보관을 지원합니다. 모든 데이터는 다양한 형식으로 자유롭게 다운로드 할 수 있습니다. GEO는 또한 사용자가 데이터를 쿼리, 분석 및 시각화하는 데 도움이 되는 여러 웹 기반 도구와 전략을 제공합니다. 이 기사는 사용자가 GEO 데이터를 분석하는 데 도움이 되는 R 기반 웹 애플리케이션인 GEO2R의 릴리스를 포함하여 현재 상태 및 최근 데이터베이스 개발을 보고합니다.
소개
유전자 발현 옴니버스(GEO) 저장소(1)는 마이크로어레이, 차세대 염기서열분석(NGS) 및 기타 형태의 고처리량 기능 게놈 데이터를 보관하고 자유롭게 배포합니다. 데이터베이스는 미국 메릴랜드 주 베데스다에있는 국립 보건원 캠퍼스에 위치한 국립 의학 도서관의 한 부서 인 국립 생명 공학 정보 센터 (NCBI)에서 구축하고 유지 관리합니다. GEO의 데이터는 과학계에 의해 기탁된 독창적인 연구를 나타내며, 종종 MIAME 지원 (2) 데이터베이스에서 데이터를 공개적으로 사용할 수 있도록 요구하는 보조금 또는 저널 지침(3)에 따라 기탁됩니다. 결과적으로 GEO는 이제 거의 20,000개의 출판된 원고에 대한 지원 데이터와 링크를 보유하고 있습니다. ArrayExpress (4)와 함께 > 1 백만 샘플에 대한 데이터는 현재 공개 도메인에서 사용할 수 있습니다.
GEO는 공개 아카이브 역할을 하는 것 외에도 사용자가 특정 관심사와 관련된 데이터를 식별, 분석 및 시각화하는 데 도움이 되는 도구를 제공합니다. 이러한 도구에는 복잡한 현장 쿼리, 샘플 비교 애플리케이션 및 유전자 발현 프로필 차트를 지원하는 강력한 검색 엔진이 포함됩니다. GEO 데이터베이스는 계속 성장하고 있으며 데이터 마이닝 및 검색을 용이하게하기 위해 적극적으로 개발되고 있습니다. 이 문서에서는 현재 상태 및 최근 개선 사항에 대한 업데이트를 제공합니다.
지리적 콘텐츠
작성 당시 GEO 데이터베이스는 >32 개의 유기체에서 파생 된 000,13 개의 샘플로 구성된 000,800 개의 실험실에서 직접 제출 한 >000,1600 개의 공개 시리즈 (연구 기록)를 호스팅합니다. 그림 1에서 볼 수 있듯이 전체 제출률은 계속 증가하고 있습니다. 2011년에만 >6800개의 새로운 시리즈가 처리되어 전년 대비 22% 증가했습니다. GEO에 보관된 데이터 유형은 기능 유전체학 커뮤니티에서 사용하는 기술 및 방법론의 진화하는 추세를 반영합니다. '배열에 의한 표현식 프로파일 링'은 성장 속도가 느려지고 있지만 GEO에 제출 된 가장 일반적인 연구 유형입니다. 차세대 서열 제출률은 2008년 이후 빠르게 증가하고 있습니다. 흥미롭게도 시퀀싱에 의한 염색질 면역침전법(ChIP-seq, 그림 1의 'NGS에 의한 게놈 결합/점유 프로파일링'에 포함됨)과 같은 방법은 현재 어레이 기반 대응물인 ChIP-chip보다 더 높은 빈도로 제출되는 속도로 증가하고 있습니다. 한편, 전통적인 SAGE (유전자 발현의 연속 분석) 제출은 이제 드물다.
창립 이후 매년 GEO에서 발표 한 선택된 연구의 수와 유형의 분포. 사용자는 http://www.ncbi.nlm.nih.gov/geo/summary/?type=history 의 '기록' 페이지를 사용하여 기록 제출 번호를 탐색 및 다운로드할 수 있을 뿐만 아니라 http://www.ncbi.nlm.nih.gov/geo/info/qqtutorial.html 에 설명된 대로 '데이터 집합 유형' 및 '게시 날짜' 필드를 사용하여 특정 데이터 유형 및 날짜 범위에 대한 GEO DataSet 데이터베이스 쿼리를 구성할 수 있습니다.
거의 모든 제출물은 개별 실험실 또는 고객을 대신하여 마이크로 어레이 시설에 의해 기탁됩니다. 일부 데이터는 어레이익스프레스에서 가져옵니다. 이 수입을 확장하려는 노력이 진행 중입니다. DNA 요소 백과사전(ENCODE)(5) 및 로드맵 후성유전체학(6)을 포함한 대규모 협업 프로젝트를 위한 데이터는 데이터 조정 센터에 의해 기탁되며 http://www.ncbi.nlm.nih.gov/geo/info/ENCODE.html 및 http://www.ncbi.nlm.nih.gov/geo/roadmap/epigenomics/ 에 전용 데이터 목록 페이지가 있습니다.
차세대 시퀀스 데이터 지원
GEO는 차세대 시퀀스 기술로 전환하는 마이크로어레이 커뮤니티를 계속 지원하는 것을 최우선 과제로 삼았습니다. 확립된 마이크로어레이 제출 형식, 메타데이터 표준 및 관리 절차가 새로운 기술을 수용하도록 수정되었습니다. 전체 서열 제출 지침은 http://www.ncbi.nlm.nih.gov/geo/info/seq.html 에서 제공되며 '고처리량 염기서열분석 실험에 대한 최소 정보'(MINSEQE) 표준(http://www.fged.org/projects/minseqe/)을 지원합니다. GEO는 유전자 발현(RNA-Seq), 유전자 조절 및 후성유전체학(예: ChIP-Seq, methyl-Seq, DNase 과민증)을 조사하는 연구 또는 어떤 형태의 서열 풍부도 또는 특성 분석을 측정하는 것이 연구 목표의 일부인 기타 연구에 대한 서열 데이터를 허용합니다. GEO는 샘플 및 연구 메타데이터와 함께 처리된 데이터 파일을 호스팅합니다. 원래 시퀀스 읽기를 포함하는 원시 데이터 파일은 중개되고 NCBI의 시퀀스 읽기 아카이브(SRA) 데이터베이스(7)와 연결됩니다. 현재까지 GEO는 >44테라베이스의 읽기 데이터를 SRA에 로드했습니다. 또한 수천 개의 처리 된 데이터 파일이 NCBI의 Epigenomics (8) 데이터베이스에 통합되어 추가로 큐레이팅되어 게놈 브라우저에서 트랙으로 볼 수 있습니다. GEO에 대한 상호 링크가있는 수천 개의 트랙을 통합하는 작업이 진행 중입니다.
검색, 탐색, 다운로드 및 분석에 대한 최근 업데이트
GEO의 인프라, 조직 및 검색 기능의 대부분은 이전에 설명한 대로 유지되지만(9), 최근의 몇 가지 향상된 기능은 사용자에게 다음을 포함하여 데이터를 찾고, 다운로드하고, 해석하는 대체 방법을 제공합니다.
- 샘플 레코드는 GEO DataSet 데이터베이스(http://www.ncbi.nlm.nih.gov/gds/)에서 고유한 항목 유형으로 인덱싱되므로 사용자가 스터디 내에서 개별 샘플을 보다 쉽게 식별할 수 있습니다.
- 샘플 특성은 GEO DataSet 데이터베이스의 새로운 '특성' 필드 아래에 별도로 인덱싱되어 보다 구체화된 쿼리를 허용합니다.
- '유사한 연구'링크가 GEO 데이터 세트 데이터베이스에 추가되었습니다. 이러한 링크는 사용자가 관심 분야와 관련된 추가 연구를 검색하는 데 도움이 됩니다. 링크는 PubMed의 '관련 기사' 링크와 동일한 알고리즘을 사용하여 시리즈 PubMed 인용에서 계산됩니다(10).
- GEO 프로파일 (http://www.ncbi.nlm.nih.gov/geoprofiles/) 검색의 '경로 찾기'기능을 통해 사용자는 유전자 목록을 특성화하는 데 도움이되는 NCBI의 BioSystems 데이터베이스 (11)의 빈도 가중 경로 목록에 유전자를 매핑 할 수 있습니다.
- 'GEO 저장소 브라우저'(http://www.ncbi.nlm.nih.gov/geo/browse/)는 상당한 재 설계를 거쳤습니다. 브라우저에는 계열, 샘플, 플랫폼 및 DataSet 레코드를 나열하는 테이블이 포함된 탭이 있습니다. 이제 테이블에는 검색 및 필터링할 수 있는 더 많은 보조 정보와 관련 레코드 및 보충 파일 다운로드에 대한 링크가 포함됩니다. 테이블을 내보낼 수 있으며 해당 PubMed 식별자 및 관련 SRA 액세스를 포함하여 브라우저에 표시되지 않는 추가 정보를 포함할 수 있습니다.
- '내 제출물' 페이지는 제출자가 예금을 보다 쉽게 추적, 탐색 및 필터링할 수 있도록 재설계되었습니다. 또한 업데이트 및 상태 편집을 수행하기 위한 게이트웨이 역할도 합니다.
- 모든 GEO 시리즈는 이제 NCBI의 BioProject 데이터베이스 (12)로 중개됩니다. BioProject 데이터베이스를 통해 사용자는 GenBank 전체 게놈 시퀀싱 프로젝트 및 dbGaP 제어 액세스 연구를 포함하여 NCBI의 다양한 데이터베이스에서 호스팅하는 프로젝트를 동시에 검색할 수 있습니다.
- 인용 정보를 획득하기 위한 보다 사전 예방적인 접근 방식이 구현되었습니다. GEO 시리즈 레코드와 PubMed의 해당 아티클 간의 상호 링크는 데이터에 대한 추가 컨텍스트를 제공하고 사용 가능한 경우 PubMed Central에 있는 아티클의 무료 전체 텍스트 버전을 포함하여 관련 데이터 도메인에 대한 탐색을 향상시킵니다. GEO는 인용 정보를 얻기 위해 몇 가지 전략을 사용하며, 가장 최근에는 해당 정보를 제공하라는 초대와 함께 인용이 누락된 경우를 강조하는 시리즈 레코드에 대한 설명을 포함합니다. 초대를 클릭하면 PubMed 식별자(로그인한 제출자용)를 직접 제공할 수 있는 대화 상자 또는 인용 정보를 GEO에 보내는 방법에 대한 지침이 미리 채워진 이메일(모든 사용자에 대해)이 시작됩니다.
- FTP 사이트 재 설계. FTP 사이트의 데이터 구성은 사용자에게 투명하지만 FUSE(사용자 공간의 파일 시스템)에 의해 구현되는 가상 파일 시스템으로 업그레이드되어 데이터 패키징 방법에 더 큰 유연성을 제공합니다.
차등적으로 발현된 유전자를 확인하기 위한 GEO2R 웹 애플리케이션
GEO가 최근에 구현 한 주요 업데이트는 http://www.ncbi.nlm.nih.gov/geo/geo2r/ 에서 사용할 수있는 GEO2R 웹 애플리케이션의 출시였습니다. GEO2R은 사용자가 GEO 데이터의 정교한 R 기반 분석을 수행하여 차등 유전자 발현을 식별하고 시각화할 수 있는 간단한 인터페이스를 제공합니다. GEO2R 백엔드는 확립 된 Bioconductor (13) R 패키지를 사용하여 GEO 데이터를 변환 및 분석하고 결과를 중요성에 따라 정렬 된 유전자 표로 표시하고 GEO Profile 그래픽으로 시각화 할 수 있습니다. GEO와 달리 다른 데이터 세트 분석 도구 [(9)에 설명 됨], GEO2R은 큐레이팅 된 데이터 세트 레코드에 의존하지 않으며 원래 제출자가 제공 한 데이터를 직접 조사합니다. GEO 연구의 90 % 이상이 이러한 방식으로 분석 될 수 있습니다. 이를 통해 데이터베이스의 유용성이 훨씬 더 많은 대상으로 확장되어 GEO 데이터의 더 많은 부분을 적시에 분석하고 비교할 샘플 그룹과 수행할 분석 유형 측면에서 더 유연하게 분석할 수 있습니다.
구현 및 데이터 흐름
웹 인터페이스에서 사용자가 분석할 계열을 지정하면 샘플 특성으로 채워진 테이블이 나타납니다(그림 2). 사용자는 비교할 샘플 그룹과 수행할 분석 유형을 최대 10개까지 지정합니다. 사용자는 기본 분석 설정을 수락하거나, 대체 P-값 조정을 적용하거나, 입력 데이터의 로그 변환을 강제 또는 재정의하거나, 대체 유전자 주석 범주를 선택하도록 선택할 수 있습니다. 이러한 매개 변수는 'GEOquery'(14) 호출이 FTP를 통해 해당 SeriesMatrix 파일 및 플랫폼 주석 파일을 로드하고 두 개의 R 스크립트에 대한 입력인 ExpressionSet 개체 및 대비를 반환하는 백 엔드로 전달됩니다. 'boxplot'은 사용자가 데이터가 분석에 적합한지 여부를 결정하는 데 도움이 되는 선택한 샘플의 표현식 값 분포에 대한 상자 플롯을 그립니다. 및 'limma'(15)는 최상위 유전자의 테이블을 추출하기 위해 topTable 계산을 수행합니다. 'limma' 결과는 요청된 출력 유형에 따라 처리되고 JSON 형식으로 지정된 다음 P-값으로 순위가 매겨진 상위 250개 유전자의 html 테이블을 만들고 채우는 데 사용됩니다. 결과 테이블에는 P-값, t-통계 및 접힘 변화를 포함한 다양한 통계 범주와 유전자 기호, 유전자 이름, 유전자 온톨로지(GO) 용어 및 염색체 위치를 포함한 유전자 주석이 포함되어 있습니다. 표에서 각 유전자의 발현 패턴은 행을 클릭하여 발현 프로필 그래프를 표시하여 시각화하거나 정렬된 결과의 전체 세트를 테이블로 다운로드할 수 있습니다. 또는 사용자가 차등 발현 분석을 수행하는 데 관심이 없고 특정 유전자의 발현 프로필만 보고 싶은 경우 위의 모든 사항을 건너뛰고 Platform 유전자 ID를 입력하기만 하면 해당 프로필을 시각화할 수 있습니다. 사용자가 분석을 복제할 수 있도록 각 세션에서 생성된 네이티브 R 스크립트가 제공됩니다. 이 정보는 결과를 계산하거나 GEO2R 상위 유전자 결과를 재현하는 데 사용하는 방법에 대한 참조로 저장할 수 있습니다. GEO2R 기능을 시연하는 YouTube 비디오 자습서는 http://www.youtube.com/watch?v=EUPmGWS8ik0 에서 사용할 수 있습니다.
지오2R 스크린샷. 시리즈 기록 GSE2(18388)에서 'GEO19R로 분석'을 선택한 후 사용자에게 해당 연구의 샘플 표와 설명(패널 1)이 제공됩니다. 이 경우 두 개의 샘플 그룹이 정의되고 각 그룹에 네 개의 샘플이 할당됩니다. 사용자는 상자 그림 기능(패널 2)을 사용하여 샘플 값의 분포를 보고 'Top250' 버튼을 클릭하여 통계 및 유전자 주석(패널 250)을 사용하여 상위 3개의 차등 발현 유전자의 테이블을 검색할 수 있습니다. 최상위 히트를 클릭하면 해당 유전자에 대한 발현 프로필 차트가 표시됩니다.
지역 데이터 재사용
마지막 GEO 업데이트 기사(16)에서는 가설을 뒷받침하는 특정 유전자 발현의 증거 제공, 알고리즘 개발을 위한 자료 테스트, 질병 예측 변수 식별, 부가가치 대상 고객 데이터베이스 개발, 일반적으로 원래 데이터 생성기에서 예상하지 못한 방식으로 데이터를 집계 및 분석하는 등 커뮤니티가 GEO 데이터를 재사용하는 다양한 방법을 요약했습니다. 데이터 재사용은 정확하게 추적하기 어렵지만 내부적으로(http://www.ncbi.nlm.nih.gov/geo/info/citations.html) 및 기타(17)에서 모니터링한 사용 인용을 기반으로 재사용률이 증가하고 있는 것으로 보입니다. 더 많은 과학자들이 연구에 데이터 기반 접근 방식을 사용하고 있다는 증거가 있습니다 (18), 프로젝트의 첫 번째 단계는 공개 데이터 세트를 결합하고 재분석하여 이전에 알려지지 않은 관계를 밝히거나 데이터에서 더 미묘한 추세를 발견하는 것입니다. 이러한 분석에서 얻은 새로운 통찰력은 실험실에서 테스트 할 수있는 가설로 형성됩니다. 이러한 기회는 점점 더 나은 품질의 데이터를 사용할 수있게됨에 따라 증가 할 것입니다.
요약
이제 12년이 된 GEO 데이터베이스는 볼륨, 데이터 유형 및 사용량의 다양성 측면에서 계속 성장하고 있습니다. 데이터베이스와 도구는 사용자가 GEO 데이터에서 의미있는 정보와 새로운 발견을보다 잘 탐색하고 추출 할 수 있도록 돕기 위해 집중적 인 개발을 계속하고 있습니다. 지속적인 과제에는 관련 리소스와의 통합 및 교차 연결 확장, 제출자로부터 보다 일관된 샘플 주석 확보, 차세대 시퀀스 데이터 분석을 위한 추가 방법 제공 등이 포함됩니다.
자금
오픈 액세스 요금에 대한 자금 지원: 국립 보건원, 국립 의학 도서관의 교내 연구 프로그램.
이해 상충 진술. 아무도 선언하지 않았습니다.
참조
이 주제에 대한 자세한 내용
펍메드의 관련 기사
를 통해 기사 인용
옥스포드 대학 출판부는 옥스포드 대학의 한 부서입니다. 전 세계적으로 출판함으로써 연구, 장학금 및 교육 분야의 우수성에 대한 대학의 목표를 더욱 발전시킵니다.
'생명공학' 카테고리의 다른 글
유전체 편집: genome editing (0) | 2023.02.28 |
---|---|
DNA/RNA에서 D/E 반복 (0) | 2023.02.14 |
NCBI 생명 공학 정보 센터 (0) | 2023.02.14 |
게놈 데이터 포털 (0) | 2023.01.11 |
PDQ 암 정보 (0) | 2023.01.11 |