216.000’e Kadar Çalışmayı Etkileyen – Popüler Genetik Yöntemin Derinden Kusurlu Olduğu Bulundu

Genetic Disease Research Concept

Kusurlu yöntem milyonlarca çalışmada kullanılmıştır.

Yeni bir çalışma, popülasyon genetiği içindeki ortak bir analitik yöntemdeki kusurları ortaya koyuyor.

İsveç’teki Lund Üniversitesi’nden yapılan son araştırmalara göre, popülasyon genetiğinde en yaygın olarak kullanılan analitik yöntem derinden kusurlu. Bu, etnik köken ve genetik ilişkilerle ilgili yanlış sonuçlara ve yanılgılara neden olabilirdi. Yöntem, tıbbi genetik ve hatta ticari soy testlerindeki bulguları etkileyerek milyonlarca binlerce çalışmada kullanılmıştır. Bulgular yakın zamanda dergide yayınlandı Bilimsel Raporlar.

Bilimsel verilerin toplanma hızı hızla artıyor, bu da “Büyük Veri devrimi” olarak adlandırılan devasa ve çok karmaşık veritabanlarıyla sonuçlanıyor. Araştırmacılar, verileri daha yönetilebilir hale getirmek için önemli bilgilerin çoğunu korurken verileri yoğunlaştırmak ve basitleştirmek için istatistiksel teknikler kullanır. PCA (temel bileşen analizi) belki de en yaygın kullanılan yaklaşımdır. PCA’yı giriş verileri olarak un, şeker ve yumurta içeren bir fırın olarak hayal edin. Fırın her zaman aynı şeyi yapabilir, ancak nihai sonuç, bir pasta, malzemelerin oranlarına ve nasıl karıştırıldığına büyük ölçüde bağlıdır.

“Bu yöntemin çok sık kullanılması nedeniyle doğru sonuçlar vermesi bekleniyor. Ancak bu ne bir güvenilirlik garantisidir ne de istatistiksel olarak sağlam sonuçlar üretir” diyor Lund Üniversitesi’nde moleküler hücre biyolojisi alanında Doçent olan Dr. Eran Elhaik.

Elhaik’e göre yöntem, ırk ve etnik kökenle ilgili eski inançların gelişmesine katkıda bulundu. İnsanların kim ve nereden geldiğine dair tarihi hikayelerin üretilmesinde, yalnızca bilim camiası tarafından değil, aynı zamanda ticari kökenli şirketler tarafından da rol oynar. İyi bilinen bir örnek, ünlü bir Amerikalı politikacının 2020 başkanlık kampanyasından önce atalarının iddialarını desteklemek için bir soy testi kullanmasıdır. Başka bir örnek, Aşkenaz Yahudilerinin PCA sonuçları tarafından yönlendirilen izole bir grup veya ırk olarak yanlış anlaşılmasıdır.

Eran Elhaik, “Bu çalışma, bu sonuçların güvenilmez olduğunu gösteriyor” diyor.

PCA birçok bilimsel alanda kullanılmaktadır, ancak Elhaik’in çalışması, veri kümesi boyutlarındaki patlamanın özellikle akut olduğu popülasyon genetiğindeki kullanımına odaklanmaktadır;[{” attribute=””>DNA sequencing.

The field of paleogenomics, where we want to learn about ancient peoples and individuals such as Copper age Europeans, heavily relies on PCA. PCA is used to create a genetic map that positions the unknown sample alongside known reference samples. Thus far, the unknown samples have been assumed to be related to whichever reference population they overlap or lie closest to on the map.

However, Elhaik discovered that the unknown sample could be made to lie close to virtually any reference population just by changing the numbers and types of the reference samples (see illustration), generating practically endless historical versions, all mathematically “correct,” but only one may be biologically correct.

In the study, Elhaik has examined the twelve most common population genetic applications of PCA. He has used both simulated and real genetic data to show just how flexible PCA results can be. According to Elhaik, this flexibility means that conclusions based on PCA cannot be trusted since any change to the reference or test samples will produce different results.

Between 32,000 and 216,000 scientific articles in genetics alone have employed PCA for exploring and visualizing similarities and differences between individuals and populations and based their conclusions on these results.

“I believe these results must be re-evaluated,” says Elhaik.

He hopes that the new study will develop a better approach to questioning results and thus help to make science more reliable. He spent a significant portion of the past decade pioneering such methods, like the Geographic Population Structure (GPS) for predicting biogeography from DNA and the Pairwise Matcher to improve case-control matches used in genetic tests and drug trials.

“Techniques that offer such flexibility encourage bad science and are particularly dangerous in a world where there is intense pressure to publish. If a researcher runs PCA several times, the temptation will always be to select the output that makes the best story”, adds Professor William Amos, from the Univesity of Cambridge, who was not involved in the study.

Reference: “Principal Component Analyses (PCA)-based findings in population genetic studies are highly biased and must be reevaluated” by Eran Elhaik, 29 August 2022, Scientific Reports.
DOI: 10.1038/s41598-022-14395-4