Une recherche par IA des techno-signatures extra-terrestres

Une recherche par apprentissage profond des technosignatures de 820 étoiles proches  

Toledo, le 4 octobre 2023 

Il s’agit d’un article basé sur une publication scientifique, que j’ai essayé de vulgariser pour la rendre plus digeste. L’article est consultable ici : 

https://arxiv.org/abs/2301.12670

« Sommes-nous seuls ? » est l’une des questions scientifiques les plus profondes posées par les humains. La recherche d’intelligence extraterrestre (SETI) vise à répondre à cette question en cherchant des preuves de vie intelligente ailleurs dans la galaxie via les « technosignatures » créées par leurs technologies. La majorité des recherches de technosignatures jusqu’à présent ont été menées en écoutant des fréquences radio, étant donné la facilité de propagation des signaux radio à travers l’espace interstellaire, ainsi que l’efficacité relative de la construction de puissants émetteurs et récepteurs radio.  

Un type de technosignatures qui est le plus facilement distinguable des émissions radio astrophysiques naturelles est celui des bandes étroites (de l’ordre de 1 Hz) et/ou présentant des dérives Doppler dues aux mouvements relatifs de l’émetteur et du récepteur. La détection d’une technosignature sans équivoque démontrerait l’existence d’ETI et est donc d’un intérêt aigu tant pour les scientifiques que pour le grand public. 

Actuellement, l’une des principales forces motrices de la recherche SETI est l’initiative Breakthrough Listen (BL). Depuis 2016, BL utilise le télescope Robert C. Byrd Green Bank (GBT) aux États-Unis et le télescope Parkes « Murriyang » en Australie pour rechercher des technosignatures auprès de milliers d’étoiles et de centaines de galaxies sur plusieurs bandes.  

Malgré le fait que ces radiotélescopes soient situés dans des zones radio-silencieuses isolées des villes, l’Interférence Radio Fréquence (RFI) due à la technologie humaine pose toujours un grand défi pour la recherche SETI. Pour rejeter les RFI, l’équipe BL emploie des techniques comme le filtrage spatial via des observations « cadence », aussi connu sous le nom de « commutation de position ». 

Note de Toledo : En utilisant des antennes places à des positions géographiques différentes, on arrive à discriminer les signaux terrestres. 

Robert C. Byrd Green Bank 

Parkes « Murriyang 

Récemment, l’application de l’apprentissage automatique à l’aide d’IA (Model Language) dans l’astronomie a augmenté, grâce à sa capacité à généraliser les relations dans de grands ensembles de données. Dans le contexte du SETI, certains exemples incluent des classificateurs de signaux génériques et des identifiants RFI basés sur les Réseaux Neuronaux Convolutifs (CNN). Cependant, aucun n’a encore construit un pipeline SETI entièrement basé sur le ML. Ce document applique les avancées récentes dans l’apprentissage profond désintégré, en utilisant le framework β-VAE et un arbre de décision Random Forest pour mener la première analyse SETI ML complète. Il utilise des autoencodeurs pour apprendre implicitement les caractéristiques des données, améliorant ainsi la recherche de signaux ETI potentiels. 

Pour entraîner leur algorithme ML et évaluer le modèle, les auteurs ont utilisé des données étiquetées. Ils ont créé trois catégories de données étiquetées : (1) fausses données sans signaux ETI, (2) vraies données avec signaux ETI, et (3) vraies données avec signaux ETI et RFI.  

Faute de signaux ETI réels, ils ont généré des événements simulés en injectant artificiellement des signaux dans les spectrogrammes d’entrée via le package Python SETIGEN. Ils ont utilisé un total de 14,711 extraits d’arrière-plan différents, et ont tiré aléatoirement 120,000 échantillons pour constituer l’ensemble d’entraînement. 

L’utilisation de données simulées offre l’avantage de contrôler les paramètres d’injection comme le rapport signal sur bruit (S/N), la vitesse de dérive (DR) et la largeur (w) du signal.  

Les paramètres sont ajustés à des intervalles spécifiques pour S/N, DR, et w, et une combinaison aléatoire de ces paramètres est tirée pour chaque signal simulé. Cette méthode permet une simulation précise des signaux ETI dans le cadre de l’entraînement du modèle ML, tout en évitant la quantification des signaux injectés, en tenant compte de la résolution disponible dans les données observationnelles. 

Au total, il faut environ 12 heures pour générer et entraîner le modèle complet avec 100 itérations à chaque fois sur leurs machines. 

Résultats de la recherche 

Le modèle ML a exploré 115 millions de fenêtres d’extraits, retournant environ 2.9 millions de signaux d’intérêt, probablement surestimés. Près de 10% de ces événements proviennent d’environ 1% des cadences, majoritairement contaminées par des interférences radio (RFI), affectant le taux de faux positifs.  

La distribution des événements montre une concentration autour de 1600 MHz, coïncidant avec des RFI connues. Le modèle est légèrement moins précis dans ces fréquences. Une méthode a été établie pour exclure les fréquences avec plus de 35,000 événements par intervalle, éliminant ainsi environ 65 MHz de la bande entière. 

Note de Toledo : On trouve beaucoup de choses vers les 1600 MHZ, comme des signaux GPS et de la téléphonie mobile. De plus des composants électroniques fonctionnent aussi à cette fréquence. Comme la sensibilité du récepteur radio est extrême, il ramasse toute sorte de signaux parasites… 

L’algorithme ML SETI a été déployé sur le jeu de données GBT 1.1-1.9 GHz de Breakthrough Listen, provenant de diverses campagnes observationnelles, et hébergé au Berkeley SETI Research Center.  

Ce jeu de données, l’un des plus grands en un seul lieu, couvre une plage de fréquences de 1023-1926 MHz, comprenant 1004 cadences de 820 cibles uniques observées sur 480 heures, totalisant environ 120 To de données analysées. 

Chaque cadence contient six observations de 4.8 minutes enregistrées en format HDF5.  

L’analyse se concentre sur les données à haute résolution en fréquence, avec plus de la moitié des cadences ayant une résolution de 2.79 Hz et environ 323 millions de canaux de fréquence. Les autres, prises avant avril 2016, ont une résolution de 2.84 Hz avec environ 318 millions de canaux.  

Toutes les données ont une résolution temporelle d’environ 18 secondes.  

Certains segments de la bande sont affectés par des artefacts instrumentaux et sont exclus de la recherche, représentant environ 30% de la bande totale

La comparaison avec TurboSETI, un algorithme SETI couramment utilisé pour la recherche des signaux ETI, révèle des différences significatives dans les événements identifiés.  

Le travail avec le jeu de données GBT permet un benchmark des algorithmes grâce à des analyses préalables effectuées avec TurboSETI. Les résultats montrent que les événements détectés par l’algorithme ML et TurboSETI sont assez distincts, avec en moyenne 64% des événements identifiés par le ML non trouvés par une étude et 61% non trouvés par une autre, illustrant ainsi la capacité du ML à identifier des signaux que TurboSETI pourrait manquer

Note de Toledo : L’IA a montré des taux de performances supérieurs à des algorithmes spécialisés. Par exemple, il s’est avéré possible de compresser de la musique sans pertes avec deux fois plus d’efficacité en utilisant l’IA que le protocole spécialisé FLAC. Cela est valable pour d’autres protocoles de compression sur différents fichiers. 

Note de Toledo – Pourquoi ces fréquences spécifiques ? 

Les longueurs d’ondes très courtes sont dans la gamme des rayonnements lumineux, et sont absorbées par des gaz atmosphériques. 

Les longueurs d’ondes très longues correspondent aux fréquences radios, et sont absorbées par des gaz atmosphériques ionisés, comme on en trouve autour de la terre. 

Donc globalement l’idée fait que les fréquences les plus adaptées pour l’écoute interstellaire se situent entre 1 et 10 GHZ. 

Dans ces fréquences-là, on en trouve deux qui sont remarquables, 1 420 MHZ (18 centimètres), qui est la fréquence du radical hydroxyle (HO) et 1 666 MHZ, qui est celle de l’hydrogène

L’atome d’hydrogène est composé d’un proton et d’un électron. L’électron occupe le niveau d’énergie 1s. Dans ce niveau, deux configurations sont possibles suivant que le spin de l’électron et celui du proton sont parallèles ou antiparallèles. Or la configuration antiparallèle correspond à un niveau d’énergie un peu plus faible. La différence est minime, moins d’un millionième d’eV. C’est cependant suffisant pour que les électrons qui passent de la configuration parallèle à la configuration antiparallèle émettent un photon dont la fréquence est de 1420,4 MHz, soit 21 cm de longueur d’onde. Cette transition est appelée transition hyperfine de l’hydrogène.

On retrouve d’ailleurs cette représentation sur la plaque de la sonde Pioneer

On appelle cette fenêtre le trou de l’eau, ou le point d’eau

Le phénomène est décrit et nommé en 1971 par le chercheur américain Bernard Oliver. Présentes dans la fenêtre micro-onde (située entre 1 et 10 gigahertz), Oliver a présumé que ces fréquences seraient connues par toute formes de vie basées sur l’eau et ayant un degré minimal de maîtrise des signaux radio. Pour cette raison, plusieurs organisations ayant pour but la recherche et la découverte de vie extraterrestre, comme le programme SETI, observent régulièrement le point d’eau. 

Note de Toledo

L’IA est incontournable pour traiter en masse des gigantesques volumes de données, ce qui se fait déjà depuis une trentaine d’années, même si cela était plutôt précédemment confiné aux grandes entreprises possédant de gigantesques puissances de calculs, comme Google, Amazon ou la NSA. 

Aujourd’hui la puissance s’est démocratisée, et surtout les modèles de langage ont fait d’immense progrès ces 20 dernières années, en attentant la prochaine génération, beaucoup plus puissante, les modèles prédictifs qui arriveront d’ici 2 ans. 

La réception de rayonnement électromagnétique sur de larges bandes, la numérisation et le traitement du signal génère un volume extraordinaire de données, et l’IA est évidemment la solution la plus optimale pour rechercher des signatures particulières dans des immenses volumes de données. 

D’ailleurs, au vu de la gamme de fréquences à couvrir (divisées en petits canaux) et le nombre d’objets à étudier, l’écoute sur chaque fréquence a été très courte, on parle de quelques minutes. 

Dans les Big Guns, il faut aussi savoir que le plus grand radiotélescope au monde, Le radiotélescope sphérique de cinq cents mètres d’ouverture situé en Chine appelé FAST, a aussi des programmes de recherche SETI. Les scientifiques Chinois souhaitent d’ailleurs être les premiers à détecter de la vie extraterrestre, et ils y mettent les moyens.  

FAST génère des TB/S de données, et il possède son propre supercalculateur pour le traitement. 

Le dernier point dont nous pouvons parler, c’est de la pertinence de détecter des civilisations sur la base des ondes radios. En effet, l’homme moderne existe depuis environ 200 000 ans, et cela ne fait que 100 ans que nous utilisons les ondes radios. Il est possible aussi que dans 100 nous ne les utilisions plus, préférant des faisceaux basés par exemple sur des neutrinos. Au final, cela pourrait grandement réduire notre fenêtre de détection. 

Si le domaine des ondes électromagnétique vous intéresse, alors peut être cet article vous intéressera également : 

https://www.uap-blog.com/ross-coulthart-uap-et-frequences-em/

Cet article en rapport avec les ondes est aussi assez amusant: 

https://www.uap-blog.com/larmee-de-lair-us-guerroie-avec-les-ballons-radioamateurs/