Reinforcement Learning for Uncoordinated Multiple Access

Benoît-Marie Robaglia

Résumé

Distributed Medium Access Control (MAC) protocols are fundamental in wireless communication, yet traditional random access-based protocols face significant limitations dealing with the Internet-of-Things (IoT) use cases. Indeed, they struggle with latency guarantees, making them unsuitable for Ultra Reliable Low Latency Communications (URLLC). This thesis addresses these challenges by leveraging the potential of Deep Reinforcement Learning (DRL), a paradigm where decision-makers optimize actions by interacting with an environment.This thesis tackles key challenges in the Medium Access (MA) problem for URLLC networks, including the latency in centralized protocols, the collision and retransmission issues in Grant-Free (GF) protocols, the complexities to handle device heterogeneity and dynamic environments. Furthermore, the thesis explores the integration of new physical layer techniques like Non-Orthogonal Multiple Access (NOMA).Our methodology applies DRL to develop intelligent protocols, which has already shown effectiveness in addressing IoT applications. Initially, we model the URLLC problem within a centralized paradigm, where the Base Station (BS) orchestrates device transmissions. This setup has the benefit to ensure collision-free communication but introduces partial observability as the BS does not have access to the users' buffer and channel state. We tackle this problem by introducing two algorithms: FilteredPPO and NOMA-PPO. While the former outperforms the benchmarks in scenarios with periodic traffic patterns, the latter demonstrates superior performance over the state-of-the-art baselines on scenarios with sporadic traffic. The third and fourth contributions, SeqDQN and MCA-PPO, study the application of Multi-Agent Reinforcement Learning (MARL) for URLLC where each device is equipped by a DRL algorithm. While SeqDQN explores a method to reduce non-stationarity and enhances scalability and training efficiency, MCA-PPO presents a theoretically robust solution for the Dynamic Multi-Channel Access (DMCA) challenge allowing users to optimize bandwidth utilization, and thus enhancing the URLLC performance.

Les protocoles de contrôle d'accès au support (MAC) distribués sont fondamentaux dans la communication sans fil, mais les protocoles traditionnels basés sur l'accès aléatoire sont confrontés à des limitations importantes dans le cas d'utilisation de l'internet des objets (IoT). En effet, ils ont du mal à garantir la latence, ce qui les rend inadaptés aux communications ultra-fiables à faible latence (URLLC). Cette thèse aborde ces défis en exploitant le potentiel de l'apprentissage par renforcement profond (DRL), un paradigme dans lequel les agents optimisent leurs actions en interagissant avec un environnement.Cette thèse aborde les principaux défis du problème de l'accès multiple (MA) pour les réseaux URLLC, incluant la latence des protocoles centralisés, les collisions et retransmissions des protocoles sans allocation (GF) ainsi que les complexités pour gérer l'hétérogénéité des appareils et les environnements dynamiques. En outre, la thèse explore l'intégration de nouvelles techniques de couche physique comme l'accès multiple non orthogonal (NOMA).Notre méthodologie applique le DRL pour développer des protocoles intelligents, qui ont déjà montré leur efficacité dans les applications IoT. Dans un premier temps, nous modélisons le problème de l'URLLC dans un paradigme centralisé, où la station de base (BS) orchestre les transmissions des appareils. Cette configuration présente l'avantage d'assurer une communication sans collision, mais introduit une observabilité partielle, car la station de base n'a pas accès à la mémoire et à l'état du canal des utilisateurs. Nous nous attaquons à ce problème en introduisant deux algorithmes : FilteredPPO et NOMA-PPO. Alors que le premier surpasse les algorithmes de référence dans les scénarios avec trafic périodique, le second démontre une performance supérieure à l'état de l'art dans les scénarios avec trafic sporadique. Les troisième et quatrième contributions, SeqDQN et MCA-PPO, étudient l'application de l'apprentissage par renforcement multi-agents (MARL) pour l'URLLC où chaque appareil est équipé d'un algorithme DRL. Alors que SeqDQN explore une méthode pour réduire la non-stationnarité et améliore la scalabilité et l'apprentissage, MCA-PPO présente une solution théoriquement robuste pour le défi de l'accès dynamique multicanal (DMCA) permettant aux utilisateurs d'optimiser l'utilisation de la bande passante et donc d'améliorer les performances URLLC.

Reinforcement Learning for Uncoordinated Multiple Access

Apprentissage par Renforcement pour l'accès multiple non-coordonné

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager