La référence pour ce tutoriel est encore Laurence Moroney pour son cours en ligne, Natural Language Processing in TensorFlow sur la plateforme deeplearning.ai.
Voir la semaine 4 du cours.
Les données du code de Laurence ont été remplacées par le début du livre « La Peste » de Camus.
A partir du corpus « tokenisé » on crée pour chaque phrase (ou plutôt chaque ligne), un jeu de données comprenant comme données d’apprentissage le 1er mot, puis le 1er et le 2ème, puis … avec en label le dernier token de la phrase.
Par exemple, pour la phrase : 4 2 66 8, avec un padding à gauche, on aura (pour une longueur de 6) =
0 0 0 0 4 2
0 0 0 4 2 66
0 0 4 2 66 8
Dans le 1er cas, le label est 2, le 2ème 66, le 3ème 8.
Les labels sont one hot encoded.
En prenant comme seed text : « Avec de l’argent » la phrase générée est : Avec de l’argent l’avis général ils n’y étaient pas à leur place sortant un peu de l’ordinaire l’ordinaire l’ordinaire l’ordinaire soir et bains de mer mer mer mer mer les de mer mer les mer beaucoup sur le hasard des cartes au le cartes au café et le en le hiver leur reste
C’est un peu loufoque pour l’instant mais le corpus est réduit. Nous essaierons avec un corpus plus important dans un prochain article.