Définition: Une grammaire est récursive à gauche si elle a un non-terminal A tel qu'il est possible de dériver de A la chaîne "A Y" où Y est une chaîne de terminaux et/ou de non-terminaux quelconque.

Quand nous avions discuté la définition alternative de l'opérateur de Kleene au début de ce chapitre, nous avons vu qu'une récursion à gauche dite "immédiate" (sans non-terminal intermédiaire) peut être remplacée par une récursion à droite. La règle générale discutée avec l'exemple-4 nous donne la recette suivante pour éliminer la récursion à gauche:

•A --> Aa | b peut être remplacé par

A --> b A’

A’ --> a A’ | ε

•
A --> A a1 | A a2 | … | A am | b1 | b2 |…| bn peut être remplacé par

A --> b1 A’ | b2 A’ | …| bnA’

A’ --> a1 A’ | a2 A’ |… am A’ | ε:

Pour des cas plus complexes, on peut se servir de l'algorithme de transformation suivant (tiré du livre d'Aho et al.):

sdf

Voici des exemples

Diagrammes syntaxiques

Voici une grammaire exemple pour des expressions numériques:

E → T E'
E' → "+" T E' | ε
T → FT'
T' → "*" F T' | ε
F → "(" E ")" | id

On utilise des fois la notation BNF étendue pour définir la syntaxe, où des parenthèses, l'étoile de Kleene, et l'opérateur d'optionalité (?) sont permis. Alors une partie de droite d'une règle de production pourrait définir une expression régulière impliquant des symboles terminaux, mais aussi des non-terminaux. Par exemple, on sait que l'équation récursive " T' = "*" F T' | ε " a la solution T' = ( "*" F )* - notez que "*" est une symbole terminal et le * après la parenthèse fermante est l'opérateur de Kleene. C'est pourquoi les règles (3) et (4) pourraient être ré-écrites d'une façon équivalente comme

T = F ( "*" F )*

Diagrammes syntaxiques

Des règles syntaxiques peuvent aussi être définies par une notation graphique similaire aux machines d'états. De telle définitions sont appelées des "diagrammes syntaxiques". Ci-dessous (à gauche) il y a de tels diagrammes pour les règles syntaxiques (1), (2) et (5) de la grammaire ci-haut. Au milieu il y a un diagramme correspondant à la règle (6). Il est important de noter que chaque diagramme est une machine d'état récursive - cela veut dire qu'il se comporte comme une machine d'états sauf que certaines transitions ne correspondent pas à la lecture d'un symbole terminal, mais représentent un appel (récursif) d'une autre machine d'états. Une machine d'états récursive correspondant au diagramme syntaxique pour T (au milieu) est montrée à droite - la flèche double représente l'appel d'une instance d'une machine-F.

Recursive automaton for T:

state diagram T

Notez que ces diagrammes syntaxiques (et les machines d'états récursives) peuvent être facilement implantés par des procédures récursives, comme proposé pour l'implantation de l'analyse LL(1). Par exemple, la structure syntaxique pour T montrée ci-dessus, peut être réalisée par une méthode qui contient une boucle comme suit:

void T() { F(); while (symb == '*') { next(); F(); } }

Quand on construit un analyseur syntaxique avec des procédures récursives, on essaie souvent de réduire le nombre de procédures (à comparer avec le nombre de nonterminaux dans la syntaxe originale). En remplaçant les règles (3) et (4) par la règle (6) et en utilisant le diagramme ci-haut, on a un tel exemple de réduction.

Traitement des erreurs syntaxiques (voir ici) - ceci ne fait pas partie du cours - pour le lecteur curieux

Attributs sémantiques

Pour décrire les propriétés sémantiques des constructions syntaxiques permises par une grammaire, on se sert souvent d'attributs qui sont associés aux non-terminaux. On peut penser aux non-terminaux dans l'exemple de l'arbre syntaxique abstrait pour les expressions régulières, montré au début de cette page Web: dans cet exemple, chaque non-terminal de l'arbre est représenté par une instance d'objet en Java. Supposons que nous sommes intéressés de connaître pour chaque sous-expression l'ensemble First, c'est-à-dire l'ensemble des terminaux qui peuvent apparaître au début d'une chaîne faisant partie du langage défini par la sous-expression; par exemple, pour l'expression " a b | c a* " l'ensemble First = {a, c}. Ces ensembles First pourraient être définis comme un attribut supplémentaire de la classe Java RegExpr.

Note: Les fonctions d'évaluation des attributs dans leur forme restreinte pour éviter des définitions circulaires, mentionnées dans [Sebesta] dans la section 3.5.3 ont été proposée la première fois dans mon article "Semantic evaluation from left to right" qui apparaissait dans le journal de prestige de l'ACM en 1976. Voici un exemple de cet article qui montre la définition des règles de portée des déclarations dans un langage de programmation; en effet, il montre comment les informations contenues dans des tables de symboles sont passées entre les différentes parties du programme.

Exemple: les expressions - différentes grammaires et règles pour l'évaluation des attributs sémantiques

Évaluation statique veut dire évaluation pendant la phase de compilation (en opposition à évaluation pendant la phase d'exécution). L'évaluation des attributs sémantiques se fait pendant la phase de compilation. Quels attributs sont requis pour l'évaluation de la valeur d'une expression ? - Cela dépend des règles de la grammaire. Nous aimerions évaluer les attributs sémantiques pendant une passe de haut en bas à travers l'arbre syntaxique - c'est veut dire, en parallèle avec l'analyse syntaxique utilisant l'approche de descente récursive LL(1).

Nous avons vu les trois formes de règles différentes pour les expressions simples:

Avec la grammaire (1), nous avons un attribut synthétisé "v" (pour valeur) pour le nonterminal E qui est évalué sur l'arbre syntaxique de bas vers le haut et de gauche à droite, comme vu dans la figure (a) ci-dessous. - Mais cette grammaire n'admet pas l'analyse LL(1). - Voici les règles d'évaluation des attributs:

Avec la grammaire (3), qui est obtenue de la grammaire (1) en appliquant les transformations discutées plus haut, on obtient l'arbre syntaxique montré dans la figure (b) ci-dessous. Par une évaluation des atrtributs de bas en haut, nous obtenons une évaluation de l'expression de droite à gauche, ce qui n'est pas convenable. Mais nous pouvons introduire deux attributs pour E', un attribut synthétisé appellé "v" (comme pour le nonterminal E ci-dessus), plus un attribut hérité appellé "vi" qui représente la valeur intermédiaire de l'expression évaluée jusqu'au nonterminal E' en question. Voici les règles d'évaluation (voir aussi la figure (c) ci-dessous):

Voici une esquisse d'une procédure qui réalise l'analyse syntaxique et en même temps l'évaluation sémantique pour E'. Notez que l'attribut synthétisé est simplement réalisé dans le programme par la valeur retournée par la procédure, et l'attribut hérité est simplement représenté par un paramètre de la procédure.

int parse_Eprime (int vi) { if(token != PLUS) {return (vi)}else {next_token(); int T_v = parse_T(); return( parse_Eprime (vi + T_v)); } }

Avec la grammaire (2): Notez que les règles d'évaluation de la grammaire (3) sont complexes. La situation devient beaucoup plus simple avec la grammaire (2). Cette grammaire a aussi l'avantage qu'elle contient un seul nonterminal, donc une seule procédure récursive (au lieu de deux, pour E et E' dans le cas de la grammaire (3)). Voici une esquisse d'une telle procédure récursive écrite en Java correspondant au diagramme syntaxique donné ci-dessous.

int parse_E () { int v = parse_T(); while (token == PLUS) {next_token(); int T_v = parse_T(); v = v + T_v; } return(v); }

Notes sur la sémantique des langages de programmation (voir ici) – ceci ne fait pas partie du cours - pour le lecteur curieux

Les quatre classes de grammaires de Chomski

Chomsky distinguait les 4 classes de grammaires suivantes (à partir de la forme la plus générale à la forme la plus restrictive):

Un langage (formel) est un sous-ensemble de l'ensemble de tous les chaînes qui peuvent être formées à partir de l'alphabet des symboles terminaux. Puisqu'en général, il n'y a pas de borne sur la longueur de ces chaînes (les phrases du langage), la plupart des langages sont des ensembles infinis. Alors la question suivante se pose: Comment peut-on caractériser un ensemble infini par une description finie ? -- On a besoin d'une représentation finie pour raisonner sur l'ensemble.

Il y a deux questions importantes en relation avec un langage donné: déterminer si une chaîne donné de symboles terminaux est un élément du langage (le problème de reconnaissance ), et l'énumération de tous les éléments du langage (le problème d'énumération). Une grammaire peut être utilisée pour répondre à ces deux questions.

Aux différents types de grammaires de Chomski correspondent différents types d'automates accepteurs, machine à états finis pour les grammaires régulières, automates avec pile pour les grammaires hors-contexte, et les machines de Turing pour les grammaires générales (pour des informations supplémentaires, voir ici).

Des problèmes non décidables

Un problème est non décicable s'il peut être montré qu'il n'existe aucun algorithme qui résoud le problème pour tous les cas possibles. - Dans un sens, on pourrait dire que le problème est "plus complexe" que les problèmes NPcomplets, parce que pour ces problèmes, il existe un algorithme, même s'il est très inefficace.

	a	b	c	d	e	f	$
S	A B C	A B C	A B C		A B C	A B C
A	D B	C	C	C	C	D B
B		b A d	c
C		ε	ε	ε	e C		ε
D	a					f S

Analyse syntaxique

Équations récursives de langages

Équations récursives

Équations récursives de langages

Langages réguliers

Une définition alternative de l'opérateur de Kleene

Language non réguliers

Encore des exemples

Les arbres syntaxiques et le sens des programmes

Un exemple: Les expressions arithmétiques

Ambiguité et équivalence (quelques définitions)

Donner des priorités aux opérateurs

Syntaxe abstraite - méta-modèles

Arbres syntaxiques abstraits

Des règles syntaxiques plus compactes

Comment obtenir une syntaxe concrète (textuelle) non ambiguë ?

Une syntaxe concrète générale: XML

Quelques informations pour lecteur curieux (ne fait pas partie du cours)

L'analyse ascendante et descendante

L'analyse descendante LL(1) ["recursive descent parsing"]

Principe de l'analyse LL(1)

Implantation de l'analyse LL(1) - (a) approche interprétative

Voici le programme interprète:

Voici un exemple de grammaire et la table d'analyse correspondante:

. . . et la trace de l'exécution de l'algorithme pour la phrase "id + id * id"

Implantation de l'analyse LL(1) - (b) avec des procédures récursives (à être utilisée dans le lab-8 et devoir 3)

Vérification de la propriété LL(1)

Calcul des ensembles First et Follow

First

Follow

Vérifier la propriété LL(1) et construire la table syntaxique

Transformations d'une grammaire pour la rendre LL(1)

Voici des exemples

Diagrammes syntaxiques

Diagrammes syntaxiques

Traitement des erreurs syntaxiques (voir ici) - ceci ne fait pas partie du cours - pour le lecteur curieux

Attributs sémantiques

Exemple: les expressions - différentes grammaires et règles pour l'évaluation des attributs sémantiques

Notes sur la sémantique des langages de programmation (voir ici) – ceci ne fait pas partie du cours - pour le lecteur curieux

Les quatre classes de grammaires de Chomski

Des problèmes non décidables