Déterminer la coréférence est souvent complexe. Par exemple, dans « Bill a dit qu'il viendrait » , le pronom « il » peut se référer ou non à Bill. Identifier les coréférences est essentiel à l'analyse et à la compréhension du sens, et nécessite souvent des informations contextuelles, des connaissances pratiques, comme l'association de certains noms à des espèces particulières (« Rover »), à des types d'objets (« Titanic »), à des genres grammaticaux spécifiques ou à d'autres propriétés.
Les linguistes utilisent couramment des indices pour noter la coréférence, comme dans « Bill , j'ai dit qu'il viendrait » . On dit alors que ces expressions sont coindexées , ce qui indique qu'elles doivent être interprétées comme coréférentielles.
Lorsque des expressions sont coréférentielles, la première occurrence est souvent une forme complète ou descriptive (par exemple, un nom de personne complet, éventuellement accompagné d'un titre et d'une fonction), tandis que les occurrences suivantes utilisent des formes plus courtes (par exemple, un prénom, un nom de famille ou un pronom). La première occurrence est appelée antécédent et la seconde, proforme , anaphore ou référence. Cependant, les pronoms peuvent parfois renvoyer à un élément antérieur, comme dans « Quand elle est arrivée à la maison, Alice est allée se coucher. » Dans ce cas, la coréférence est dite cataphorique et non anaphorique.
La coréférence est importante pour comprendre les phénomènes de liaison en syntaxe. La théorie de la liaison explore la relation syntaxique qui existe entre les expressions coréférentielles dans les phrases et les textes.
l'anaphore , la cataphore , les antécédents divisés, les syntagmes nominaux coréférents, etc. Plusieurs de ces phénomènes plus spécifiques sont illustrés ici :- Anaphore
- a. La musique était si forte que je ne pouvais pas l'apprécier. – L'anaphore suit l'expression à laquelle elle se réfère (son antécédent).
- b. Nos voisins n'aiment pas la musique. S'ils sont en colère, la police ne tardera pas à arriver. – L'anaphore « ils » suit l'expression à laquelle elle se rapporte (son antécédent).
- Cataphore
- a. Si les voisins sont en colère à cause de la musique, j'appellerai la police. – La cataphore « ils » précède l'expression à laquelle elle se rapporte (son postcédent).
- b. Malgré sa difficulté, Wilma a fini par comprendre. – La cataphore précède l'expression à laquelle elle se rapporte (son postcédent) .
- Antécédents divisés
- a. Carol a dit à Bob d' aller à la fête. Ils sont arrivés ensemble. – L'anaphore « ils » a un antécédent double, se référant à la fois à Carol et à Bob .
- b. Lorsque Carol i aide Bob i et que Bob i aide Carol i , ils i peuvent accomplir n'importe quelle tâche. – L'anaphore ils i a un antécédent double, se référant à la fois à Carol et à Bob .
- groupes nominaux coréférents
- a . Le chef de projet refuse d'aider. Ce crétin ne pense qu'à lui . – Coréférence de groupes nominaux, le second groupe nominal étant une prédication sur le premier.
- b. Certains de nos collègues vont nous apporter leur soutien. Ces personnes -là mériteront notre gratitude. – Coréférence de groupes nominaux, le second groupe nominal étant une prédication sur le premier.
Relation avec les variables liées
Les sémanticiens et les logiciens font parfois une distinction entre la coréférence et ce que l'on appelle une variable liée . Les variables liées apparaissent lorsque l'antécédent de la proforme est une expression quantifiée indéfinie, par exemple Les expressions quantifiées telles que « chaque étudiant » et « aucun étudiant » ne sont pas considérées comme référentielles. Ces expressions sont grammaticalement singulières, mais ne désignent pas un référent unique dans le discours ou le monde réel. Ainsi, les antécédents de « son » dans ces exemples ne sont pas proprement référentiels, et « son » ne l'est pas non plus . Il est plutôt considéré comme une variable liée à son antécédent . Sa référence varie selon l'étudiant auquel on pense dans le contexte du discours. L'existence de variables liées est peut-être plus évidente dans l'exemple suivant :
Cette phrase est ambiguë. Elle peut signifier que Jack est satisfait de sa note, mais que personne d'autre ne l'apprécie ; ou que personne n'est satisfait de sa propre note, sauf Jack. Dans le premier cas, « sa » est coréférentiel ; dans le second, il s'agit d'une variable liée, car sa référence varie selon l'ensemble des élèves.
La notation de coindex est couramment utilisée dans les deux cas. Autrement dit, lorsque deux expressions ou plus sont coindexées, cela n'indique pas s'il s'agit d'une coréférence ou d'une variable liée (ou, comme dans le dernier exemple, si cela dépend de l'interprétation).
Résolution de coréférence
En linguistique informatique , la résolution des coréférences est un problème bien étudié dans le discours . Pour interpréter correctement un texte, ou même estimer l'importance relative des différents sujets mentionnés, il est nécessaire de relier les pronoms et autres expressions référentielles aux individus appropriés. Les algorithmes de résolution des coréférences recherchent généralement d'abord l'individu précédent le plus proche compatible avec l'expression référentielle. Par exemple, « elle » pourrait être rattaché à une expression précédente comme « la femme » ou « Anne » , mais moins probablement à « Bill » . Les pronoms tels que « lui-même » sont soumis à des contraintes beaucoup plus strictes. Comme pour de nombreuses tâches linguistiques, il existe un compromis entre précision et rappel . Parmi les métriques de qualité de regroupement couramment utilisées pour évaluer les algorithmes de résolution des coréférences, on trouve l' indice de Rand , l' indice de Rand ajusté et différentes méthodes basées sur l'information mutuelle .
Un problème particulier de résolution de la coréférence en anglais concerne le pronom « it » , qui a de nombreux emplois. Il peut se référer à des objets inanimés, comme « he » et « she » (il peut désigner « il » ou « elle »), à la différence qu'il peut en général être désigné par « it », « he » ou « she » (les règles sont en réalité plus complexes : les animaux peuvent être désignés par « it » , « he » ou « she » ; les navires sont traditionnellement désignés par « she » ; les ouragans sont généralement désignés par « it » malgré leurs noms genrés). Il peut également se référer à des abstractions plutôt qu'à des êtres, par exemple : « He was paid minimum wage, but didn't seem to mind it » (Il était payé au salaire minimum, mais cela ne semblait pas le déranger). Enfin, il a aussi des emplois pléonastiques , qui ne se réfèrent à rien de précis.