SELEXINI project - PhD position in Paris

Semi-supervised word sense and frame induction

Contract duration: 36 months
Starting date: October 2022 to December 2022
Location: LLF laboratory, computational linguistics axis, Paris, France
Advisors: Marie Candito (LLF laboratory) and Carlos Ramisch (LIS lab, TALEP team)
Net salary: 1750 € (including 64h teaching, optional)
Application: The application file should be sent by May 9 to marie.candito (AT) u-paris.fr and carlos.ramisch (AT) lis-lab.fr. It should comprise:
- a CV (max 5 pages) with transcripts (Master), diplomas, internships
- a cover letter
- the names and contact of two referees
The candidates selected for interviews will send their Master thesis or other written work supporting their qualification for the project. They will be interviewed (remotely) between the end of May and mid-June 2022.

SELEXINI is a research project funded by the French National Research Agency (ANR) that focuses on semi-supervised word sense induction and semantic frame induction. The starting observation for this project is that identifying word meanings in context can lead to better performance and interpretability of NLP system predictions, but that the lack of large coverage sense-annotated data (coverage in terms of domains and of languages) hinders the use of lexicons in modern neural NLP.

The project aims at developing a word sense induction method by clustering occurrences, thus providing by construction a sense-annotated corpus, admittedly noisy but with large coverage. The method will be guided by pre-existing lexicons (in particular Wiktionary, available for many languages), and will make the best use of pre-trained transformer-based language models. The project also includes a part on the generation of definitions of these induced senses, as well as their use in a neural machine reading comprehension system, in order to improve its performance and the interpretability of its decisions.

The topic of this PhD position is more specifically the semi-supervised sense and frame induction part, using Wiktionary senses as constrained clustering seeds, and the grouping and structuring of induced senses into “semantic frames”. The latter involves grouping occurrences of predicative lemmas, based on similarities of their argument structures observed in corpora, and grouping their semantic arguments into induced semantic roles.

References

Ustalov, D., Panchenko, A., Kutuzov, A., Biemann, C. and Ponzetto, S. P., 2018, Unsupervised semantic frame induction using triclustering. In ACL 2018.
Yamada K., Sasano R., Takeda K., 2021, Semantic Frame Induction using Masked Word Embeddings and Two-Step Clustering. In ACL 2021.
Zhang H., Basu S., Davidson I., 2020, A Framework for Deep Constrained Clustering - Algorithms and Advances. In Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2019. LNCS (11906).

Induction semi-supervisée de sens et de cadres sémantiques

Durée : 36 mois
Début : début possible entre oct. 2022 et déc. 2022
Lieu : LLF, axe linguistique computationnelle, Paris, France
Encadrement : Marie Candito (LLF) et Carlos Ramisch (équipe TALEP, LIS)
Salaire : 1750 € nets, incluant 64h d’enseignement (optionnel)
Candidature : la date limite d’envoi du dossier de candidature est le 9 mai 2022, par mail à marie.candito (AT) u-paris.fr et carlos.ramisch (AT) lis-lab.fr. Le dossier comprend:
- un CV (max 5 pages) incluant entre autres les cours suivis et notes de master
- une lettre de motivation
- le nom et information de contact de deux références
Les candidat.e.s présélectionné.e.s enverront leur mémoire de master et/ou d’autres travaux écrits pouvant donner un aperçu de leurs connaissances en TAL. Les auditions (possibles par vidéoconférence) des candidat.e.s présélectionné.e.s auront lieu de fin mai à mi-juin 2022.

Le projet ANR SELEXINI porte sur l’induction semi-supervisée de sens et de cadres sémantiques. Le constat à l’origine de ce projet est qu’identifier les sens des mots en contexte peut permettre de meilleurs traitements et une meilleure interprétabilité des sorties de systèmes de TAL, mais que l’absence de données annotées en sens, qui soient couvrantes en termes de domaines et de langues, freine le recours à des lexiques en TAL aujourd’hui.

Le projet vise à développer une méthode d’induction de sens par clustering d’occurrences, fournissant ainsi par construction un corpus annoté en “sens”, certes bruité mais couvrant. La méthode sera d’une part guidées par des lexiques pré-existants (en particulier Wiktionary, disponible pour de nombreuses langues), et d’autre part mettra au mieux à profit les modèles de langue pré-entraînés. Le projet comporte par ailleurs une partie sur la génération de définitions de ces sens induits, ainsi que sur leur utilisation au sein d’un système de question-réponse neuronal, en vue d’améliorer les performances et l’interprétabilité des décisions du système.

Le sujet de thèse porte plus spécifiquement sur la partie induction semi-supervisée, en utilisant les sens Wiktionary comme graines de clustering contraint et sur la partie regroupement et structuration des sens induits en “cadres sémantiques” : il s’agit de grouper des occurrences de lemmes prédicatifs, sur la base des similitudes de structures argumentales en corpus, et de grouper leurs arguments sémantiques en rôles sémantiques induits.

Références

Ustalov, D., Panchenko, A., Kutuzov, A., Biemann, C. and Ponzetto, S. P., 2018, Unsupervised semantic frame induction using triclustering. In ACL 2018.
Yamada K., Sasano R., Takeda K., 2021, Semantic Frame Induction using Masked Word Embeddings and Two-Step Clustering. In ACL 2021.
Zhang H., Basu S., Davidson I., 2020, A Framework for Deep Constrained Clustering - Algorithms and Advances. In Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2019. LNCS (11906).