Joliciel Informatique, située à Foix, en Ariège,
est une petite entreprise spécialisée dans le traitement automatique des langues (TAL).
Elle est agréée par le Ministère de la Recherche en tant qu'organisme exécutant des travaux
de recherche et développement (R&D) pour le compte d'entreprises.
Nos produits
 |
Talismane (Traitement Automatique des Langues par Inférence Statistique Moyennant l'Annotation de Nombreux Exemples): Talismane est un outil libre et complet d'analyse syntaxique en dépendances, prêt à l'emploi pour le français. Talismane effectue, pour le français :
- la segmentation en phrases ;
- la segmentation en mots (tokenisation) + lemmatisation ;
- l'étiquetage morpho-syntaxique (pos-tagging) ;
- l'analyse syntaxique en dépendances (parsing).
Talismane a été entraîné sur le French Treebank (Abeillé et al, 2003)
pour la segmentation en phrases et en mots ainsi que pour le
pos-tagging, et sur le French Treebank converti en dépendances (Candito
et al, 2010) pour le parsing. Il utilise le LeFFF comme lexique par
défaut (Sagot 2010). Il est entièrement paramétrable (apprentissage,
traits, règles, jeu d'étiquettes, lexique...) et peut être réentraîné
pour d'autres langues.
En plus, Talismane permet de :
- analyser rapidement (2 millions de mots par heure dans la configuration de base) ;
- parser du XML ou du HTML facilement, par l'ajout de filtres indiquant quelles parties analyser ;
- ajouter des règles pour forcer ou empêcher le système de choisir une certaine segmentation, étiquette ou lien de dépendance, selon le contexte ;
- choisir entre une analyse de meilleure qualité (faisceau large) ou plus rapide (faisceau étroit) ;
- garder une trace de la position exacte de chaque token analysé dans le fichier d'origine ;
- indiquer la confiance du système dans chaque décision prise.
Code source.
Documentation
|
 |
Jochre (Java Optical CHaracter REcognition): réconnaissance des caractères par apprentissage automatique, avec des implémentations pour le yiddish et l'occitan.
|
 |
Aplikaterm: Centre de gestion de terminologie en ligne.
|
Notre spécialité
- Analyse syntaxique automatique.
- Extraction de terminologie à partir des corpus techniques.
- Construction de ressources lexicales et sémantiques.
- Réconnaissances de caractères (Optical Character Recognition)
- Recherche d'information avec Apache Lucene, et algorithmes de similarité entre documents
Contact
Joliciel Informatique
2 av du Cardié
09000 FOIX
admin@joli-ciel.com
Joliciel Informatique SARL au capital de 26 000 € - RCS Foix
Code NAF 6201Z – № SIRET 504 721 689 00033 – TVA FR26 504 721 689
|