Extraire les emplacements du document (Conversion)

Disponible avec une licence LocateXT.

Synthèse

Analyse les documents contenant un texte non-structuré ou semi-structuré, comme des messages électroniques, des formulaires de déplacement, etc. et extrait les emplacements vers une classe d’entités ponctuelles.

L’outil analyse et traite les documents en entrée comme suit :

  • Il identifie les coordonnées spatiales spécifiques dans le contenu des documents et génère des points représentant ces emplacements. Les formats de coordonnées suivants sont reconnus : degrés décimaux, minutes décimales degrés, secondes minutes degrés, Universal Transverse Mercator et système de référence de carroyage militaire.
  • Il identifie les noms de lieu précisés dans le contenu des documents définis dans un fichier d’emplacements personnalisés et génère des points représentant ces emplacements. Un fichier d’emplacements personnalisés associe un nom de lieu à des coordonnées spatiales représentant cet emplacement.
  • Il identifie le texte d’intérêt, extrait ces informations depuis un document et les enregistre dans des champs dans la table attributaire de la classe d’entités en sortie.

Cet outil prend en charge tous les documents Microsoft Office (Word, PowerPoint et Excel) ; les documents Adobe PDF ; le texte balisé comme les documents XML et HTML ; et tout fichier contenant le texte brut comme les fichiers texte (.txt).

Utilisation

  • Les valeurs par défaut de paramètre sont conçues pour optimiser l’identification des coordonnées et des dates. Les valeurs par défaut peuvent être modifiées pour chaque paramètre. Moins vous modifiez de paramètre, plus l’exécution de l’outil est rapide.

  • Tous les formats de coordonnées sont activés par défaut. Si vous voulez n’extraire que des localisations personnalisées et pas de coordonnées spatiales, désactivez les paramètres de format de coordonnées.

  • Si un document PDF Adobe est fourni en entrée et que son contenu inclut une coordonnée spatiale dans un format activé, et si la classe d’entités en sortie ne contient pas d’entité représentant la coordonnée spatiale, votre ordinateur risque de ne pas disposer d’un composant obligatoire pour traiter les documents PDF.

    En savoir plus sur l’analyse des fichiers

  • Si vous utilisez un fichier de localisations personnalisées pour extraire des noms de lieux, la meilleure pratique consiste à spécifier moins de noms de lieux dans le fichier. Par exemple, si vous convertissez une classe d’entités représentant tous les lieux dans le monde en un fichier de localisations personnalisées, le traitement peut prendre énormément de temps à rechercher des lieux probablement absents ou qui se trouvent dans des parties du monde que vous ne souhaitez pas inclure dans votre analyse.

    En savoir plus sur les fichiers de localisations personnalisées

  • Si les noms de lieux qui vous intéressent sont susceptibles d’être mal épelés ou ont des variantes connues, vous obtiendrez de meilleurs résultats en spécifiant les coquilles les plus répandues et le nom des variantes dans le fichier de localisations personnalisées qu’en utilisant l’appariement flou. Lorsque l’appariement flou est activé, vous obtenez une localisation en sortie s’il existe une correspondance dans le contenu en entrée pour 70 % des caractères d’un nom de lieu. Vous vous exposez ainsi plus à de faux positifs que si vous indiquez les fautes d’orthographe et les variantes de nom connues.

    Si vous optez pour l’appariement flou, une bonne pratique consiste à commencer par exécuter l’outil avec cette fonctionnalité désactivée, puis à l’exécuter à nouveau en l’activant et à vérifier les résultats. Vous pouvez ainsi identifier plus facilement les variations orthographiques qui peuvent être ajoutées à vos fichiers de localisations personnalisées.

    En savoir plus sur l’appariement flou

Paramètres

ÉtiquetteExplicationType de données
Fichier en entrée

Fichier en entrée numérisé pour les emplacements (coordonnées ou emplacements personnalisés), dates et attributs personnalisés ; ou un dossier dans lequel tous les fichiers vont être scannés pour emplacements.

File
Classe d’entités en sortie

Classe d’entités contenant les entités ponctuelles qui représentent les localisations qui ont été trouvées.

Feature Class
Modèle en entrée
(Facultatif)

Fichier de modèle (*.lxttmpl) qui détermine la définition à utiliser pour chaque paramètre de l’outil. Lorsqu’un fichier de modèle est fourni, toutes les valeurs spécifiées pour d’autres paramètres sont ignorées, à l’exception de celles qui déterminent le contenu en entrée qui sera traité et la classe d’entités en sortie.

Certains paramètres de la fenêtre Extract Locations (Extraire les localisations) ne sont disponibles avec cet outil que s’ils sont enregistrés dans un fichier de modèle et que ce dernier est référencé dans ce paramètre. Ces paramètres sont les suivants :

  • Coordonnées spatiales au formant x,y : permet de reconnaître deux nombres séquentiels tels que 630084 4833438 ou 981075.652ftUS 607151.272ftUS comme coordonnées lorsqu’ils sont valides pour un système de coordonnées planaires associé aux documents en entrée. Vous pouvez spécifier si les nombres avec et sans unités de mesure sont reconnus comme coordonnées, ou si seuls ceux avec unités le sont.
  • Formats de date et de coordonnée personnalisés : permet de personnaliser la façon dont le texte est reconnu comme coordonnée spatiale ou comme date, en particulier lorsqu’il est rédigé dans une autre langue que l’anglais ou dans un format peu répandu aux États-Unis. Par exemple, une coordonnée spatiale écrite 30 20 10 N x 060 50 40 W peut être reconnue grâce à une personnalisation permettant d’identifier comme texte valide le caractère x entre la latitude et la longitude. Les coordonnées et les dates comme 60.91°N, 147.34°O et 17 juillet, 2018 peuvent être reconnues lorsque des personnalisations sont spécifiées de sorte à accepter la langue des documents, ici le français. De plus, lorsque les années sont exprimées sur deux chiffres, vous pouvez contrôler la plage d’années à laquelle elles correspondent.
  • Préférences concernant les dates ambigües : une date telle que 10/12/2019 est ambigüe, car elle peut correspondre au 12 octobre 2019 comme au 10 décembre 2019. Certains pays utilisent le format de date m/j/aa, d’autres le format j/m/aa. Il est possible de définir une préférence pour déterminer comment ces dates doivent être interprétées (soit m/j/aa, soit j/m/aa) en fonction du pays d’origine des documents.
  • Longueur des champs dans la classe d’entités en sortie : vous pouvez spécifier la longueur des champs contenant du texte qui entourent les coordonnées spatiales extraites d’un document à l’aide des paramètres Pre-Text Field Length (Longueur du champ avant le texte) (pre_text_length dans Python) et Post-Text Field Length (Longueur du champ après le texte) (post_text_length dans Python). La fenêtre Extract Locations (Extraire les localisations) vous permet de contrôler la longueur de plusieurs champs supplémentaires dans la table attributaire, notamment ceux contenant des dates extraites du document, le texte original converti en date, le nom du fichier dont ont été extraites les informations, etc.

File
Latitude et longitude
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format latitude et longitude (faux positifs rares). Exemples : 33.8N 77.035W et W77N38.88909.

  • Activé : l’outil recherche les coordonnées en degrés décimaux au format latitude et longitude. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés décimaux au format latitude et longitude.
Boolean
X Y avec symboles de degrés
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y avec symboles de degrés (faux positifs rares). Exemples : 38.8° -77.035° et -077d+38.88909d.

  • Activé : l’outil recherche les coordonnées en degrés décimaux au format X Y avec symboles de degrés. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés décimaux au format X Y avec symboles de degrés.
Boolean
X Y sans aucun symbole
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y sans aucun symbole (faux positifs rares). Exemples : 38.8 -77.035 et -077.0, +38.88909.

  • Activé : l’outil recherche les coordonnées en degrés décimaux au format X Y sans aucun symbole (faux positifs rares). Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés décimaux au format X Y sans aucun symbole.
Boolean
Latitude et longitude
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format latitude et longitude (faux positifs rares). Exemples : 3853.3N 7702.100W et W7702N3853.3458.

  • Activé : l’outil recherche les coordonnées en degrés minutes décimales au format latitude et longitude. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés minutes décimales au format latitude et longitude.
Boolean
X Y avec symboles de minutes
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format X Y avec symboles de degrés (faux positifs rares). Exemples : 3853' -7702.1' et -07702m+3853.3458m.

  • Activé : l’outil recherche les coordonnées en degrés minutes décimales au format X Y avec symboles de degrés. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés minutes décimales au format X Y avec symboles de degrés.
Boolean
Latitude et longitude
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format latitude et longitude (faux positifs rares). Exemples : 385320.7N 770206.000W et W770206N385320.76.

  • Activé : l’outil recherche les coordonnées en degrés minutes secondes au format latitude et longitude. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés minutes secondes au format latitude et longitude.
Boolean
X Y avec symboles de secondes
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec symboles de secondes (faux positifs rares). Exemples : 385320" -770206.0" et -0770206.0s+385320.76s.

  • Activé : l’outil recherche les coordonnées en degrés minutes secondes au format X Y avec symboles de secondes. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés minutes secondes au format X Y avec symboles de secondes.
Boolean
X Y avec séparateurs
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec séparateurs (faux positifs à fréquence modérée). Exemples : 38:53:20 -77:2:6.0 et -077/02/06/+38/53/20.76.

  • Activé : l’outil recherche les coordonnées en degrés minutes secondes au format X Y avec séparateurs. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées en degrés minutes secondes au format X Y avec séparateurs.
Boolean
Universal Transverse Mercator
(Facultatif)

Spécifie s’il faut rechercher les coordonnées de projection transverse universelle de Mercator (UTM) (faux positifs modérés). Exemples : 18S 323503 4306438 et 18 north 323503.25 4306438.39.

  • Activé : l’outil recherche les coordonnées UTM. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées UTM.
Boolean
UPS Polaire Nord
(Facultatif)

Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Nord (faux positifs rares). Exemples : Y 2722399 2000000 et north 2722399 2000000.

  • Activé : l’outil recherche les coordonnées UPS dans la zone du pôle Nord. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées UPS dans la zone du pôle Nord.
Boolean
UPS Polaire Sud
(Facultatif)

Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Sud (faux positifs rares). Exemples : A 2000000 3168892 et south 2000000 3168892.

  • Activé : l’outil recherche les coordonnées UPS dans la zone du pôle Sud. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées UPS dans la zone du pôle Sud.
Boolean
Military Grid Reference System
(Facultatif)

Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) (faux positifs rares). Exemples : 18S UJ 13503 06438 et 18SUJ0306.

  • Activé : l’outil recherche les coordonnées MGRS. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées MGRS.
Boolean
Polaire Nord
(Facultatif)

Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Nord (faux positifs rares). Exemples : Y TG 56814 69009 et YTG5669.

  • Activé : l’outil recherche les coordonnées MGRS dans la zone du pôle Nord. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées MGRS dans la zone du pôle Nord.
Boolean
Polaire Sud
(Facultatif)

Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Sud (faux positifs à fréquence modérée). Exemples : A TN 56814 30991 et ATN5630.

  • Activé : l’outil recherche les coordonnées MGRS dans la zone du pôle Sud. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les coordonnées MGRS dans la zone du pôle Sud.
Boolean
Utiliser la virgule comme séparateur décimal
(Facultatif)

Spécifie si une virgule (,) est reconnue comme séparateur décimal. Par défaut, l’analyse de contenu recherche des coordonnées spatiales définies par des nombres utilisant un point (.) ou un point médian (·) comme séparateur décimal, par exemple : Lat 01° 10·80’ N Long 103° 28·60’ E. Si dans le contenu sur lequel vous travaillez, les coordonnées spatiales sont définies par des nombres utilisant une virgule (,) comme séparateur décimal (52° 8′ 32,14″ N; 5° 24′ 56,09″ E, par exemple), définissez ce paramètre afin que la virgule, et non le point, soit reconnue comme séparateur décimal. Ce paramètre n’est pas défini automatiquement en fonction des paramètres régionaux du système d’exploitation de votre ordinateur.

  • Activé : la virgule est reconnue comme séparateur décimal.
  • Désactivé : le point ou le point médian est reconnu comme séparateur décimal. Il s’agit de l’option par défaut.
Boolean
Interpréter comme longitude, latitude
(Facultatif)

Spécifie si les coordonnées x,y sont interprétées comme longitude-latitude. Lorsque des nombres ressemblent à des coordonnées x,y, que les deux nombres sont inférieurs à 90 et qu’aucun symbole ou notation n’indique quel nombre représente la latitude ou la longitude, les résultats peuvent être ambigus. Ce paramètre permet d’interpréter les nombres comme une coordonnée de longitude-latitude (x,y) et non comme une coordonnée de latitude-longitude (y,x).

  • Activé : les coordonnées x,y sont interprétées comme longitude-latitude.
  • Désactivé : les coordonnées x,y sont interprétées comme latitude-longitude. Il s’agit de l’option par défaut.
Boolean
Système de coordonnées en entrée
(Facultatif)

Système de coordonnées utilisé pour interpréter les coordonnées spatiales définies dans l’entrée. GCS-WGS-84 est la valeur par défaut.

Spatial Reference
Emplacements personnalisés en entrée
(Facultatif)

Fichier de localisations personnalisées (.lxtgaz) utilisé pour analyser le contenu en entrée. Un point est créé pour représenter chaque occurrence de chaque nom de lieu dans le fichier de localisations, dans les limites définies par d’autres paramètres de l’outil.

File
Utiliser l’appariement flou
(Facultatif)

Spécifie si l’appariement flou est utilisé pour comparer le contenu en entrée aux noms de lieux indiqués dans le fichier de localisations.

  • Activé : l’appariement flou est utilisé pour effectuer des recherches dans le fichier de localisations.
  • Désactivé : la correspondance exacte est utilisée pour effectuer des recherches dans le fichier de localisations. Il s’agit de l’option par défaut.
Boolean
Nombre maximum d’entités extraites
(Facultatif)

Nombre maximal d’entités pouvant être extraites. L’outil cesse l’analyse du contenu en entrée à la recherche de localisations lorsque le nombre maximal est atteint. Si l’outil est exécuté en tant que service de géotraitement, le service et le serveur peuvent avoir des limites distinctes quant au nombre d’entités autorisées.

Long
Ignorer ce premier nombre d’entités
(Facultatif)

Nombre d’entités détectées et ignorées avant d’extraire toutes les autres entités. Ce paramètre peut être utilisé pour cibler la recherche sur une portion spécifique des données.

Long
Nom du mois utilisé
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles figure le nom du mois (faux positifs rares). Exemples : 12 May 2003 et January 15, 1997.

  • Activé : l’outil recherche les dates dans lesquelles figure le nom du mois. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les dates dans lesquelles figure le nom du mois.
Boolean
M/J/A et J/M/A
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA (faux positifs à fréquence modérée). Exemples : 5/12/03 et 1-15-1997.

  • Activé : l’outil recherche les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA (faux positifs à fréquence modérée). Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA.
Boolean
AAAAMMJJ
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAAAMMJJ (faux positifs à fréquence modérée). Exemples : 20030512 et 19970115.

  • Activé : l’outil recherche les dates dans lesquelles les chiffres sont au format AAAAMMJJ (faux positifs à fréquence modérée). Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les dates dans lesquelles les chiffres sont au format AAAAMMJJ.
Boolean
AAMMJJ
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAMMJJ (faux positifs fréquents). Exemples : 030512 et 970115.

  • Activé : l’outil recherche les dates dans lesquelles les chiffres sont au format AAMMJJ (faux positifs fréquents). Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les dates dans lesquelles les chiffres sont au format AAMMJJ.
Boolean
AAJJJ
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ (faux positifs fréquents). Exemples : 03132 et 97015.

  • Activé : l’outil recherche les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ (faux positifs fréquents). Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ.
Boolean
Nombre maximum de dates extraites
(Facultatif)

Nombre maximal de dates qui seront extraites.

Long
Ignorer ce premier nombre de dates
(Facultatif)

Nombre de dates qui sont détectées et ignorées avant d’extraire toutes les autres dates.

Long
Date la plus ancienne de la plage de dates acceptables
(Facultatif)

Date la plus ancienne acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus récente sont extraites.

Date
Date la plus récente de la plage de dates acceptables
(Facultatif)

Date la plus récente acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus ancienne sont extraites.

Date
Attributs personnalisés en entrée
(Facultatif)

Fichier attributaire personnalisé (.lxtca) utilisé pour analyser le contenu en entrée. Les champs sont créés dans la table attributaire de la classe d’entités en sortie pour tous les attributs personnalisés définis dans le fichier. Lors de l’analyse du contenu en entrée, l’examen vise à rechercher s’il contient du texte associé à tous les attributs personnalisés spécifiés dans le fichier. Lorsqu’une correspondance est trouvée, le texte concerné est extrait du contenu en entrée et stocké dans le champ approprié.

File
Texte du lien du fichier en entrée
(Facultatif)

Chemin d’accès au fichier utilisé comme nom du fichier dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, le chemin du Input File (Fichier en entrée) est utilisé, mais il peut correspondre à un dossier inaccessible sur le serveur. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné.

String
Date et heure de du fichier en entrée
(Facultatif)

Date et heure UTC de modification du fichier, utilisées comme attribut modifié dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, la date/heure actuelle de modification du fichier en entrée est utilisée. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné.

Date
Longueur du champ avant le texte
(Facultatif)

Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait avant le texte qui définit la localisation. Le texte extrait est stocké dans le champ Pre-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Pre-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254.

Long
Longueur du champ après le texte
(Facultatif)

Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait après le texte qui définit la localisation. Le texte extrait est stocké dans le champ Post-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Post-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254.

Long
Format de coordonnées
(Facultatif)

Spécifie le format de coordonnées utilisé pour stocker la localisation des coordonnées. Une représentation standard des coordonnées spatiales qui définissent l’entité ponctuelle est enregistrée dans un champ de la table attributaire.

  • DD - Degrés décimauxLa localisation des coordonnées est enregistrée en degrés décimaux. Il s’agit de l’option par défaut.
  • DM - Degrés minutes décimalesLa localisation des coordonnées est enregistrée en degrés minutes décimales.
  • DMS - Degrés minutes secondesLa localisation des coordonnées est enregistrée en degrés minutes secondes.
  • UTM - Universal Transverse MercatorLa localisation des coordonnées est enregistrée au format de projection transverse universelle de Mercator (UTM).
  • MGRS - Système de référence de carroyage militaireLa localisation des coordonnées est enregistrée au format Military Grid Reference System (MGRS).
String
Demander des césures de mots
(Facultatif)

Spécifie s’il faut rechercher du texte à l’aide de la césure de mot. Une césure de mot se produit lorsqu’un mot (texte) est précédé ou suivi d’un espace ou d’un caractère de ponctuation, comme cela arrive dans les langues européennes.

Ce paramètre peut générer des faux positifs rares ou fréquents, selon la langue du texte. Par exemple, si les césures de mots ne sont pas demandées, le texte en anglais Bernard sera une correspondance pour le texte San Bernardino, qui sera probablement considéré comme un faux positif. En revanche, lorsque le texte est rédigé dans une langue qui n’utilise pas les césures, vous ne pourrez pas trouver des mots si ces dernières sont demandées. Par exemple, dans le texte en japonais I flew to Tokyo (J’ai pris l’avion pour Tokyo), 私は東京に飛んで, seul le mot Tokyo, 東京, est trouvé si les césures ne sont pas demandées.

  • Activé : l’outil recherche les mots précédés ou suivis d’un espace ou d’un caractère de ponctuation. Il s’agit de l’option par défaut.
  • Désactivé : l’outil ne recherche pas les mots précédés ou suivis d’un espace ou d’un caractère de ponctuation.
Boolean

arcpy.conversion.ExtractLocationsDocument(in_file, out_feature_class, {in_template}, {coord_dd_latlon}, {coord_dd_xydeg}, {coord_dd_xyplain}, {coord_dm_latlon}, {coord_dm_xymin}, {coord_dms_latlon}, {coord_dms_xysec}, {coord_dms_xysep}, {coord_utm}, {coord_ups_north}, {coord_ups_south}, {coord_mgrs}, {coord_mgrs_northpolar}, {coord_mgrs_southpolar}, {comma_decimal}, {coord_use_lonlat}, {in_coor_system}, {in_custom_locations}, {fuzzy_match}, {max_features_extracted}, {ignore_first_features}, {date_monthname}, {date_m_d_y}, {date_yyyymmdd}, {date_yymmdd}, {date_yyjjj}, {max_dates_extracted}, {ignore_first_dates}, {date_range_begin}, {date_range_end}, {in_custom_attributes}, {file_link}, {file_mod_datetime}, {pre_text_length}, {post_text_length}, {std_coord_fmt}, {req_word_breaks})
NomExplicationType de données
in_file

Fichier en entrée numérisé pour les emplacements (coordonnées ou emplacements personnalisés), dates et attributs personnalisés ; ou un dossier dans lequel tous les fichiers vont être scannés pour emplacements.

File
out_feature_class

Classe d’entités contenant les entités ponctuelles qui représentent les localisations qui ont été trouvées.

Feature Class
in_template
(Facultatif)

Fichier de modèle (*.lxttmpl) qui détermine la définition à utiliser pour chaque paramètre de l’outil. Lorsqu’un fichier de modèle est fourni, toutes les valeurs spécifiées pour d’autres paramètres sont ignorées, à l’exception de celles qui déterminent le contenu en entrée qui sera traité et la classe d’entités en sortie.

Certains paramètres de la fenêtre Extract Locations (Extraire les localisations) ne sont disponibles avec cet outil que s’ils sont enregistrés dans un fichier de modèle et que ce dernier est référencé dans ce paramètre. Ces paramètres sont les suivants :

  • Coordonnées spatiales au formant x,y : permet de reconnaître deux nombres séquentiels tels que 630084 4833438 ou 981075.652ftUS 607151.272ftUS comme coordonnées lorsqu’ils sont valides pour un système de coordonnées planaires associé aux documents en entrée. Vous pouvez spécifier si les nombres avec et sans unités de mesure sont reconnus comme coordonnées, ou si seuls ceux avec unités le sont.
  • Formats de date et de coordonnée personnalisés : permet de personnaliser la façon dont le texte est reconnu comme coordonnée spatiale ou comme date, en particulier lorsqu’il est rédigé dans une autre langue que l’anglais ou dans un format peu répandu aux États-Unis. Par exemple, une coordonnée spatiale écrite 30 20 10 N x 060 50 40 W peut être reconnue grâce à une personnalisation permettant d’identifier comme texte valide le caractère x entre la latitude et la longitude. Les coordonnées et les dates comme 60.91°N, 147.34°O et 17 juillet, 2018 peuvent être reconnues lorsque des personnalisations sont spécifiées de sorte à accepter la langue des documents, ici le français. De plus, lorsque les années sont exprimées sur deux chiffres, vous pouvez contrôler la plage d’années à laquelle elles correspondent.
  • Préférences concernant les dates ambigües : une date telle que 10/12/2019 est ambigüe, car elle peut correspondre au 12 octobre 2019 comme au 10 décembre 2019. Certains pays utilisent le format de date m/j/aa, d’autres le format j/m/aa. Il est possible de définir une préférence pour déterminer comment ces dates doivent être interprétées (soit m/j/aa, soit j/m/aa) en fonction du pays d’origine des documents.
  • Longueur des champs dans la classe d’entités en sortie : vous pouvez spécifier la longueur des champs contenant du texte qui entourent les coordonnées spatiales extraites d’un document à l’aide des paramètres Pre-Text Field Length (Longueur du champ avant le texte) (pre_text_length dans Python) et Post-Text Field Length (Longueur du champ après le texte) (post_text_length dans Python). La fenêtre Extract Locations (Extraire les localisations) vous permet de contrôler la longueur de plusieurs champs supplémentaires dans la table attributaire, notamment ceux contenant des dates extraites du document, le texte original converti en date, le nom du fichier dont ont été extraites les informations, etc.

File
coord_dd_latlon
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format latitude et longitude (faux positifs rares). Exemples : 33.8N 77.035W et W77N38.88909.

  • FIND_DD_LATLONL’outil recherche les coordonnées en degrés décimaux au format latitude et longitude. Il s’agit de l’option par défaut.
  • DONT_FIND_DD_LATLONL’outil ne recherche pas les coordonnées en degrés décimaux au format latitude et longitude.
Boolean
coord_dd_xydeg
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y avec symboles de degrés (faux positifs rares). Exemples : 38.8° -77.035° et -077d+38.88909d.

  • FIND_DD_XYDEGL’outil recherche les coordonnées en degrés décimaux au format X Y avec symboles de degrés. Il s’agit de l’option par défaut.
  • DONT_FIND_DD_XYDEGL’outil ne recherche pas les coordonnées en degrés décimaux au format X Y avec symboles de degrés.
Boolean
coord_dd_xyplain
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y sans aucun symbole (faux positifs rares). Exemples : 38.8 -77.035 et -077.0, +38.88909.

  • FIND_DD_XYPLAINL’outil recherche les coordonnées en degrés décimaux au format X Y sans aucun symbole (faux positifs rares). Il s’agit de l’option par défaut.
  • DONT_FIND_DD_XYPLAINL’outil ne recherche pas les coordonnées en degrés décimaux au format X Y sans aucun symbole.
Boolean
coord_dm_latlon
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format latitude et longitude (faux positifs rares). Exemples : 3853.3N 7702.100W et W7702N3853.3458.

  • FIND_DM_LATLONL’outil recherche les coordonnées en degrés minutes décimales au format latitude et longitude. Il s’agit de l’option par défaut.
  • DONT_FIND_DM_LATLONL’outil ne recherche pas les coordonnées en degrés minutes décimales au format latitude et longitude.
Boolean
coord_dm_xymin
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format X Y avec symboles de degrés (faux positifs rares). Exemples : 3853' -7702.1' et -07702m+3853.3458m.

  • FIND_DM_XYMINL’outil recherche les coordonnées en degrés minutes décimales au format X Y avec symboles de degrés. Il s’agit de l’option par défaut.
  • DONT_FIND_DM_XYMINL’outil ne recherche pas les coordonnées en degrés minutes décimales au format X Y avec symboles de degrés.
Boolean
coord_dms_latlon
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format latitude et longitude (faux positifs rares). Exemples : 385320.7N 770206.000W et W770206N385320.76.

  • FIND_DMS_LATLONL’outil recherche les coordonnées en degrés minutes secondes au format latitude et longitude. Il s’agit de l’option par défaut.
  • DONT_FIND_DMS_LATLONL’outil ne recherche pas les coordonnées en degrés minutes secondes au format latitude et longitude.
Boolean
coord_dms_xysec
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec symboles de secondes (faux positifs rares). Exemples : 385320" -770206.0" et -0770206.0s+385320.76s.

  • FIND_DMS_XYSECL’outil recherche les coordonnées en degrés minutes secondes au format X Y avec symboles de secondes. Il s’agit de l’option par défaut.
  • DONT_FIND_DMS_XYSECL’outil ne recherche pas les coordonnées en degrés minutes secondes au format X Y avec symboles de secondes.
Boolean
coord_dms_xysep
(Facultatif)

Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec séparateurs (faux positifs à fréquence modérée). Exemples : 8:53:20 -77:2:6.0 et -077/02/06/+38/53/20.76.

  • FIND_DMS_XYSEPL’outil recherche les coordonnées en degrés minutes secondes au format X Y avec séparateurs. Il s’agit de l’option par défaut.
  • DONT_FIND_DMS_XYSEPL’outil ne recherche pas les coordonnées en degrés minutes secondes au format X Y avec séparateurs.
Boolean
coord_utm
(Facultatif)

Spécifie s’il faut rechercher les coordonnées de projection transverse universelle de Mercator (UTM) (faux positifs modérés). Exemples : 18S 323503 4306438 et 18 north 323503.25 4306438.39.

  • FIND_UTM_MAINWORLDL’outil recherche les coordonnées UTM. Il s’agit de l’option par défaut.
  • DONT_FIND_UTM_MAINWORLDL’outil ne recherche pas les coordonnées UTM.
Boolean
coord_ups_north
(Facultatif)

Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Nord (faux positifs rares). Exemples : Y 2722399 2000000 et north 2722399 2000000.

  • FIND_UTM_NORTHPOLARL’outil recherche les coordonnées UPS dans la zone du pôle Nord. Il s’agit de l’option par défaut.
  • DONT_FIND_UTM_NORTHPOLARL’outil ne recherche pas les coordonnées UPS dans la zone du pôle Nord.
Boolean
coord_ups_south
(Facultatif)

Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Sud (faux positifs rares). Exemples : A 2000000 3168892 et south 2000000 3168892.

  • FIND_UTM_SOUTHPOLARL’outil recherche les coordonnées UPS dans la zone du pôle Sud. Il s’agit de l’option par défaut.
  • DONT_FIND_UTM_SOUTHPOLARL’outil ne recherche pas les coordonnées UPS dans la zone du pôle Sud.
Boolean
coord_mgrs
(Facultatif)

Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) (faux positifs rares). Exemples : 18S UJ 13503 06438 et 18SUJ0306.

  • FIND_MGRS_MAINWORLDL’outil recherche les coordonnées MGRS. Il s’agit de l’option par défaut.
  • DONT_FIND_MGRS_MAINWORLDL’outil ne recherche pas les coordonnées MGRS.
Boolean
coord_mgrs_northpolar
(Facultatif)

Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Nord (faux positifs rares). Exemples : Y TG 56814 69009 et YTG5669.

  • FIND_MGRS_NORTHPOLARL’outil recherche les coordonnées MGRS dans la zone du pôle Nord. Il s’agit de l’option par défaut.
  • DONT_FIND_MGRS_NORTHPOLARL’outil ne recherche pas les coordonnées MGRS dans la zone du pôle Nord.
Boolean
coord_mgrs_southpolar
(Facultatif)

Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Sud (faux positifs à fréquence modérée). Exemples : A TN 56814 30991 et ATN5630.

  • FIND_MGRS_SOUTHPOLARL’outil recherche les coordonnées MGRS dans la zone du pôle Sud. Il s’agit de l’option par défaut.
  • DONT_FIND_MGRS_SOUTHPOLARL’outil ne recherche pas les coordonnées MGRS dans la zone du pôle Sud.
Boolean
comma_decimal
(Facultatif)

Spécifie si une virgule (,) est reconnue comme séparateur décimal. Par défaut, l’analyse de contenu recherche des coordonnées spatiales définies par des nombres utilisant un point (.) ou un point médian (·) comme séparateur décimal, par exemple : Lat 01° 10·80’ N Long 103° 28·60’ E. Si dans le contenu sur lequel vous travaillez, les coordonnées spatiales sont définies par des nombres utilisant une virgule (,) comme séparateur décimal (52° 8′ 32,14″ N; 5° 24′ 56,09″ E, par exemple), définissez ce paramètre afin que la virgule, et non le point, soit reconnue comme séparateur décimal. Ce paramètre n’est pas défini automatiquement en fonction des paramètres régionaux du système d’exploitation de votre ordinateur.

  • USE_COMMA_DECIMAL_MARKLa virgule est reconnue comme séparateur décimal.
  • USE_DOT_DECIMAL_MARKLe point ou le point médian est reconnu comme séparateur décimal. Il s’agit de l’option par défaut.
Boolean
coord_use_lonlat
(Facultatif)

Lorsque des nombres ressemblent à des coordonnées x,y, que les deux nombres sont inférieurs à 90 et qu’aucun symbole ou notation n’indique quel nombre représente la latitude ou la longitude, les résultats peuvent être ambigus. Ce paramètre permet d’interpréter les nombres comme une coordonnée de longitude-latitude (x,y) et non comme une coordonnée de latitude-longitude (y,x).

  • PREFER_LONLATLes coordonnées x,y sont interprétées comme longitude-latitude.
  • PREFER_LATLONLes coordonnées x,y sont interprétées comme latitude-longitude. Il s’agit de l’option par défaut.
Boolean
in_coor_system
(Facultatif)

Système de coordonnées utilisé pour interpréter les coordonnées spatiales définies dans l’entrée. GCS-WGS-84 est la valeur par défaut.

Spatial Reference
in_custom_locations
(Facultatif)

Fichier de localisations personnalisées (.lxtgaz) utilisé pour analyser le contenu en entrée. Un point est créé pour représenter chaque occurrence de chaque nom de lieu dans le fichier de localisations, dans les limites définies par d’autres paramètres de l’outil.

File
fuzzy_match
(Facultatif)

Spécifie si l’appariement flou est utilisé pour effectuer des recherches dans le fichier de localisations.

  • USE_FUZZYL’appariement flou est utilisé pour effectuer des recherches dans le fichier de localisations.
  • DONT_USE_FUZZYLa correspondance exacte est utilisée pour effectuer des recherches dans le fichier de localisations. Il s’agit de l’option par défaut.
Boolean
max_features_extracted
(Facultatif)

Nombre maximal d’entités pouvant être extraites. L’outil cesse l’analyse du contenu en entrée à la recherche de localisations lorsque le nombre maximal est atteint. Si l’outil est exécuté en tant que service de géotraitement, le service et le serveur peuvent avoir des limites distinctes quant au nombre d’entités autorisées.

Long
ignore_first_features
(Facultatif)

Nombre d’entités détectées et ignorées avant d’extraire toutes les autres entités. Ce paramètre peut être utilisé pour cibler la recherche sur une portion spécifique des données.

Long
date_monthname
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles figure le nom du mois (faux positifs rares). Exemples : 12 May 2003 et January 15, 1997.

  • FIND_DATE_MONTHNAMEL’outil recherche les dates dans lesquelles figure le nom du mois. Il s’agit de l’option par défaut.
  • DONT_FIND_DATE_MONTHNAMEL’outil ne recherche pas les dates dans lesquelles figure le nom du mois.
Boolean
date_m_d_y
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA (faux positifs à fréquence modérée). Exemples : 5/12/03 et 1-15-1997.

  • FIND_DATE_M_D_YL’outil recherche les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA (faux positifs à fréquence modérée). Il s’agit de l’option par défaut.
  • DONT_FIND_DATE_M_D_YL’outil ne recherche pas les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA.
Boolean
date_yyyymmdd
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAAAMMJJ (faux positifs à fréquence modérée). Exemples : 20030512 et 19970115.

  • FIND_DATE_YYYYMMDDL’outil recherche les dates dans lesquelles les chiffres sont au format AAAAMMJJ (faux positifs à fréquence modérée). Il s’agit de l’option par défaut.
  • DONT_FIND_DATE_YYYYMMDDL’outil ne recherche pas les dates dans lesquelles les chiffres sont au format AAAAMMJJ.
Boolean
date_yymmdd
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAMMJJ (faux positifs fréquents). Exemples : 030512 et 970115.

  • FIND_DATE_YYMMDDL’outil recherche les dates dans lesquelles les chiffres sont au format AAMMJJ (faux positifs fréquents). Il s’agit de l’option par défaut.
  • DONT_FIND_DATE_YYMMDDL’outil ne recherche pas les dates dans lesquelles les chiffres sont au format AAMMJJ.
Boolean
date_yyjjj
(Facultatif)

Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ (faux positifs fréquents). Exemples : 03132 et 97015.

  • FIND_DATE_YYJJJL’outil recherche les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ (faux positifs fréquents). Il s’agit de l’option par défaut.
  • DONT_FIND_DATE_YYJJJL’outil ne recherche pas les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ.
Boolean
max_dates_extracted
(Facultatif)

Nombre maximal de dates qui seront extraites.

Long
ignore_first_dates
(Facultatif)

Nombre de dates qui sont détectées et ignorées avant d’extraire toutes les autres dates.

Long
date_range_begin
(Facultatif)

Date la plus ancienne acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus récente sont extraites.

Date
date_range_end
(Facultatif)

Date la plus récente acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus ancienne sont extraites.

Date
in_custom_attributes
(Facultatif)

Fichier attributaire personnalisé (.lxtca) utilisé pour analyser le contenu en entrée. Les champs sont créés dans la table attributaire de la classe d’entités en sortie pour tous les attributs personnalisés définis dans le fichier. Lors de l’analyse du contenu en entrée, l’examen vise à rechercher s’il contient du texte associé à tous les attributs personnalisés spécifiés dans le fichier. Lorsqu’une correspondance est trouvée, le texte concerné est extrait du contenu en entrée et stocké dans le champ approprié.

File
file_link
(Facultatif)

Chemin d’accès au fichier utilisé comme nom du fichier dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, le chemin du Input File (Fichier en entrée) est utilisé, mais il peut correspondre à un dossier inaccessible sur le serveur. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné.

String
file_mod_datetime
(Facultatif)

Date et heure UTC de modification du fichier, utilisées comme attribut modifié dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, la date/heure actuelle de modification du fichier en entrée est utilisée. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné.

Date
pre_text_length
(Facultatif)

Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait avant le texte qui définit la localisation. Le texte extrait est stocké dans le champ Pre-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Pre-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254.

Long
post_text_length
(Facultatif)

Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait après le texte qui définit la localisation. Le texte extrait est stocké dans le champ Post-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Post-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254.

Long
std_coord_fmt
(Facultatif)

Spécifie le format de coordonnées utilisé pour stocker la localisation des coordonnées. Une représentation standard des coordonnées spatiales qui définissent l’entité ponctuelle est enregistrée dans un champ de la table attributaire.

  • STD_COORD_FMT_DDLa localisation des coordonnées est enregistrée en degrés décimaux. Il s’agit de l’option par défaut.
  • STD_COORD_FMT_DMLa localisation des coordonnées est enregistrée en degrés minutes décimales.
  • STD_COORD_FMT_DMSLa localisation des coordonnées est enregistrée en degrés minutes secondes.
  • STD_COORD_FMT_UTMLa localisation des coordonnées est enregistrée au format de projection transverse universelle de Mercator (UTM).
  • STD_COORD_FMT_MGRSLa localisation des coordonnées est enregistrée au format Military Grid Reference System (MGRS).
String
req_word_breaks
(Facultatif)

Spécifie s’il faut rechercher du texte à l’aide de la césure de mot. Une césure de mot se produit lorsqu’un mot (texte) est précédé ou suivi d’un espace ou d’un caractère de ponctuation, comme cela arrive dans les langues européennes.

Ce paramètre peut générer des faux positifs rares ou fréquents, selon la langue du texte. Par exemple, si les césures de mots ne sont pas demandées, le texte en anglais Bernard sera une correspondance pour le texte San Bernardino, qui sera probablement considéré comme un faux positif. En revanche, lorsque le texte est rédigé dans une langue qui n’utilise pas les césures, vous ne pourrez pas trouver des mots si ces dernières sont demandées. Par exemple, dans le texte en japonais I flew to Tokyo (J’ai pris l’avion pour Tokyo), 私は東京に飛んで, seul le mot Tokyo, 東京, est trouvé si les césures ne sont pas demandées.

  • REQ_WORD_BREAKSL’outil recherche les mots précédés ou suivis d’un espace ou d’un caractère de ponctuation. Il s’agit de l’option par défaut.
  • DONT_REQ_WORD_BREAKSL’outil ne recherche pas les mots précédés ou suivis d’un espace ou d’un caractère de ponctuation.
Boolean

Exemple de code

Exemple d’utilisation de l’outil ExtractLocationsFromDocument (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de la fonction ExtractLocationsFromDocument en mode immédiat.

import arcpy
arcpy.env.workspace = "c:/data"
arcpy.conversion.ExtractLocationsFromDocument("wells.docx", "water.gdb/wells")

Informations de licence

  • Basic: Nécessite LocateXT
  • Standard: Nécessite LocateXT
  • Advanced: Nécessite LocateXT

Rubriques connexes