La plateforme de traitement du langage performante et explicable

Golem.ai Core est la solution d’intelligence artificielle sans entrainement pour construire des projets NLP performants, robustes, frugaux et sans biais.

Construisez tous vos cas d’usage avec Golem.ai Core

Construisez votre projet de A à Z avec notre plateforme NLP polyvalente.

Extrayez le contenu de vos documents afin de gagner du temps de lecture et d’automatiser leur traitement.

OCRisation - Analyse du contenu - Extraction d'information

Extrayez le contenu de vos documents afin de gagner du temps de lecture et d’automatiser leur traitement.

OCRisation - Analyse du contenu - Extraction d'information

Les analystes peuvent créer des structures de réseau pour extraire de la connaissance provenant de différents textes.

Extraction de texte - Analyse du contenu - Mise en relation des informations

Les analystes peuvent créer des structures de réseau pour extraire de la connaissance provenant de différents textes.

Extraction de texte - Analyse du contenu - Mise en relation des informations

Traitez les messages entrants en analysant le message et ses pièces jointes.

Analyse du message et des PJ - Catégorisation - Extraction d'information

Traitez les messages entrants en analysant le message et ses pièces jointes.

Analyse du message et des PJ - Catégorisation - Extraction d'information

Protégez les données de vos utilisateurs et protégez-les des mauvais contenus.

Profitez de la puissance de notre NLU révolutionnaire

Explicable, frugal, multilingue et personnalisable.

Tokenization

Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents

Nous confirmons l’arrivée du cargo Louis Blériot contenant le matriel d’opérations pour leshôpitaux au port du Havre depuis le port de 香港, un retard de deux heures sur l’opération de déchargment est prévu

Tokenization

Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents

Tokenization

Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents

arrivée cargo Louis Blériot matriel opérations hôpitaux Havre depuis 香港 retard deux heures opération déchargment

Tokenization

Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents

Dict:Multi

Correction des termes selon la langue utilisée et son usage métier

arrivée cargo Louis Blériot matériel opérations hôpitaux Havre depuis Hong Kong retard deux heures opération déchargement

Dict:Multi

Correction des termes selon la langue utilisée et son usage métier

Chunking

Regroupement des termes métiers pour une meilleure compréhension du texte

arrivée cargo

Louis

Blériot matériel

opérations

hôpitaux Havre depuis

Hong Kong retard deux

heures

opération

déchargement

Chunking

Regroupement des termes métiers pour une meilleure compréhension du texte

Chunking

Regroupement des termes métiers pour une meilleure compréhension du texte

arrivée .cargo

Louis

Blériot .matériel

opérations

hôpitauxHavre . depuis

Hong Kong . retard .deux

heures

opération

déchargement

Chunking

Regroupement des termes métiers pour une meilleure compréhension du texte

Named Entity Recognition

Assignation des termes à un type d’entité

arrivéeStatut. cargoTransport

LouisNickname

BlériotNom. matérielProduit

opérationsCaractéristique
ou action

hôpitauxSecteur. HavreLieu. depuisDescriptor

Hong KongLieu. retardStatut. deuxQuantité

heuresTemps

opérationCaractéristique
ou action

. déchargementAction

Named Entity Recognition

Assignation des termes à un type d’entité

Entity Linking

Création de liaisons entre entités afin de résoudre une entité textuelle en un identifiant unique à partir d’une base de connaissance

arrivéeStatut. ‘transport’ : ‘cargo’,
‘nom’ : ‘Louis Blériot’Transport. ‘produit’ : ‘matériel’,
‘caractéristique’ : ‘opération’,
‘secteur’ : ‘hôpitaux’Produit. HavreLieu arrivée. Hong KongLieu départ. retardStatut. ‘nombre’ : ‘2’,
‘temps’ : ‘heures’Temps déchargementAction

Entity Linking

Création de liaisons entre entités afin de résoudre une entité textuelle en un identifiant unique à partir d’une base de connaissance

Dependency Parsing

Complétion de la compréhension du texte en ajoutant chaque terme dans une ontologie

statutarrivéeStatut. transport > bateau > cargo > Louis BlériotIMO 9776432Transport. produit > dispositifs médicauxmatériel médicalProduit. France > portHavreLieu arrivée. Chine > portHong KongLieu départ. statutretardStatut. ‘nombre’ : ‘2’,
‘temps’ : ‘heures’
Temps action > action shippingdéchargementAction

Dependency Parsing

Complétion de la compréhension du texte en ajoutant chaque terme dans une ontologie

Interaction

Mise en relation des différents termes basés sur une ontologie pour former une unité de sens

Suivi livraison statutarrivéeStatut transport > bateau > cargo > Louis BlériotIMO 9776432Transport produit > dispositifs médicauxmatériel médicalProduit France > portHavreLieu arrivée Chine > portHong KongLieu départ

Statut livraison statutretardStatut ‘nombre’ : ‘2’, ‘temps’ : ‘heures’Temps. action > action shippingdéchargementAction

Interaction

Mise en relation des différents termes basés sur une ontologie pour former une unité de sens

Extraction de texte
issu d’images et de documents

Transformez simplement vos documents en textes exploitables en utilisant notre technologie Extractor

Plusieurs OCR et librairies d’extraction accessibles par API

				
					package main

import (
  "fmt"
  "strings"
  "net/http"
  "io/ioutil"
)

func main() {

  url := "https://extractor.golem.ai/v3/analyse"
  method := "POST"

  payload := strings.NewReader(`{
    "file": "https://www.yourfile.pdf"
}`)

  client := &http.Client {
  }
  req, err := http.NewRequest(method, url, payload)

  if err != nil {
    fmt.Println(err)
    return
  }
  req.Header.Add("Authorization", "Basic XXX")
  req.Header.Add("Content-Type", "application/json")

  res, err := client.Do(req)
  if err != nil {
    fmt.Println(err)
    return
  }
  defer res.Body.Close()

  body, err := ioutil.ReadAll(res.Body)
  if err != nil {
    fmt.Println(err)
    return
  }
  fmt.Println(string(body))
}

				
					<?php

$curl = curl_init();

curl_setopt_array($curl, array(
  CURLOPT_URL => '"https://extractor.golem.ai/scan"',
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => '',
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 200,
  CURLOPT_FOLLOWLOCATION => true,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => 'POST',
  CURLOPT_POSTFIELDS =>'{
    "file": "https://www.yourfile.pdf",
    "useCache": true,
    "parsers": {
        "document": {
            "extractImages": false,
            "ocr": {
                "name": "tesseract",
                "mode": "auto"
            },
            "PDF": {
                "extractImages": false,
                "ocr": {
                    "name": "ida",
                    "mode": "on"
                }
            }
        },
        "image": {
            "minimumHeight": 500,
            "minimumWidth": 500,
            "ocr": {
                "name": "ida",
                "mode": "off"
            },
            "png": {
                "minimumWidth": 100,
                "ocr": {
                    "name": "ida"
                }
            }
        },
        "spreadsheet": {
            "readVertically": false,
            "unmergeCells": false,
            "splitPerBlock": false,
            "splitPerBlockRowLimit": 10,
            "splitPerBlockColumnLimit": 10,
            "parseHiddenSheets": false
        },
        "email": {
            "extractAttachments": false,
            "ignoredAttachments": [
                "xlsb",
                "eml"
            ],
            "msg": {
                "extractAttachments": true
            }
        }
    }
}',
  CURLOPT_HTTPHEADER => array(
    'Authorization: Basic XXX',
    'Content-Type: application/json'
  ),
));

$response = curl_exec($curl);

curl_close($curl);
echo $response;

				
					import requests
import json

if __name__ == "__main__":
    URL: str = "https://extractor.golem.ai/scan"

    payload: dict = json.dumps(
        {
            "file": "https://www.yourfile.pdf",
            "parsers": {
                "document": {
                    "extractImages": False,
                    "ocr": {"name": "tesseract", "mode": "auto"},
                    "PDF": {
                        "extractImages": False,
                        "ocr": {"name": "ida", "mode": "on"},
                    },
                },
                "image": {
                    "minimumHeight": 500,
                    "minimumWidth": 500,
                    "ocr": {"name": "ida", "mode": "off"},
                    "png": {"minimumWidth": 100, "ocr": {"name": "ida"}},
                },
                "spreadsheet": {
                    "readVertically": False,
                    "unmergeCells": False,
                    "splitPerBlock": False,
                    "splitPerBlockRowLimit": 10,
                    "splitPerBlockColumnLimit": 10,
                    "parseHiddenSheets": False,
                },
                "email": {
                    "extractAttachments": False,
                    "ignoredAttachments": ["xlsb", "eml"],
                    "msg": {"extractAttachments": True},
                },
            },
        }
    )

    headers: dict = {"Authorization": f"Basic XXX", "Content-Type": "application/json"}

    response: requests.Response = requests.request(
				"POST", URL, headers=headers, data=payload
		)

    print(response.text)

				
					var settings = {
  "url": "https://extractor.golem.ai/v3/analyse",
  "method": "POST",
  "timeout": 0,
  "headers": {
    "Authorization": "Basic XXX",
    "Content-Type": "application/json"
  },
  "data": JSON.stringify({
    "file": "https://www.yourfile.pdf"
  }),
};

$.ajax(settings).done(function (response) {
  console.log(response);
});

Golem.ai protège et respecte vos données

Notre intelligence artificielle nous permet d’être respectueux de vos données by design.

Sécurité

Golem.ai respecte les recommandations en matière de cryptographie émises par l’ANSSI.

Vie privée

L’IA Golem.ai est hébergée chez Scaleway en France. Vous restez utilisateur et propriétaire exclusifs de vos données.

Conformité

Une API accessible et documentée, des connecteurs à disposition.

La plateforme de traitement du langage performante et explicable

Construisez tous vos cas d’usage avec Golem.ai Core

Profitez de la puissance de notre NLU révolutionnaire

Extraction de texte
issu d’images et de documents

Golem.ai protège et respecte vos données

Sécurité

Vie privée

Conformité

S’inscrire à notre newsletter

PRODUIT

SOLUTIONS

TECHNOLOGIE

ENTREPRISE

RESSOURCES

© 2025 Golem.ai

Suivez-nous sur

La plateforme de traitement du langage performante et explicable

Construisez tous vos cas d’usage avec Golem.ai Core

Profitez de la puissance de notre NLU révolutionnaire

Extraction de texte issu d’images et de documents

Golem.ai protège et respecte vos données

Sécurité

Vie privée

Conformité

S’inscrire à notre newsletter

PRODUIT

SOLUTIONS

TECHNOLOGIE

ENTREPRISE

RESSOURCES

© 2025 Golem.ai

Suivez-nous sur

Extraction de texte
issu d’images et de documents