La plateforme de traitement du langage performante et explicable

Golem.ai Core est la solution d’intelligence artificielle sans entrainement pour construire des projets NLP performants, robustes, frugaux et sans biais.

Construisez tous vos cas d’usage avec Golem.ai Core

Construisez votre projet de A à Z avec notre plateforme NLP polyvalente.

Extrayez le contenu de vos documents afin de gagner du temps de lecture et d’automatiser leur traitement.
OCRisation - Analyse du contenu - Extraction d'information
Extrayez le contenu de vos documents afin de gagner du temps de lecture et d’automatiser leur traitement.
OCRisation - Analyse du contenu - Extraction d'information
Les analystes peuvent créer des structures de réseau pour extraire de la connaissance provenant de différents textes.
Extraction de texte - Analyse du contenu - Mise en relation des informations
Les analystes peuvent créer des structures de réseau pour extraire de la connaissance provenant de différents textes.
Extraction de texte - Analyse du contenu - Mise en relation des informations
Traitez les messages entrants en analysant le message et ses pièces jointes.
Analyse du message et des PJ - Catégorisation - Extraction d'information
Traitez les messages entrants en analysant le message et ses pièces jointes.
Analyse du message et des PJ - Catégorisation - Extraction d'information
Protégez les données de vos utilisateurs et protégez-les des mauvais contenus.

Profitez de la puissance de notre NLU révolutionnaire

Explicable, frugal, multilingue et personnalisable.

“Nous confirmons l’arrivée du cargo Louis Blériot contenant le matriel d’opérations pour les hôpitaux au port du Havre depuis le port de 香港, un retard de deux heures sur l’opération de déchargment est prévu”

Tokenization
Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents
Nous confirmons l’arrivée du cargo Louis Blériot contenant le matriel dopérations pour leshôpitaux au port du Havre depuis le port de 香港, un retard de deux heures sur lopération de déchargment est prévu
Tokenization
Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents
Tokenization
Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents
arrivée cargo Louis Blériot matriel opérations hôpitaux Havre depuis 香港 retard deux heures opération déchargment
Tokenization
Sélection et séparation des mots (tokens) pour ne garder que les éléments pertinents. La tokenisation est enrichie par la configuration, qui permet de pré-sélectionner les tokens pertinents
Dict:Multi
Correction des termes selon la langue utilisée et son usage métier
arrivée cargo Louis Blériot matériel opérations hôpitaux Havre depuis Hong Kong retard deux heures opération déchargement
Dict:Multi
Correction des termes selon la langue utilisée et son usage métier
Chunking
Regroupement des termes métiers pour une meilleure compréhension du texte
arrivée cargo
Louis
Blériot matériel
opérations
hôpitaux Havre depuis
Hong Kong retard deux
heures
opération
déchargement
Chunking
Regroupement des termes métiers pour une meilleure compréhension du texte
Chunking
Regroupement des termes métiers pour une meilleure compréhension du texte
arrivée .cargo
Louis
Blériot .matériel
opérations
hôpitauxHavre . depuis
Hong Kong . retard .deux
heures
opération
déchargement
Chunking
Regroupement des termes métiers pour une meilleure compréhension du texte
Named Entity Recognition
Assignation des termes à un type d’entité
arrivéeStatut. cargoTransport
LouisNickname
BlériotNom. matérielProduit
opérationsCaractéristique
ou action

hôpitauxSecteur. HavreLieu. depuisDescriptor
Hong KongLieu. retardStatut. deuxQuantité
heuresTemps
opérationCaractéristique
ou action

. déchargementAction
Named Entity Recognition
Assignation des termes à un type d’entité
Entity Linking
Création de liaisons entre entités afin de résoudre une entité textuelle en un identifiant unique à partir d’une base de connaissance
arrivéeStatut. ‘transport’ : ‘cargo’,
‘nom’ : ‘Louis Blériot’
Transport
. ‘produit’ : ‘matériel’,
‘caractéristique’ : ‘opération’,
‘secteur’ : ‘hôpitaux’
Produit
. HavreLieu arrivée. Hong KongLieu départ. retardStatut. ‘nombre’ : ‘2’,
‘temps’ : ‘heures’
Temps
déchargementAction
Entity Linking
Création de liaisons entre entités afin de résoudre une entité textuelle en un identifiant unique à partir d’une base de connaissance
Dependency Parsing
Complétion de la compréhension du texte en ajoutant chaque terme dans une ontologie
statutarrivéeStatut. transport > bateau > cargo > Louis BlériotIMO 9776432Transport. produit > dispositifs médicauxmatériel médicalProduit. France > portHavreLieu arrivée. Chine > portHong KongLieu départ. statutretardStatut. ‘nombre’ : ‘2’,
‘temps’ : ‘heures’
Temps
action > action shippingdéchargementAction
Dependency Parsing
Complétion de la compréhension du texte en ajoutant chaque terme dans une ontologie
Interaction
Mise en relation des différents termes basés sur une ontologie pour former une unité de sens
Suivi livraison statutarrivéeStatut transport > bateau > cargo > Louis BlériotIMO 9776432Transport produit > dispositifs médicauxmatériel médicalProduit France > portHavreLieu arrivée Chine > portHong KongLieu départ
Statut livraison statutretardStatut ‘nombre’ : ‘2’, ‘temps’ : ‘heures’Temps. action > action shippingdéchargementAction
Interaction
Mise en relation des différents termes basés sur une ontologie pour former une unité de sens

Extraction de texte
issu d’images et de documents

Transformez simplement vos documents en textes exploitables en utilisant notre technologie Extractor

Plusieurs OCR et librairies d’extraction accessibles par API

				
					package main

import (
  "fmt"
  "strings"
  "net/http"
  "io/ioutil"
)

func main() {

  url := "https://extractor.golem.ai/v3/analyse"
  method := "POST"

  payload := strings.NewReader(`{
    "file": "https://www.yourfile.pdf"
}`)

  client := &http.Client {
  }
  req, err := http.NewRequest(method, url, payload)

  if err != nil {
    fmt.Println(err)
    return
  }
  req.Header.Add("Authorization", "Basic XXX")
  req.Header.Add("Content-Type", "application/json")

  res, err := client.Do(req)
  if err != nil {
    fmt.Println(err)
    return
  }
  defer res.Body.Close()

  body, err := ioutil.ReadAll(res.Body)
  if err != nil {
    fmt.Println(err)
    return
  }
  fmt.Println(string(body))
}
				
			
				
					<?php

$curl = curl_init();

curl_setopt_array($curl, array(
  CURLOPT_URL => '"https://extractor.golem.ai/scan"',
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => '',
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 200,
  CURLOPT_FOLLOWLOCATION => true,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => 'POST',
  CURLOPT_POSTFIELDS =>'{
    "file": "https://www.yourfile.pdf",
    "useCache": true,
    "parsers": {
        "document": {
            "extractImages": false,
            "ocr": {
                "name": "tesseract",
                "mode": "auto"
            },
            "PDF": {
                "extractImages": false,
                "ocr": {
                    "name": "ida",
                    "mode": "on"
                }
            }
        },
        "image": {
            "minimumHeight": 500,
            "minimumWidth": 500,
            "ocr": {
                "name": "ida",
                "mode": "off"
            },
            "png": {
                "minimumWidth": 100,
                "ocr": {
                    "name": "ida"
                }
            }
        },
        "spreadsheet": {
            "readVertically": false,
            "unmergeCells": false,
            "splitPerBlock": false,
            "splitPerBlockRowLimit": 10,
            "splitPerBlockColumnLimit": 10,
            "parseHiddenSheets": false
        },
        "email": {
            "extractAttachments": false,
            "ignoredAttachments": [
                "xlsb",
                "eml"
            ],
            "msg": {
                "extractAttachments": true
            }
        }
    }
}',
  CURLOPT_HTTPHEADER => array(
    'Authorization: Basic XXX',
    'Content-Type: application/json'
  ),
));

$response = curl_exec($curl);

curl_close($curl);
echo $response;
				
			
				
					import requests
import json

if __name__ == "__main__":
    URL: str = "https://extractor.golem.ai/scan"

    payload: dict = json.dumps(
        {
            "file": "https://www.yourfile.pdf",
            "parsers": {
                "document": {
                    "extractImages": False,
                    "ocr": {"name": "tesseract", "mode": "auto"},
                    "PDF": {
                        "extractImages": False,
                        "ocr": {"name": "ida", "mode": "on"},
                    },
                },
                "image": {
                    "minimumHeight": 500,
                    "minimumWidth": 500,
                    "ocr": {"name": "ida", "mode": "off"},
                    "png": {"minimumWidth": 100, "ocr": {"name": "ida"}},
                },
                "spreadsheet": {
                    "readVertically": False,
                    "unmergeCells": False,
                    "splitPerBlock": False,
                    "splitPerBlockRowLimit": 10,
                    "splitPerBlockColumnLimit": 10,
                    "parseHiddenSheets": False,
                },
                "email": {
                    "extractAttachments": False,
                    "ignoredAttachments": ["xlsb", "eml"],
                    "msg": {"extractAttachments": True},
                },
            },
        }
    )

    headers: dict = {"Authorization": f"Basic XXX", "Content-Type": "application/json"}

    response: requests.Response = requests.request(
				"POST", URL, headers=headers, data=payload
		)

    print(response.text)
				
			
				
					var settings = {
  "url": "https://extractor.golem.ai/v3/analyse",
  "method": "POST",
  "timeout": 0,
  "headers": {
    "Authorization": "Basic XXX",
    "Content-Type": "application/json"
  },
  "data": JSON.stringify({
    "file": "https://www.yourfile.pdf"
  }),
};

$.ajax(settings).done(function (response) {
  console.log(response);
});
				
			

Golem.ai protège et respecte vos données

Notre intelligence artificielle nous permet d’être respectueux de vos données by design.

Sécurité

Golem.ai respecte les recommandations en matière de cryptographie émises par l’ANSSI.

Vie privée

L’IA Golem.ai est hébergée chez Scaleway en France. Vous restez utilisateur et propriétaire exclusifs de vos données.

Conformité

Une API accessible et documentée, des connecteurs à disposition.

Rejoignez la communauté Golem.ai

Vous avez un projet NLP ? Essayez notre technologie Core en vous inscrivant à la waiting list.