Guide d’intégration d’Apache Spark et n8n
Le Module N8N in Ilum brings powerful, low-code workflow automation to your data lakehouse environment. Design visual ETL pipelines, orchestrate complex Apache Spark jobs, and integrate data processes with third-party business apps—all through a clean drag-and-drop editor fully embedded in the Ilum platform.
🚀 Qu’est-ce que n8n ?
n8n is a leading workflow automation tool that lets you connect APIs, databases, and services with a simple visual interface. Ilum integrates n8n as a native module, transforming it into a robust Data Orchestration tool. With Ilum, it treats Apache Spark as a first-class citizen, allowing you to trigger heavy-lifting data tasks alongside operational logic.
Avec l’éditeur visuel de flux de travail de n8n, vous pouvez facilement concevoir, tester et déployer des séquences d’automatisation impliquant l’ingestion, la transformation, l’analyse et le déclenchement d’actions de données, accélérant ainsi le développement et réduisant les efforts manuels.
Principaux avantages
- Création d’un flux de travail visuel : Concevez des automatisations complexes à l’aide d’une interface glisser-déposer.
- Connectivité étendue : Connectez les services Ilum à des centaines d’applications et d’API externes.
- Low-Code/No-Code : Créez des flux de travail puissants avec un minimum de codage requis, démocratisant ainsi l’automatisation.
- Intégration profonde d’Ilum : Exploitez des composants Ilum spécifiques directement dans vos flux de travail à l’aide de nœuds personnalisés (Enterprise Edition).
- Déclenchement flexible : Start workflows based on schedules (cron), webhooks, manual triggers, or events from cloud storage (S3/GCS).

Comment installer
Un seul paramètre supplémentaire lors de l’installation/mise à niveau --set ilum-n8n.enabled=vrai
helm install ilum ilum/ilum --set ilum-n8n.enabled=true
Si vous rencontrez des difficultés pour accéder à n8n à partir d’un hôte distant via HTTP (et non HTTPS), vous devrez peut-être désactiver les cookies sécurisés en ajoutant la configuration suivante à vos valeurs Helm :
n8n :
principal :
extraEnvVars :
N8N_SECURE_COOKIE : « faux »
Un message d’avertissement à ce sujet
Cela permet à n8n de fonctionner sur des connexions HTTP. Utilisez ce paramètre uniquement dans les environnements approuvés, hors production ou de développement.
Nœuds personnalisés Ilum (Enterprise Edition)
L’édition Enterprise d’Ilum comprend plusieurs nœuds n8n personnalisés conçus pour une intégration profonde avec les capacités de la plateforme Data Lakehouse. Ces nœuds offrent un accès direct aux fonctionnalités de base d’Ilum :
1. SparkSQL
- Description: Exécute des requêtes SQL Apache Spark ad hoc directement sur vos données au sein d’Ilum Data Lakehouse. Récupérez, filtrez, agrégez et transformez des données à l’aide de la puissance de Spark SQL sans quitter votre flux de travail.
- Usage: Idéal pour l’extraction de données, l’analyse rapide et la préparation des données pour les étapes ultérieures du flux de travail.
- Best For: Ad-hoc analysis, data quality checks, and passing small datasets to other apps.
- Outil d’agent IA : Peut également être configuré en tant qu’outil pour le nœud AI Agent, ce qui permet aux modèles d’IA d’interroger les données de manière dynamique en fonction d’instructions ou d’un raisonnement en langage naturel.

2. Microservice Spark
- Description: Appelle des microservices Apache Spark personnalisés déployés dans la couche de service Ilum. Ces microservices encapsulent votre code Spark ou PySpark standard (par exemple, les transformations complexes, l’inférence de modèle ML, la logique de traitement de données personnalisée) et l’exposent via une API REST. C’est très similaire à Spark Connect.
- Usage: Vous permet de déclencher une logique Spark complexe existante à la demande et de recevoir les résultats directement dans votre flux de travail n8n via un appel API. Parfait pour les applications Spark personnalisées dans les pipelines automatisés.
- Best For: Real-time inference, event-driven processing, and reusable data transformations.

3. SparkActions (outil d’agent d’IA)
- Description: Ce nœud sert d’outil pour l’Agent IA. Il permet à l’agent d’IA de générer et d’exécuter dynamiquement des extraits de code Apache Spark personnalisés en fonction du contexte ou des instructions qu’il reçoit.
- Usage: Permet des scénarios avancés où un agent d’IA doit effectuer des manipulations de données ou des calculs sur mesure à la volée dans l’environnement Spark.
- Best For: Generative AI use cases, dynamic code generation, and complex, unstructured data tasks.

4. Ilum (outil d’agent d’IA)
- Description: Fonctionne comme un outil polyvalent pour l’agent d’IA, donnant accès à un large éventail d’informations et de fonctionnalités de la plateforme Ilum via son API REST interne.
- Usage: Permet à l’agent IA de :
- Interrogez le catalogue de données Ilum (par exemple, recherchez des jeux de données, affichez des schémas).
- Récupérez les statistiques de table et les métriques de qualité des données.
- Accédez à d’autres métadonnées de plateforme et à des informations opérationnelles.
- Essentiellement, interagissez avec la plupart des informations visibles dans l’interface utilisateur d’Ilum ou disponibles via son API.
- Best For: Metadata management, catalog exploration, and platform monitoring via AI.

5. SparkBatch
- Description: Déclenche les tâches par lots Apache Spark standard configurées au sein de la plate-forme Ilum.
- Usage: Utilisez ce nœud pour lancer des processus par lots Spark prédéfinis et potentiellement de longue durée dans le cadre de votre flux de travail automatisé (par exemple, ETL à grande échelle, entraînement de modèle).
- Best For: Heavy ETL, nightly reporting jobs, and long-running model training.

📦 Licences et utilisation
⚠️ Les utilisateurs doivent suivre le modèle de licence de n8n.
Clients avec un Licence Ilum Enterprise peut également recevoir une Licence n8n Enterprise Dans le cadre de leur abonnement, ils débloquent des fonctionnalités telles que le contrôle d’accès avancé, les exécutions illimitées et le support premium.
Pour en savoir plus sur la licence n8n, cliquez ici : n8n.io/pricing
🧪 Essayez-le
Rendez-vous dans le Modules > n8n section à Ilum à :
- Démarrer un nouveau flux de travail
- Utilisez les nœuds Ilum pour vous connecter à Spark, MinIO, SQL, etc.
- Déclenchez des pipelines en fonction du temps, d’événements ou de conditions
- Construisez et itérez dans un environnement entièrement visuel
Real-World Use Cases
Ilum’s n8n integration bridges the gap between data engineeringet business operations. Here are common ways to leverage this integration:
1. Automated ETL Pipelines
Replace rigid scripts with visual flows.
- Trigger: Scheduled daily at 2:00 AM.
- Action: n8n pulls raw data from CRM APIs (Salesforce, HubSpot) and loads it into object storage.
- Process:Le SparkBatch node triggers a heavy Spark job to clean, merge, and transform this data into your Lakehouse format (Delta/Iceberg/Hudi).
- Result: Analytics-ready data is available by start of business.
2. Event-Driven Data Processing
React to data instantly instead of waiting for batches.
- Trigger: A file is uploaded to an S3 bucket (webhook event).
- Process: n8n receives the event and passes the file path to a Spark Microservice node.
- Action: The microservice runs a specific PySpark inference script to classify the document content.
- Result: The classification is tagged in the database, and a Slack notification is sent to the relevant team.
3. AI-Powered Data Analysis
Empower non-technical users to query data.
- Trigger: A user asks a question in a chat interface (e.g., Slack/Teams).
- Process:Le Ilum AI Agent (using the SparkSQL tool) parses the natural language query into SQL.
- Action: The query runs against the Data Lakehouse, returning aggregated metrics.
- Result: The user receives a summarized answer and a chart image directly in the chat.
n8n as a Data Orchestrator
While tools like Apache Airflow are built for pure code-based orchestration, n8n offers a compelling alternative for hybrid workflows:
| Caractéristique | Code-Based (e.g., Airflow) | Visual (n8n on Ilum) |
|---|---|---|
| Interface | Python Code | Visual Drag-and-Drop |
| Connectivity | Data-focused | 350+ Apps (CRM, Social, Email, Data) |
| Spark Support | Via Operators | Native Ilum Spark Nodes |
| Best For | Heavy, complex dependency DAGs | Agile ETL, Operational Data Apps, AI Agents |
Using n8n allows data engineers to build the core processing logic in Spark, while allowing operations teams to manage the triggers, alerts, and downstream actions visually.
💬 Besoin d’aide ?
Pour des flux de travail avancés ou des cas d’utilisation personnalisés, contactez l’équipe Ilum. Nous sommes heureux de vous aider à concevoir, optimiser et faire évoluer vos pipelines d’automatisation des données.