Je bent onderdeel van het team Y. Jij gaat een tool bedenken waarmee we verschillende bedrijfsactiviteiten uit één omschrijving kunnen halen en splitsen. Dit is het doel van jouw onderzoek.
Situatie
Wanneer een startende ondernemer zich inschrijft bij KVK, wordt er gevraagd om de bedrijfsactiviteiten te omschrijven. Op basis van deze omschrijving worden er één of meerdere SBI-codes (Standaard Bedrijfsindeling van het Centraal Bureau van de Statistiek (CBS)) herkend. In sommige gevallen beschrijft de ondernemer per ongeluk meerdere activiteiten binnen één invoerveld. Dit wordt, op dit moment, nog niet goed genoeg onderscheiden. Het doel is om deze gecombineerde bedrijfsactiviteiten automatisch te splitsen, zodat iedere afzonderlijke activiteit een eigen, specifieke SBI-code kan krijgen.
Voorbeelden uit de praktijk:
- “Kunstadvies en handel”
- Voor “kunstadvies” geldt SBI-code 9002.
- Voor “(kunst)handel” geldt SBI-code 47783.
- “Bakker”
- Wanneer de bakker zich richt op verkoop, geldt SBI-code 47241.
- Bij productie van brood geldt SBI-code 1071.
Het juist onderscheiden en indelen van deze activiteiten vraagt om geavanceerde technieken op het gebied van AI en Natural Language Processing (NLP).
Je krijgt de kans om met geavanceerde NLP-technieken te werken, waaronder:
- Large Language Models (LLM’s);
- Hugging Face-modellen;
- Andere relevante tools en methodologieën.
Zo draag je bij aan een echte use case die impact heeft op ondernemers in Nederland.