LLM-Integrationen — YandexGPT, GigaChat, Claude, GPT, Gemini, Kimi, GLM und lokale Modelle.
Kein „lasst uns KI dranflanschen, weil alle KI haben". Wir suchen in Ihren Prozessen die Stellen, an denen Modelle pro Woche tatsächlich Stunden sparen, und bauen passende Werkzeuge dafür. Wir arbeiten mit russischen Cloud-Modellen (YandexGPT, GigaChat, T-Lite), mit westlichen (Claude, GPT, Gemini, Grok, DeepSeek), mit chinesischen Open-Weight-Modellen (Qwen3, Kimi K2.5, MiniMax M2.7, GLM 5.1) und mit lokalen (Llama, Mistral) — die Wahl richtet sich nach Ihren Anforderungen an Daten und Budget.
§ 08.1 Typische Aufgaben
AI-Support-Assistent
First Level des Kundensupports: das Modell beantwortet 60–80 % der Anfragen, schwierige Fälle werden an den Mitarbeiter übergeben. RAG über Ihre Wissensbasis, Kontextspeicher des Dialogs.
Dokumentenverarbeitung
Extraktion strukturierter Daten aus Lieferscheinen, Rechnungen, Verträgen, Lebensläufen. Ersetzt die manuelle Eingabe, die täglich mehrere Mitarbeiter Stunden kostet.
Interne AI-Suche
Smarte Suche über Ihre Dokumente, Wikis, Tickets: Frage in natürlicher Sprache — Antwort mit Zitaten und Quellverweisen. Vektorbasis plus saubere Anbindung.
Text- und Feedback-Analyse
Klassifizierung von Anfragen, Sentiment in Bewertungen, Themenextraktion aus Kundengesprächen, Insights aus Interviews.
Generierung und Lektorat
Entwürfe für Produktbeschreibungen, E-Mail-Newsletter, Social-Posts, SEO-Texte. Mit Ihrem Tone of Voice und einer Prüfung auf sachliche Fehler.
Agenten und Automatisierung
Szenarien, in denen das LLM nicht nur antwortet, sondern handelt: Tickets anlegen, CRM befüllen, in Slack schreiben, Daten aus APIs ziehen. Mit menschlichen Checkpoints an kritischen Schritten.
§ 08.2 Was enthalten ist
- Discovery: wir klären, wo das Modell echten Nutzen bringt und wo es nur Spielzeug bleibt.
- Modellwahl je Aufgabe: YandexGPT (Yandex), GigaChat (Sber), T-Lite / T-Pro (T-Bank), Claude (Anthropic), GPT-4 / GPT-5 (OpenAI), Gemini (Google), Grok (xAI), DeepSeek, Qwen3 (Alibaba), Kimi K2.5 (Moonshot), MiniMax M2.7, GLM 5.1 (Zhipu), Command (Cohere), lokale Llama / Mistral / Phi.
- Prompt-Engineering, strukturierter Output (JSON-Schemas), Function Calling.
- RAG: Embeddings, Vektordatenbank (pgvector, Qdrant, Chroma), Retriever, Re-Ranking.
- Eval-Set: wie wir Qualität messen, wo die Akzeptanzschwellen liegen.
- Schutz: Rate Limits, Moderation von Input und Output, Logging, Kostenkontrolle.
- Monitoring, A/B-Tests von Prompts, Dashboards für Token-Ausgaben.
§ 08.3 Welche Modelle wir anbinden
Russische Cloud-Modelle
YandexGPT (Yandex), GigaChat (Sber), T-Lite / T-Pro (T-Bank). Daten werden in Russland verarbeitet und gespeichert, es gibt einen Vertrag zur Auftragsverarbeitung personenbezogener Daten und Konformität mit den Anforderungen des Regulators. Anbindung über das Yandex Cloud ML SDK oder direkt per REST, GigaChat API, T-Bank AI. Russisch ist von Haus aus „Muttersprache" — die Qualität auf russischen Korpora ist meist höher als bei westlichen Modellen ohne Fine-Tuning.
Westliche Cloud-Modelle
Claude (Anthropic), GPT-4 / GPT-5 (OpenAI), Gemini (Google), Grok (xAI), DeepSeek, Command (Cohere). Höchste Qualität bei vielen Aufgaben, starkes Reasoning, großer Kontext, ausgereiftes Tool-Use und Structured Output. Plus: sehr einfache Integration. Minus: Daten verlassen den Perimeter, nicht alle Modelle sind aus Russland direkt zugänglich.
Chinesische Open-Weight-Modelle
Qwen3 (Alibaba), Kimi K2.5 (Moonshot), MiniMax M2.7, GLM 5.1 (Zhipu), DeepSeek-V3. Eine eigene Linie, die in den letzten zwei Jahren bei Preis pro Token und in vielen Benchmarks (besonders Code- und Mathematik-Aufgaben) zu westlichen Modellen aufgeschlossen oder sie überholt hat. Verfügbar als Cloud-API und als offene Gewichte — selbst hostbar. Starkes Russisch ist nicht überall out of the box, aber Qwen3 und Kimi K2.5 schlagen sich gut.
Lokale Open-Source-Modelle
Llama 3.x (Meta), Mistral / Mixtral, Phi (Microsoft), Gemma (Google) plus die genannten chinesischen Open-Weight-Modelle. Werden auf Ihrem GPU-Server oder in einer dedizierten Cloud betrieben. Daten verlassen Ihren Perimeter überhaupt nicht, null Abhängigkeit von einem externen Anbieter, planbare Kosten. Erfordern etwas mehr Sorgfalt beim Setup und mindestens 24 GB VRAM für Modelle von 7B bis 70B Parameter; für die Top-Open-Weight-Modelle (Qwen3-235B, Kimi K2.5) braucht es einen Multi-GPU-Knoten oder Quantisierung.
Hybrid
Häufig die beste Variante — ein Router zwischen mehreren Modellen. Für Routine-Anfragen ein lokales oder russisches Cloud-Modell; für komplexe Fälle, in denen Reasoning zählt — Claude oder GPT. Wir richten solche Router unter Berücksichtigung von Kosten, Qualität, Datenschutz und Latenz ein.
§ 08.4 Häufige Fragen
ChatGPT ist doch kostenlos. Wozu für eine Integration zahlen?
Ein kostenloser Chatbot ist eine Demo, in die man Daten manuell hineinkopiert. Eine Integration ist, wenn das Modell innerhalb Ihres Prozesses arbeitet: aus der Datenbank liest, ins CRM schreibt, Reports schickt. Der Unterschied liegt in den Stunden, die nicht für Copy-Paste draufgehen.
Modelle lügen und erfinden Dinge.
Ja, und das muss in der Architektur berücksichtigt werden. RAG mit Pflicht-Zitaten, Format-Validierung der Antwort, Fallback an einen Operator bei niedriger Konfidenz, Eval-Sets für die Qualitätssicherung. Halluzinationen lassen sich nicht heilen — aber ihr Einfluss kann auf ein erträgliches Maß begrenzt werden.
Wie steht es um den Datenschutz? Wir haben personenbezogene Kundendaten.
Für personenbezogene Daten in Russland ist die natürliche Wahl YandexGPT oder GigaChat: Daten werden in Russland gehalten und verarbeitet, es gibt einen Standardvertrag zur Auftragsverarbeitung, Konformität mit dem 152-FZ. Zweite Option — lokale Open-Weight-Modelle (Llama, Qwen3, Kimi K2.5, Mistral, GLM 5.1) auf Ihrer Hardware: Daten verlassen den Perimeter überhaupt nicht. Dritte — westliche Cloud-Modelle (Claude, GPT) mit Enterprise-Vertrag und Garantien gegen Verwendung im Training. Wir wählen die Lösung passend zu Ihrer Situation und Ihren Compliance-Anforderungen.
Was kostet der Betrieb?
Hängt vom Volumen und vom gewählten Modell ab. Für Unternehmen bis 100 Mitarbeiter üblicherweise einige Tausend bis einige Zehntausend Rubel pro Monat für Tokens. Bei großen Volumina amortisiert sich ein lokales Modell in 2–4 Monaten.
Beschreiben Sie
einen Prozess, in dem das Modell hilft.
hi@weiss.help ↗
Erstes 20-Minuten-Gespräch — kostenlos. Integrationsplan innerhalb eines Tages.