Häufig gestellte Fragen
Alles, was Sie über Descrideo und unseren KI-Videobeschreibungsdienst wissen müssen.
Descrideo ist ein KI-gestützter Videobeschreibungsdienst, der Ihre Videos automatisch mithilfe visueller Frames, Audio-Transkription oder beidem analysiert, um detaillierte, genaue Textbeschreibungen zu generieren. Wählen Sie aus drei Generierungsmodi: nur Vision, kombinierte Vision + Audio oder nur Audio. Unsere Technologie ist perfekt für Barrierefreiheit, SEO und Content-Management.
Unser Service folgt einem einfachen Prozess: Zuerst laden Sie Ihr Video auf unsere sichere Plattform hoch. Dann extrahiert unsere KI je nach gewähltem Generierungsmodus Schlüsselbilder, transkribiert Audio-Segmente oder beides. Fortgeschrittene Computer-Vision- und Spracherkennungsmodelle analysieren den Inhalt. Schließlich erhalten Sie detaillierte Beschreibungen per Webhook oder in Ihrem Dashboard. Der gesamte Prozess ist automatisiert und wird typischerweise innerhalb von Sekunden bis Minuten abgeschlossen, abhängig von Videolänge und Generierungsmodus.
Descrideo bietet drei Generierungsmodi: Vision (Standard) analysiert extrahierte Video-Frames, um visuellen Inhalt zu verstehen. Vision + Audio kombiniert Frame-Analyse mit Audio-Transkription für die umfassendsten Beschreibungen — ideal für Vlogs, Reviews und Präsentationen. Nur Audio transkribiert Sprache ohne Frame-Extraktion, perfekt für Podcasts, Interviews und Vorträge. Der Vision-Modus ist in allen Plänen einschließlich kostenlos verfügbar. Audio-Modi erfordern einen kostenpflichtigen Plan.
Wenn Sie die Audio-Transkription aktivieren (vision_audio- oder audio-Modus), extrahiert unser System Audio-Segmente aus Ihrem Video und transkribiert sie mittels fortgeschrittener Spracherkennung. Sie können die Anzahl der Segmente (10, 20 oder 30) und Segmentdauer (5-60 Sekunden jeweils) konfigurieren. Der transkribierte Text wird dann mit visueller Analyse kombiniert (im vision_audio-Modus) oder als alleinige Eingabe verwendet (im audio-Modus), um Beschreibungen zu generieren. Die Audio-Transkription wird als Add-on basierend auf der gesamten gesampleten Audio-Dauer abgerechnet.
Descrideo unterstützt alle gängigen Videoformate einschließlich MP4, MOV, AVI, MKV, WebM und mehr. Unser System handhabt automatisch Videokonvertierung und Optimierung für KI-Analyse. Die maximale Dateigröße variiert je nach Plan.
Ja, Sicherheit ist unsere höchste Priorität. Alle Videos werden in verschlüsseltem S3-kompatiblem Speicher mit Zugriffskontrollen gespeichert. Wir verwenden HMAC-verifizierte Webhooks für sichere Kommunikation, und die gesamte Datenübertragung verwendet HTTPS-Verschlüsselung. Sie können Ihre Videos und zugehörigen Daten jederzeit löschen.
Descrideo kann Videobeschreibungen in mehreren Sprachen generieren. Unsere KI ist in der Lage, Beschreibungen auf Englisch, Spanisch, Französisch, Deutsch und vielen anderen Sprachen zu produzieren. Sie können Ihre bevorzugte Ausgabesprache beim Erstellen einer Beschreibungsaufgabe angeben.
Descrideo bietet eine robuste API und ein Webhook-System für nahtlose Integration. Sie können Videobeschreibungsanfragen über unsere REST-API senden und Ergebnisse über Webhooks erhalten. Alle Webhook-Kommunikationen sind mit HMAC-Signaturen zur Überprüfung gesichert. Sehen Sie sich unsere Dokumentation für detaillierte Integrationsleitfäden an.
Wir bieten flexible Preispläne für unterschiedliche Bedürfnisse, von einzelnen Erstellern bis zu Unternehmenslösungen. Erstellen Sie ein kostenloses Konto, um zu beginnen und unsere Funktionen zu erkunden. Kontaktieren Sie unser Verkaufsteam unter contact@descrideo.com für individuelle Unternehmenspreise.
Die Audio-Transkription ist ein Add-on zu den Basisaufgabenkosten. Sie zahlen die Basis-Token-Kosten für jede erfolgreiche Aufgabe plus zusätzliche Kosten basierend auf der Menge des gesampleten Audios (berechnet pro 10-Sekunden-Schritten). Die genauen Kosten werden vor der Aufgabenerstellung angezeigt und im Webhook-Billing-Payload bestätigt. Audio-Modi (vision_audio und audio) sind in allen kostenpflichtigen Plänen verfügbar. Der kostenlose Demo-Plan ist nur Vision.
Unsere KI erreicht hohe Genauigkeit durch Analyse mehrerer Frames und optionale Audio-Transkription Ihres Videos. Der kombinierte Vision + Audio-Modus produziert die reichhaltigsten Beschreibungen, indem er sowohl erfasst, was gezeigt als auch was gesagt wird. Der Nur-Audio-Modus eignet sich hervorragend für Podcasts, Interviews und Vorträge, bei denen Sprache die primäre Information trägt. Die Genauigkeit kann je nach Inhaltskomplexität und Audioqualität variieren.
Descrideo ist mit Blick auf Barrierefreiheit konzipiert. Unsere KI-generierten Beschreibungen können als Audiodeskriptions-Skripte (für Erzählung), als Textalternativen/Medienalternativen und als unterstützender Kontext neben Untertiteln verwendet werden. Der kombinierte Vision + Audio-Modus bietet die umfassendste Barrierefreiheitsabdeckung, indem er sowohl visuellen als auch gesprochenen Inhalt erfasst. Die endgültige Barrierefreiheits-Compliance hängt von Ihrem Implementierungs- und Überprüfungsprozess ab.
Schreiben Sie uns an contact@descrideo.com. Wir antworten typischerweise innerhalb von 24-48 Geschäftsstunden. Sie können auch unsere FAQ und Dokumentation für schnelle Antworten auf häufige Fragen konsultieren.
Haben Sie noch Fragen?
Können Sie die gesuchte Antwort nicht finden? Unser Support-Team ist hier, um zu helfen.
Support kontaktieren