Falcon Perception ist ein Early-Fusion-Transformer mit 0,6 Milliarden Parametern für open-vocabulary Grounding und Segmentierung aus natürlichsprachlichen Prompts. Das Modell verarbeitet Bild-Patches und Text in einer gemeinsamen Sequenz mit einer hybriden Attention-Maske und erzeugt eine variable Anzahl von Instanzen über eine kleine strukturierte Token-Schnittstelle und leichte Output-Heads.
Die Architektur ersetzt modulare Pipelines aus Vision-Backbone, Fusion/Decoder und nachgelagerten Matching- oder Post-Processing-Komponenten durch einen einzelnen autoregressiven Transformer. Bild-Token attendieren bidirektional auf andere Bild-Token, während Text- und Task-Token kausal auf den visuellen Präfix und vorherige Text-Token zugreifen. So soll derselbe Backbone zugleich wie ein bidirektionaler visueller Encoder und wie ein autoregressives Modell für Task-Token arbeiten.
Für dichte Perception-Aufgaben mit variabler Instanzzahl nutzt Falcon Perception eine strukturierte Ausgabeform namens Chain-of-Perception mit der Reihenfolge <coord> → <size> → <seg>. Zuerst sagt das Modell den Mittelpunkt einer Instanz voraus, dann deren räumliche Ausdehnung und schließlich ein einzelnes Embedding für die Segmentierungsmaske. Koordinaten und Größen werden über spezialisierte Heads dekodiert, per Fourier-Features wieder in die Sequenz eingespeist und für nachfolgende Schritte als Konditionierung genutzt. Die hochaufgelöste Maske entsteht über ein Skalarprodukt zwischen dem <seg>-Token und hochgesampelten Bild-Features.
Die Autoren beschreiben diese Reihenfolge als bewusste Entscheidung, um die Objektzuordnung zunächst geometrisch aufzulösen und die Maskenvorhersage anschließend als Pixelverfeinerung für das bereits bestimmte Objekt zu behandeln. Der Segmentierungs-Head verzichtet dadurch auf separate Mask-Query-Mechanismen und auf Hungarian Matching, wie es in Decoder-basierten Trainingsverfahren für Instanzsegmentierung häufig vorkommt.
Als diagnostischen Benchmark führen sie PBench ein. Dort werden Beispiele nach der dominierenden Fähigkeit getrennt ausgewertet, darunter Attribute, OCR-gestützte Disambiguierung, räumliche Einschränkungen, Relationen sowie dichte Langkontext-Szenen. Ziel ist kein einzelner Gesamtwert, sondern ein Fähigkeitsprofil, das Fehlerursachen getrennt sichtbar macht.
Für die Initialisierung von Falcon Perception wird keine zufällige Startbelegung verwendet, sondern eine Multi-Teacher-Distillation. DINOv3 (ViT-H) liefert lokale visuelle Features für Segmentierung, SigLIP2 sprachabgestimmte visuelle Features für open-vocabulary-Verständnis. Diese Initialisierung erreicht laut Beitrag 74,25 Prozent Zero-Shot-Accuracy auf ImageNet-1k und 85,11 Prozent linear-probe mIoU auf Pascal VOC, bevor das eigentliche Perception-Training beginnt.
Der Trainingsdatensatz entsteht in mehreren Schritten: hierarchisches Clustering webbasiert gesammelter Bilder über DINOv3-Embeddings für gleichmäßigere Konzeptabdeckung, VLM-gestützte dichte Objektdeskriptionen pro Bild nach PBench-Komplexitätsstufen, Negative Mining mit semantischen, visuellen und feingranularen Hard Negatives sowie automatische Annahme nur bei Übereinstimmung von SAM 3, Qwen3-VL-30B und Moondream3 mit IoU größer als 0,8. Uneinigkeit wird an menschliche Annotatoren weitergegeben. Das Verhältnis positiver zu negativer Beispiele bleibt 1:1, damit Presence Calibration ein eigenes Trainingsziel bleibt.
Das Training selbst ist dreistufig aufgebaut. In Stage 1 lernt das Modell anhand von 450 GT, Szeneninventare autoregressiv aufzulisten und dabei Textausdrücke und Positionen vorherzusagen. In Stage 2 mit 225 GT wird die Attention-Maske so verändert, dass Queries sich nicht mehr gegenseitig sehen; zugleich wird der Loss auf Text-Token maskiert, um das Training auf Presence Classification und Lokalisation zu fokussieren. Stage 3 ist ein kurzes Long-Context-Finetuning mit 10 GT, erhöhter Maskengrenze von 600 pro Ausdruck und konstanter minimaler Lernrate, um sehr dichte Szenen abzudecken.
Mehrere Ablationen sollen die Designentscheidungen stützen. Genannt werden ein Muon-Optimizer für die spezialisierten Heads statt AdamW mit einem Zuwachs von 4,8 Punkten auf SA-Co Detection, Raster-Reihenfolge der Instanzen statt zufälliger oder größenbasierter Reihenfolge mit 10 Punkten Vorteil gegenüber zufälliger Ordnung auf SA-Co, Gram-Feature-Regularisierung mit einem Plus von 1,5 Punkten für Segmentierung sowie globale Loss-Normalisierung über Ranks, um Verzerrungen durch variable Sequenzlängen in FSDP zu korrigieren.
Auf dem open-vocabulary-Segmentierungsbenchmark SA-Co erreicht Falcon Perception 68,0 Macro-F1 gegenüber 62,3 für SAM 3. Größere Zugewinne nennt der Beitrag für attributlastige Beispiele (+8,2), Food & Drink (+12,2) und Sports Equipment (+4,0). Als deutlichste verbleibende Schwäche wird die Presence Calibration genannt: Beim MCC liegt Falcon Perception bei 0,64 gegenüber 0,82 für SAM 3.
Besonders groß soll der Abstand bei kompositionelleren Prompts werden, etwa bei OCR-gestützter Disambiguierung, räumlichen Einschränkungen, relationaler Bindung oder sehr dichten Szenen. Im PBench-Dense-Split erreicht Falcon Perception laut Beitrag 72,6 gegenüber 8,9 für Qwen3-VL-30B in der dort verwendeten Evaluationskonfiguration und erreicht oder übertrifft ein 8B-Modell auf räumlichen und relationalen Stufen. Für sehr volle Szenen wird außerdem beschrieben, dass das autoregressive Interface Hunderte Instanzen verarbeiten kann, während ein Fixed-Query-Decoder bei SAM 3 jenseits von etwa 200 Instanzen an Query-Grenzen stößt.
Neben dem Perception-Modell stellt TII auch Falcon OCR vor, ein OCR-Modell mit 0,3 Milliarden Parametern. Es verwendet dieselbe Early-Fusion-Transformer-Grundidee mit gemeinsamer Verarbeitung von Bild-Patches und Text-Token sowie derselben hybriden Attention-Maske, ist aber speziell für OCR von Grund auf trainiert. Auf eine Multi-Teacher-Distillation wurde hier verzichtet, weil OCR laut Beitrag andere visuelle Repräsentationen benötigt als Segmentierung, etwa feingranulare Glyphenerkennung und Strichunterscheidung.
Falcon OCR wird auf einer kuratierten englischsprachigen Mischung aus allgemeinem Dokumenten-Parsing, Erkennung mathematischer und wissenschaftlicher Formeln sowie Tabellenstrukturerkennung trainiert. Hinzu kommen Handschrift, Text in realen Szenen und synthetische Beispiele aus gerenderten LaTeX- und HTML-Quellen. Das Trainingsziel ist reine Next-Token-Vorhersage auf strukturierten Textausgaben. Das Training besteht aus einer langen Pre-Training-Phase mit konstanter Lernrate und einer kurzen Finetuning-Phase mit Cosine Decay.
Bei der Auswertung erreicht Falcon OCR 80,3 auf olmOCR und 88,64 auf OmniDocBench. Laut Beitrag liegt das Modell damit auf olmOCR 1,7 Punkte hinter dem Top-System und führt alle Modelle bei Multi-Column mit 87,1 Prozent sowie bei Tables mit 90,3 Prozent an. Auf OmniDocBench liegt es vor DeepSeek OCR v2, GPT 5.2 und Mistral OCR 3. Gleichzeitig wird hervorgehoben, dass die Vergleichsmodelle deutlich größer sind und/oder proprietäre Infrastruktur nutzen.
Mit 0,3 Milliarden Parametern ist Falcon OCR nach Angaben des Beitrags etwa dreimal kleiner als OCR-VLMs der 0,9B-Klasse, was sich direkt auf den Durchsatz auswirken soll. Für den Einsatz nennen die Autoren einen vLLM-Server für schnelle Bereitstellung und MLX-Integration für Apple Silicon.
Die Veröffentlichung umfasst außerdem einen Inferenz-Stack auf Basis von PyTorch FlexAttention. Genannt werden ein paged KV-Cache mit virtuellen Seitentabellen, Continuous Batching, CUDA-Graph-Capture für die Decode-Schleife, mit GPU-Rechenzeit überlappte Hintergrund-Tokenisierung sowie ein HR-Feature-Cache für hochgesampelte Bild-Features. Für Falcon Perception werden auf einem H100 typische Latenzen von ungefähr 100 ms Prefill, 200 ms Upsampling und 50 ms Decode für wenige Instanzen genannt, mit dem Hinweis, dass diese Werte von Auflösung, Sequenzlänge und Instanzzahl abhängen.
Falcon Perception wurde vom Falcon Vision Team des Technology Innovation Institute in Abu Dhabi entwickelt. Der Beitrag beschreibt die Architektur als bewusst minimal mit einem Backbone, einer Aufgabenfamilie und kleinen Heads nur dort, wo Ausgaben kontinuierlich und dicht sind.
