Benchmark Suite

الـ 100-scenario holdout/stress suite المجمّد. هذه الصفحة تجعل المقارنة قابلة لإعادة التشغيل والتنزيل بدل أن تبقى مجرد ملف وثائقي.
← benchmark
Total
100
عدد السيناريوهات المجمّدة
Good
100
مطابق للمتوقع
Suspicious
0
يحتاج مراجعة
Bad
0
مرفوض

Why this suite matters

This suite is the paper-facing holdout. It keeps the reference material separate from augmentation and lets us track the current analyzer on stress cases that are likely to fail if precedence breaks.
ExpectedPredictedCount
No mismatches in the current frozen run.

Suite metadata

FieldValue
Total100
Good100
Suspicious0
Bad0
Sourcefunctional_syntax/data/user_scenario_test_suite_100.tsv
Evaluationfunctional_syntax/data/user_scenario_test_suite_100_eval.json
Reportfunctional_syntax/docs/user_scenario_test_suite_100_eval.md
The JSON/Markdown/ZIP exports make this suite reproducible from the frozen artifacts without rerunning discovery.

Sample rows

#1 good
vocative → vocative
يا أحمد تعال الآن
Confidence: high · Slot: م4 → ف · category matches expectation
#2 good
vocative → vocative
يا دكتور هل المريض بخير؟
Confidence: medium · Slot: م4 → ص · category matches expectation
#3 good
vocative → vocative
أيتها المعلمة اشرحي الدرس
Confidence: high · Slot: م4 · category matches expectation
#4 good
vocative → vocative
أيها الطلاب انتبهوا جيدًا
Confidence: medium · Slot: م4 → ص · category matches expectation
#5 good
vocative → vocative
يا رب اغفر لي
Confidence: high · Slot: م4 → ف · category matches expectation
#6 good
vocative → vocative
يا أمي لقد وصلتُ
Confidence: medium · Slot: م4 → ف → ص · category matches expectation
#7 good
vocative → vocative
يا صاحب البيت تفضل
Confidence: high · Slot: م4 → ف · category matches expectation
#8 good
vocative → vocative
يا زيد لا تتأخر
Confidence: medium · Slot: م4 → ص → ف · category matches expectation
#9 good
vocative → vocative
يا رجال الشرطة انتبهوا
Confidence: medium · Slot: م4 → ص · category matches expectation
#10 good
vocative → vocative
يا خالد ثم تعال
Confidence: medium · Slot: م4 → ص → ف · category matches expectation
#11 good
interrog_yes_no → interrog_yes_no
هل فهمت الدرس؟
Confidence: medium · Slot: م1 → ف → فا · category matches expectation
#12 good
interrog_yes_no → interrog_yes_no
أذهب خالد إلى المدرسة؟
Confidence: high · Slot: م1 → ف → ص · category matches expectation