إطلاق نموذج Privacy Filter من OpenAI لحماية البيانات الشخصية

آخر تحديث: أبريل 24, 2026

قراءة لمدة 2 دقائق

المحتوى

أطلقت شركة OpenAI نموذج Privacy Filter مفتوح الأوزان للكشف عن معلومات التعريف الشخصية (PII) في النصوص وإخفائها تلقائياً.

وبحسب ما أعلنه موقع OpenAI الرسمي، يأتي هذا الإطلاق ضمن جهود الشركة لدعم بيئة برمجية أكثر أماناً وتوفير بنية تحتية عملية للمطورين لبناء تطبيقات تعتمد على الذكاء الاصطناعي مع ضمانات قوية للخصوصية. يتميز هذا النموذج بحجمه الصغير وقدرته الفائقة على اكتشاف البيانات الشخصية وفهم السياق داخل النصوص غير المهيكلة. يمكن تشغيل النموذج محلياً، مما يعني أن عملية إخفاء البيانات أو تنقيحها تتم دون الحاجة لنقل بياناتك إلى خوادم خارجية.

آلية عمل نموذج Privacy Filter

يعتمد نموذج Privacy Filter على بنية تصنيف الرموز ثنائية الاتجاه (Bidirectional token-classification) مع فك تشفير النطاق. وبدلاً من توليد النص كلمة بكلمة، يقوم النموذج بتصنيف تسلسل المدخلات في تمريرة واحدة سريعة، مما يجعله فعالاً للغاية لمعالجة المدخلات الطويلة في الاستخدامات العملية.

النموذج مجهز لدعم سياق نصوص طويلة تصل إلى 128,000 رمز. ويتكون من 1.5 مليار معلمة إجمالية، مع 50 مليون معلمة نشطة فقط، مما يمنحه سرعة وكفاءة عاليتين مع الحفاظ على بصمة حاسوبية منخفضة.

الفئات التي يستهدفها النموذج

وفقاً لتقرير الشركة، يستطيع النموذج التنبؤ وتحديد النطاقات عبر ثماني فئات رئيسية لحماية الخصوصية:

• الأشخاص (private_person)

• العناوين (private_address)

• البريد الإلكتروني (private_email)

• أرقام الهواتف (private_phone)

• الروابط الخاصة (private_url)

• التواريخ (private_date)

• أرقام الحسابات، والتي تشمل البيانات البنكية والبطاقات الائتمانية (account_number)

• الأسرار البرمجية، مثل كلمات المرور ومفاتيح API (secret)

أداء متفوق وقدرة على التكيف

حقق النموذج أداءً قياسياً في اختبار PII-Masking-300k، حيث سجل درجة F1 بلغت 97.43% (بدقة 96.79% ومعدل استدعاء 98.08%)، وذلك بعد تصحيح مشكلات التعليقات التوضيحية التي تم اكتشافها في مجموعة البيانات الأصلية. وتؤكد تقييمات OpenAI أن النموذج يتميز بمرونة عالية، حيث أدى الضبط الدقيق (Fine-tuning) باستخدام كمية صغيرة من البيانات إلى رفع درجة F1 بشكل سريع من 54% إلى 96% في المهام المخصصة لمجالات محددة.

تتجاوز قدرات النموذج مجرد مطابقة الأنماط التقليدية التي تعتمد على قواعد ثابتة؛ فهو يمتلك فهماً أعمق للغة يسمح له بالتمييز بين المعلومات العامة التي يجب الاحتفاظ بها، والمعلومات الخاصة التي تستوجب الإخفاء أو التنقيح بناءً على السياق.

التوافر وقيود الاستخدام

النموذج متاح حالياً بموجب ترخيص Apache 2.0 عبر منصتي Hugging Face و Github. وهو موجه للتجريب، والتخصيص، والنشر التجاري، مما يتيح للمطورين بناء حمايات أقوى للخصوصية في خطوط التدريب والفهرسة والمراجعة الخاصة بهم.

رغم هذه الكفاءة، أوضحت الشركة أن الأداة ليست بديلاً عن أنظمة إخفاء الهوية الكاملة ولا تعتبر شهادة امتثال قانوني في القطاعات الحساسة. وكأي أداة ذكاء اصطناعي، قد يخطئ النموذج في اكتشاف بعض المعرفات غير الشائعة أو المراجع الغامضة، وخاصة عندما يكون السياق محدوداً في النصوص القصيرة. ولذلك، تظل المراجعة البشرية وإجراء التقييمات المخصصة للمجالات ذات الحساسية العالية مثل القانون والطب والتمويل خطوات أساسية لا غنى عنها.