Microsoft Purview chặn mã nguồn Java trong các tệp văn bản và hình ảnh

Kích hoạt OCR (Bắt buộc để chặn JPEG, PNG)

Nếu không có bước này, Microsoft DLP sẽ không thể “đọc” được chữ trong tệp ảnh.

Truy cập vào https://compliance.microsoft.com/.

    Chọn Settings (biểu tượng bánh răng góc dưới bên trái) > Microsoft Purview giải pháp.

    Tìm đến mục Optical character recognition (OCR).

      Gạt nút sang On và đảm bảo các vị trí như Exchange, SharePoint, OneDrive đã được tích chọn.

        Lưu ý: Bạn cần có Azure Subscription kết nối để trả phí cho việc quét OCR.

          Tạo bộ nhận diện Java (Sensitive Information Type – SIT)

          Chúng ta sẽ tạo một “bộ lọc” để hệ thống hiểu thế nào là mã nguồn Java.

          Trong Purview, chọn Data classification > Classifiers.

          Chọn tab Sensitive information types > Nhấn + Create sensitive information type.

          Name: Đặt tên là Java_Source_Code_Detection.

          Define patterns: Nhấn + Create pattern.

          Confidence level: Chọn High confidence.

          Primary element: Chọn Regular expression.

          • ID: Java_Keywords
          • Regex: Copy đoạn mã sau (nhận diện các từ khóa đặc trưng của Java): \b(public|private|protected)\s+(class|interface|enum)\s+\w+|System\.out\.print(ln)?|public\s+static\s+void\s+main|import\s+java\..+;

          Supporting evidence: (Tùy chọn) Thêm các từ khóa như String[] args, extends, implements, @Override.

          Nhấn Create và đợi hệ thống lưu lại.

          Tạo chính sách DLP (DLP Policy)

          Đây là bước quyết định việc chặn tệp.

          Vào Data loss prevention > Policies > + Create policy.

          Categories: Chọn Custom > Custom policy > Next.

          Name: Block_Java_Source_Code.

          Locations: Chọn các kênh bạn muốn chặn (Exchange, SharePoint, OneDrive, Teams, Devices).

          Policy settings: Chọn Create or customize advanced DLP rules > Next.

          Nhấn + Create rule:

          • Name: Detect Java in Files.
          • Conditions:
            • Content contains: Chọn Sensitive information types > Tìm bộ Java_Source_Code_Detection bạn vừa tạo ở Bước 2.
            • Content contains: Chọn Trainable classifiers > Chọn Source Code (Đây là bộ lọc AI có sẵn của Microsoft để tăng độ chính xác).
          • File extension is: Thêm các đuôi: txt, jpg, jpeg, pdf, png.
          • Actions:
            • Chọn Restrict access or control the content.
          • Chọn Block everyone (hoặc chỉ chặn gửi ra bên ngoài tổ chức).
          • User notifications: Bật On để người dùng biết họ bị chặn do vi phạm quy định bảo mật mã nguồn.
          • Incident reports: Bật để gửi cảnh báo về cho quản trị viên (Admin).