Kích hoạt OCR (Bắt buộc để chặn JPEG, PNG)
Nếu không có bước này, Microsoft DLP sẽ không thể “đọc” được chữ trong tệp ảnh.
Truy cập vào https://compliance.microsoft.com/.

Chọn Settings (biểu tượng bánh răng góc dưới bên trái) > Microsoft Purview giải pháp.
Tìm đến mục Optical character recognition (OCR).

Gạt nút sang On và đảm bảo các vị trí như Exchange, SharePoint, OneDrive đã được tích chọn.

Lưu ý: Bạn cần có Azure Subscription kết nối để trả phí cho việc quét OCR.
Tạo bộ nhận diện Java (Sensitive Information Type – SIT)
Chúng ta sẽ tạo một “bộ lọc” để hệ thống hiểu thế nào là mã nguồn Java.
Trong Purview, chọn Data classification > Classifiers.

Chọn tab Sensitive information types > Nhấn + Create sensitive information type.
Name: Đặt tên là Java_Source_Code_Detection.

Define patterns: Nhấn + Create pattern.
Confidence level: Chọn High confidence.

Primary element: Chọn Regular expression.

- ID:
Java_Keywords - Regex: Copy đoạn mã sau (nhận diện các từ khóa đặc trưng của Java):
\b(public|private|protected)\s+(class|interface|enum)\s+\w+|System\.out\.print(ln)?|public\s+static\s+void\s+main|import\s+java\..+;

Supporting evidence: (Tùy chọn) Thêm các từ khóa như String[] args, extends, implements, @Override.



Nhấn Create và đợi hệ thống lưu lại.

Tạo chính sách DLP (DLP Policy)
Đây là bước quyết định việc chặn tệp.
Vào Data loss prevention > Policies > + Create policy.

Categories: Chọn Custom > Custom policy > Next.

Name: Block_Java_Source_Code.

Locations: Chọn các kênh bạn muốn chặn (Exchange, SharePoint, OneDrive, Teams, Devices).

Policy settings: Chọn Create or customize advanced DLP rules > Next.

Nhấn + Create rule:
- Name:
Detect Java in Files.

- Conditions:
- Content contains: Chọn Sensitive information types > Tìm bộ
Java_Source_Code_Detectionbạn vừa tạo ở Bước 2. - Content contains: Chọn Trainable classifiers > Chọn Source Code (Đây là bộ lọc AI có sẵn của Microsoft để tăng độ chính xác).
- Content contains: Chọn Sensitive information types > Tìm bộ

- File extension is: Thêm các đuôi:
txt,jpg,jpeg,pdf,png.

- Actions:
- Chọn Restrict access or control the content.

- Chọn Block everyone (hoặc chỉ chặn gửi ra bên ngoài tổ chức).

- User notifications: Bật On để người dùng biết họ bị chặn do vi phạm quy định bảo mật mã nguồn.

- Incident reports: Bật để gửi cảnh báo về cho quản trị viên (Admin).





