Sử dụng Big Data và công nghệ AI mạng nơ ron trong phát hiện thông tin, hóa đơn thuế không hợp lệ

Mã số
MS049
Tác giả
- Đặng Hải Nhã/Giám đốc - Đặng Trung Kiên/Phó Giám đốc - Đàm Bích Lộc/Trưởng phòng - Nguyễn Hữu Hiếu/Phó Trưởng Phòng - Nguyễn Nam Hán/Chuyên viên
Đơn vị
CĐCS Trung tâm Dữ liệu và Phân tích BIDV

1. Lĩnh vực áp dụng sáng kiến:

  • Cải tiến kỹ thuật, quy trình nghiệp vụ, nâng cao năng suất, chất lượng, hiệu quả công việc.
  • Ứng dụng công nghệ số, trí tuệ nhân tạo (AI), Big Data trong hoạt động ngân hàng.
  • Giải pháp tối ưu hóa công tác quản trị rủi ro, tuân thủ tại cơ quan, đơn vị.
  • Nâng cao hiệu quả công tác kiểm soát chi phí và giải ngân.

2. Mô tả tóm tắt nội dung sáng kiến:

2.1. Thực trạng vấn đề trước khi có sáng kiến:

Trước khi giải pháp “Sử dụng Big Data và công nghệ AI mạng nơ ron trong phát hiện thông tin, hóa đơn thuế không hợp lệ” được đề xuất (tháng 06/2024), công tác kiểm soát hóa đơn điện tử đầu vào tại BIDV, bao gồm cả hóa đơn chi tiêu nội bộ và hóa đơn là chứng từ giải ngân của khách hàng, còn nhiều hạn chế và tiềm ẩn rủi ro. Quy trình chủ yếu dựa vào việc tra cứu thủ công thông tin nhà cung cấp và hóa đơn trên các website của Tổng cục Thuế (TCT). Hệ thống BPM hiện tại, dù có một số chức năng hỗ trợ, nhưng không kết nối trực tuyến với cơ sở dữ liệu của TCT, danh sách nhà cung cấp nghi ngờ được cập nhật thủ công, thiếu tính kịp thời và đầy đủ, không kiểm tra được các thông tin quan trọng như tình trạng hoạt động, ngành nghề kinh doanh của nhà cung cấp, và gặp khó khăn khi quản lý lượng lớn dữ liệu (hơn 500.000 hóa đơn).
Điều này dẫn đến:

  • Tốn kém thời gian và nhân lực: Mỗi hóa đơn mất từ 3-5 phút để tra cứu, đối chiếu.
  • Rủi ro sai sót cao: Do thao tác thủ công, dễ dẫn đến nhập liệu sai, bỏ sót thông tin.
  • Nguy cơ tài chính và pháp lý: Khó phát hiện kịp thời các hóa đơn không hợp lệ, hóa đơn của doanh nghiệp đã ngừng hoạt động, doanh nghiệp rủi ro cao về thuế, dẫn đến nguy cơ xuất toán chi phí, phạt thuế, ảnh hưởng đến uy tín của Ngân hàng theo quy định tại Nghị định 123/2020/NĐ-CP và Luật Quản lý thuế số 38/2019/QH14.
    Nhu cầu cấp thiết đặt ra là cần một giải pháp công nghệ tự động, chính xác và toàn diện để khắc phục những tồn tại trên.

2.2. Nội dung cốt lõi, tính mới, tính sáng tạo của sáng kiến/giải pháp:

Để giải quyết những thách thức trên, Trung tâm Quản trị Dữ liệu (TTQTDL) đã nghiên cứu và phát triển giải pháp “Sử dụng Big Data và công nghệ AI mạng nơ ron trong phát hiện thông tin, hóa đơn thuế không hợp lệ”. Đây là một hệ thống tự động hóa toàn diện quy trình kiểm tra, đối chiếu hóa đơn.

2.3. Quá trình phát triển và triển khai:

Sáng kiến được bắt đầu nghiên cứu và phát triển từ tháng 06/2024. Giải pháp được xây dựng dựa trên việc ứng dụng công nghệ Big Data để phân tích và công nghệ Trí tuệ nhân tạo (AI) với mô hình mạng nơ ron hồi quy (Recurrent Neural Network – RNN) để nhận dạng và trích xuất thông tin.

  • Thu thập và huấn luyện dữ liệu: Đội ngũ đã thu thập, làm sạch và gán nhãn thủ công một bộ dữ liệu gồm 13.000 mẫu hình ảnh tra cứu hóa đơn và thông tin người nộp thuế từ website của Tổng cục Thuế. Dữ liệu này được chia theo tỷ lệ 60% cho huấn luyện, 20% cho đánh giá và 20% cho kiểm thử mô hình AI.
  • Xây dựng mô hình AI: Kiến trúc mô hình AI mạng nơ ron được thiết kế với các lớp Conv2D, MaxPooling2D, Reshape, Dense, Dropout, Bidirectional, cho phép trích xuất đặc trưng và nhận dạng chữ viết (OCR) hiệu quả. Kết quả huấn luyện cho độ chính xác cao (99.13% trên tập huấn luyện, 98.45% trên tập kiểm thử) và hiệu năng tốt (0,12s/hình ảnh).
  • Phát triển ứng dụng: TTDL&PT đã phát triển ứng dụng với giao diện tra cứu, các chức năng đối chiếu tự động, cảnh báo rủi ro, hỗ trợ đa dạng định dạng đầu vào (form nhập liệu, file XML, Excel) và khả năng kết nối qua API.
  • Triển khai thử nghiệm: Giải pháp được triển khai thử nghiệm qua 2 giai đoạn:
    • Giai đoạn 1 (từ 06/2024): Tại 4 đơn vị TSC (TTDL&PT, TTDVKH, Ban Kế toán, Ban KTNB), xử lý hơn 250.000 hóa đơn và 50.000 MST.
    • Giai đoạn 2 (từ 07/2024): Mở rộng thí điểm tại Chi nhánh Hà Nội.
      Đến tháng 10/2024, giải pháp được lên kế hoạch nhân rộng toàn hệ thống.

2.4. Nền tảng hoạt động và phạm vi hỗ trợ:

Giải pháp được thiết kế để hoạt động trên hạ tầng công nghệ của BIDV, đảm bảo an toàn và bảo mật thông tin. Thời gian phản hồi cho mỗi yêu cầu tra cứu hóa đơn giảm xuống chỉ còn 2-5 giây. Phạm vi hỗ trợ của giải pháp bao gồm:

  • Tự động đối chiếu thông tin người bán: So khớp 6 trường thông tin (Mã số thuế, Tên NNT, Cơ quan thuế, Số CMT/CCCD, Ngày thay đổi TT gần nhất, Ghi chú) với dữ liệu từ tracuunnt.gdt.gov.vn, trả về trạng thái hoạt động của NNT kèm hình ảnh.
  • Tự động đối soát nội dung hóa đơn: So khớp 6 trường thông tin (MST người bán, loại HĐ, ký hiệu HĐ, số HĐ, tổng tiền thuế, tổng tiền thanh toán) với dữ liệu từ hoadondientu.gdt.gov.vn, trả về trạng thái hóa đơn kèm hình ảnh.
  • Phát hiện bất thường về giá trị hóa đơn: Sử dụng thuật toán khai phá dữ liệu để tìm các giao dịch nghi ngờ (giá trị cao bất thường, không đúng ngành nghề).
  • Cảnh báo rủi ro tự động: Đối chiếu với danh sách đối tượng rủi ro cao về thuế từ gdt.gov.vn và tự động gửi cảnh báo.
  • Đa dạng hóa đầu vào: Hỗ trợ nhập liệu trực tiếp, file XML, Excel, tra cứu hàng loạt, lập lịch tự động.
  • Kiến trúc API mở: Sẵn sàng tích hợp với các hệ thống khác như BPM, Ibank.

2.5. Tính mới và sáng tạo:

  • Ứng dụng AI và Big Data tiên tiến: Giải pháp tiên phong ứng dụng mạng nơ ron hồi quy (RNN), OCR và phân tích dữ liệu lớn để tự động hóa hoàn toàn quy trình tra cứu, đối chiếu hóa đơn, vốn trước đây thực hiện thủ công và phức tạp.
  • Kết nối dữ liệu thời gian thực: Tích hợp trực tiếp và truy xuất dữ liệu từ các nguồn chính thống của Tổng cục Thuế, đảm bảo tính chính xác và cập nhật liên tục, khắc phục hạn chế của phương pháp cũ.
  • Cổng tra cứu tập trung và toàn diện: Cung cấp giao diện thống nhất để tra cứu đầy đủ thông tin về người nộp thuế và hóa đơn, thay vì phải truy cập nhiều nguồn rời rạc.
  • Cơ chế tự học và tự hoàn thiện (Machine Learning): Mô hình AI liên tục được cải thiện độ chính xác thông qua việc học hỏi từ các kết quả tra cứu được xác nhận, làm giàu thêm bộ dữ liệu huấn luyện.
  • Phát hiện bất thường và cảnh báo chủ động: Bổ sung các cơ chế phân tích dữ liệu tổng hợp để chủ động phát hiện sớm và ngăn chặn gian lận, sai phạm liên quan đến hóa đơn.
  • Tự chủ công nghệ và tiềm năng mở rộng: Giải pháp được tự phát triển dựa trên công nghệ mã nguồn mở, dễ bảo trì, nâng cấp và có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực của ngân hàng.

3. Hiệu quả cụ thể đã đạt được (Số liệu minh chứng):

Giải pháp đã mang lại những hiệu quả thiết thực và có thể định lượng được:

  • Về hiệu suất và chất lượng công việc:
    • Thời gian tra cứu và đối chiếu 01 hóa đơn giảm từ 3-5 phút xuống còn 2-5 giây
    • Khả năng xử lý song song hàng loạt hàng nghìn hóa đơn chỉ trong vài phút.
    • Tỷ lệ chính xác của kết quả đối chiếu đạt trên 95%, loại bỏ sai sót do nhập liệu thủ công.
  • Về quản trị rủi ro và tuân thủ:
    • Kịp thời cảnh báo các trường hợp hóa đơn của đơn vị ngừng hoạt động, hóa đơn bị hủy/điều chỉnh, đơn vị bán hàng thuộc diện rủi ro cao về thuế.
    • Phát hiện các dấu hiệu gian lận như bán hàng giá trị cao bất thường, không phù hợp ngành nghề.
    • Giảm thiểu rủi ro pháp lý và tài chính liên quan đến hóa đơn không hợp lệ.
  • Về tiết kiệm chi phí và làm lợi:
    • Tổng chi phí lương của cán bộ tra cứu hóa đơn thủ công ước tính 14,06 tỷ đồng/năm.
    • Chi phí của sáng kiến (tính theo tỷ lệ CIR) là 4,72 tỷ đồng/năm.
    • Số tiền làm lợi của sáng kiến ước tính là 9,34 tỷ đồng/năm.
  • Nâng cao năng lực và thúc đẩy chuyển đổi số:
    • Xây dựng cơ sở dữ liệu tập trung về hóa đơn, tạo tiền đề cho các ứng dụng AI và khai phá dữ liệu sâu hơn trong tương lai.
    • Góp phần hiện thực hóa chiến lược chuyển đổi số, nâng cao vị thế cạnh tranh của BIDV.

Bên cạnh đó, giải pháp có khả năng ứng dụng và nhân rộng (Định hướng phát triển):
Sáng kiến “Sử dụng Big Data và công nghệ AI mạng nơ ron trong phát hiện thông tin, hóa đơn thuế không hợp lệ” có tiềm năng phát triển và mở rộng lớn:

  • Nhân rộng toàn hệ thống: Triển khai chính thức tại tất cả các đơn vị trong hệ thống BIDV.
  • Tích hợp sâu rộng với các hệ thống nghiệp vụ: Kết nối chặt chẽ với BPM (cấu phần chi tiêu nội bộ, quản lý giải ngân), I-bank (tự động kiểm tra hóa đơn khách hàng upload), và các hệ thống khác.
  • Liên tục cải tiến mô hình AI: Tiếp tục làm giàu dữ liệu huấn luyện để nâng cao độ chính xác và khả năng nhận diện các trường hợp phức tạp.
  • Phát triển các tính năng phân tích nâng cao: Ứng dụng các kỹ thuật phân tích dữ liệu tiên tiến hơn để phát hiện các mẫu hình gian lận tinh vi, hỗ trợ ra quyết định dựa trên dữ liệu.
  • Mở rộng phạm vi áp dụng: Nghiên cứu khả năng áp dụng cho các loại chứng từ khác hoặc các quy trình nghiệp vụ liên quan đến xác minh thông tin đối tác.
  • Xây dựng nền tảng dữ liệu mở: Phát triển thành một nền tảng dữ liệu về hóa đơn và thông tin doanh nghiệp, phục vụ các sáng kiến số hóa khác của ngân hàng.

Sáng kiến “Sử dụng Big Data và công nghệ AI mạng nơ ron trong phát hiện thông tin, hóa đơn thuế không hợp lệ” không chỉ giải quyết một bài toán nghiệp vụ cấp thiết mà còn thể hiện tầm nhìn tiên phong của BIDV trong việc ứng dụng công nghệ hiện đại để tối ưu hóa quy trình, nâng cao năng lực quản trị rủi ro và thúc đẩy mạnh mẽ quá trình chuyển đổi số, mang lại lợi ích thiết thực về hiệu quả hoạt động và tài chính cho Ngân hàng.

Xem thêm