llm-finetune-dataset-pipeline

(Sample data ở showcase/latest_dataset.jsonl)

Report

1. Hạ tầng & Dockerization

Chuyển đổi lưu trữ (Local to Data Lake): Toàn bộ dữ liệu (PDF, Raw Text, Final Dataset) đã được tách biệt khỏi môi trường local và chuyển sang lưu trữ trên MinIO (Cloud compatible).

→ Giúp hệ thống sẵn sàng để đưa lên các nền tảng cloud (AWS/GCP/Azure).
Containerization: Toàn bộ stack công nghệ (MinIO + Dagster) đã được đóng gói qua Docker, đảm bảo tính nhất quán giữa môi trường dev và production.

2. Điều phối & Tự động hóa (Orchestration)

Mage.ai → Dagster: Sau khi thử nghiệm Mage.ai gặp lỗi không tương thích, hệ thống đã được xây dựng lại trên nền tảng Dagster. Đây là thay đổi cốt yếu giúp pipeline vận hành ổn định và chuyên nghiệp hơn.
Cơ chế Kích hoạt tự động (Hot Folder Sensor): Triển khai Sensor theo dõi thư mục hot_folder/. Pipeline sẽ tự động kích hoạt ngay khi có file PDF mới được tải lên.
Lịch trình đồng bộ (Weekly Schedule): Cấu hình chạy quét toàn bộ ArXiv vào mỗi 23:00 tối Chủ Nhật hàng tuần để cập nhật các bài báo mới nhất.

3. Tối ưu hóa Hiệu suất & Chi phí

Xử lý song song (Batch & Async): Tốc độ phân loại (Classify) được cải thiện nhờ xử lý 16 chunks cùng lúc. Sử dụng Async Ollama để gọi 2 cuộc gọi LLM song song, giúp giảm đáng kể thời gian chờ đợi.
Idempotency & Cost Defense (Caching): Triển khai cơ chế Hashing (MD5) để đánh dấu nội dung đã xử lý. Nếu gặp lại nội dung cũ, hệ thống sẽ lấy kết quả từ Cache trên MinIO thay vì gọi lại AI, giúp tiết kiệm tối đa chi phí API/Token.

4. Chất lượng dữ liệu & Traceability

Lọc dữ liệu thô: Cải tiến logic lọc liên kết rác (giữ lại DOI) và loại bỏ các phần nhiễu như Tài liệu tham khảo (Bibliography) để làm sạch đầu vào cho AI.
Traceability: Thêm paper_id vào mỗi record trong dataset cuối cùng, cho phép truy vết nguồn gốc câu hỏi từ bài báo nào.