Đề bài
Các đội sẽ được cung cấp 3 bộ dữ liệu (gọi là dataset) về thông tin của khách hàng đã từng vay:
1. Training dataset (3.201 bản ghi): Gồm thông tin cá nhân của 3.201 khách hàng (nhiều loại thông tin khác nhau) đã được gán nhãn có trả nợ hay không. Các đội sẽ sử dụng Traning dataset để tìm ra mô hình Credit Scoring.
2. Validation dataset (1.068 bản ghi): Chỉ bao gồm thông tin cá nhân của 1.068 khách hàng, chưa được gán nhãn có trả nợ hay không. Các đội phải sử dụng mô hình tìm ra được ở phía trên để dự đoán khả năng trả nợ của 1.068 khách hàng này. Tập dữ liệu này sẽ là tập tính Pubic Score, các đội submit kết quả lên sẽ nhận được Gini Score.
3. Testing dataset (1.068 bản ghi): Chỉ bao gồm thông tin cá nhân của 1.068 khách hàng, chưa được gán nhãn có trả nợ hay không. Các đội phải sử dụng mô hình tìm ra được ở phía trên để dự đoán khả năng trả nợ của 1.068 khách hàng này. Kết quả các đội chạy cho tập này sẽ gửi BTC khi cuộc khi kết thúc.
Dataset sẽ được cung cấp kèm theo mô tả đầy đủ về các trường dữ liệu ở cuối bài.
Hình thức nộp bài:
– Submit file kết quả validation dataset: công bố vào 10h 23/11/2019
– Submit file kết quả testing dataset: công bố vào 10h 23/11/2019
– Nộp mã ngồn và bài trình bày về mô hình: muộn nhất là 23h59 03/12/2019
Điểm đánh giá:
Điểm đánh giá: Gini Score (https://en.wikipedia.org/wiki/Gini_coefficient).
Public Score: Score trên tập Validation, trả về kết quả ngay khi submit.
Private Score: Score trên tập Testing, được dùng để đánh giá sau ngày 01/12/2019. Đây sẽ là điểm đánh giá thứ tự cuối cùng của cuộc thi.
Các quy tắc:
– Mỗi người chỉ được tham gia duy nhất 1 đội.
– Mỗi đội được submit để tính public score tối đa 5 lần/ngày, không tính các lần file nộp bài bị lỗi.
– Mỗi đội chỉ được sử dụng một tài khoản để nộp bài.
– Các đội không được phép nộp bài với các kết quả được dự đoán bởi con người (gán nhãn bằng tay). Kết quả nộp bài sẽ được đối chiếu với mô hình ở cuối cuộc thi trước khi công bố trao giải.
– Không sử dụng thêm các field từ các nguồn ngoài Dataset trên.
– Chỉ các đội chia sẻ mã nguồn và có bài trình bày về mô hình mới được nhận giải thưởng. Mô hình và mã nguồn sẽ phải chia sẻ sau khi công bố kết quả tối đa 2 ngày.
DATASET:
Click vào ĐÂY để nhận Dataset
Mô tả dữ liệu:
File | Mô tả |
columns_description.csv | Mô tả các trường thông tin của người dùng. Chú ý: các trường có tên dạng FIELD_* là các trường đã bị mã hoá tên, các đội chơi chỉ biết được giá trị và định dạng của trường. |
train.csv | Tập dữ liệu training dành cho các đội, gồm có các thông tin: + phone: Số điện thoại (đã mã hoá) + id: ID của khách hàng + email: Kháchh hàng có email hay không (1 – có, 0 – không) + target: Khách hàng có nợ xấu hay không? (1 – có, 0 – không) |
test.csv | Tập dữ liệu validation dành cho các đội, gồm có các thông tin: + phone: Số điện thoại (đã mã hoá) + id: ID của khách hàng + email: Kháchh hàng có email hay không (1 – có, 0 – không) |
basic_info_1.csv | Các thông tin cơ bản của người dùng, định danh theo ID của kháchh hàng |
basic_info_2.csv | Các thông tin cơ bản của người dùng, định danh theo ID của kháchh hàng |
sample_submission.csv |
Định dạng mẫu kết quả của file validation mà các đội cần cung cấp để tính public score (sẽ công bố cách submit vào 10h ngày 23/11/2019)
|
Link chia sẻ 12 giờ