HỌC MÁY CÙNG KALAPA: Công bố Data và thể lệ chi tiết

21/11/2019

Đề bài

Các đội sẽ được cung cấp 3 bộ dữ liệu (gọi là dataset) về thông tin của khách hàng đã từng vay:
1. Training dataset (3.201 bản ghi): Gồm thông tin cá nhân của 3.201 khách hàng (nhiều loại thông tin khác nhau) đã được gán nhãn có trả nợ hay không. Các đội sẽ sử dụng Traning dataset để tìm ra mô hình Credit Scoring.
2. Validation dataset (1.068 bản ghi): Chỉ bao gồm thông tin cá nhân của 1.068 khách hàng, chưa được gán nhãn có trả nợ hay không. Các đội phải sử dụng mô hình tìm ra được ở phía trên để dự đoán khả năng trả nợ của 1.068 khách hàng này. Tập dữ liệu này sẽ là tập tính Pubic Score, các đội submit kết quả lên sẽ nhận được Gini Score.
3. Testing dataset (1.068 bản ghi): Chỉ bao gồm thông tin cá nhân của 1.068 khách hàng, chưa được gán nhãn có trả nợ hay không. Các đội phải sử dụng mô hình tìm ra được ở phía trên để dự đoán khả năng trả nợ của 1.068 khách hàng này. Kết quả các đội chạy cho tập này sẽ gửi BTC khi cuộc khi kết thúc.

Dataset sẽ được cung cấp kèm theo mô tả đầy đủ về các trường dữ liệu ở cuối bài.

Hình thức nộp bài:

– Submit file kết quả validation dataset: công bố vào 10h 23/11/2019
– Submit file kết quả testing dataset: công bố vào 10h 23/11/2019
– Nộp mã ngồn và bài trình bày về mô hình: muộn nhất là 23h59 03/12/2019

Điểm đánh giá:

Điểm đánh giá: Gini Score (https://en.wikipedia.org/wiki/Gini_coefficient).
Public Score: Score trên tập Validation, trả về kết quả ngay khi submit.
Private Score: Score trên tập Testing, được dùng để đánh giá sau ngày 01/12/2019. Đây sẽ là điểm đánh giá thứ tự cuối cùng của cuộc thi.

Các quy tắc:

– Mỗi người chỉ được tham gia duy nhất 1 đội.
– Mỗi đội được submit để tính public score tối đa 5 lần/ngày, không tính các lần file nộp bài bị lỗi.
– Mỗi đội chỉ được sử dụng một tài khoản để nộp bài.
– Các đội không được phép nộp bài với các kết quả được dự đoán bởi con người (gán nhãn bằng tay). Kết quả nộp bài sẽ được đối chiếu với mô hình ở cuối cuộc thi trước khi công bố trao giải.
– Không sử dụng thêm các field từ các nguồn ngoài Dataset trên.
– Chỉ các đội chia sẻ mã nguồn và có bài trình bày về mô hình mới được nhận giải thưởng. Mô hình và mã nguồn sẽ phải chia sẻ sau khi công bố kết quả tối đa 2 ngày.

DATASET:

Click vào ĐÂY để nhận Dataset

Mô tả dữ liệu:

File Mô tả
columns_description.csv Mô tả các trường thông tin của người dùng.
Chú ý: các trường có tên dạng FIELD_* là các trường đã bị mã hoá tên, các đội chơi chỉ biết được giá trị và định dạng của trường.
train.csv Tập dữ liệu training dành cho các đội, gồm có các thông tin:
+ phone: Số điện thoại (đã mã hoá)
+ id: ID của khách hàng
+ email: Kháchh hàng có email hay không (1 – có, 0 – không)
+ target: Khách hàng có nợ xấu hay không? (1 – có, 0 – không)
test.csv Tập dữ liệu validation dành cho các đội, gồm có các thông tin:
+ phone: Số điện thoại (đã mã hoá)
+ id: ID của khách hàng
+ email: Kháchh hàng có email hay không (1 – có, 0 – không)
basic_info_1.csv Các thông tin cơ bản của người dùng, định danh theo ID của kháchh hàng
basic_info_2.csv Các thông tin cơ bản của người dùng, định danh theo ID của kháchh hàng
sample_submission.csv
Định dạng mẫu kết quả của file validation mà các đội cần cung cấp để tính public score (sẽ công bố cách submit vào 10h ngày 23/11/2019)

Link chia sẻ 12 giờ

Post Author: Do Pham Khac