HỌC MÁY CÙNG KALAPA: Công bố Data và thể lệ chi tiết

21/11/2019

Đề bài

Các đội sẽ được cung cấp 3 bộ dữ liệu (gọi là dataset) về thông tin của khách hàng đã từng vay:
1. Training dataset (3.201 bản ghi): Gồm thông tin cá nhân của 3.201 khách hàng (nhiều loại thông tin khác nhau) đã được gán nhãn có trả nợ hay không. Các đội sẽ sử dụng Traning dataset để tìm ra mô hình Credit Scoring.
2. Validation dataset (1.068 bản ghi): Chỉ bao gồm thông tin cá nhân của 1.068 khách hàng, chưa được gán nhãn có trả nợ hay không. Các đội phải sử dụng mô hình tìm ra được ở phía trên để dự đoán khả năng trả nợ của 1.068 khách hàng này. Tập dữ liệu này sẽ là tập tính Pubic Score, các đội submit kết quả lên sẽ nhận được Gini Score.
3. Testing dataset (1.068 bản ghi): Chỉ bao gồm thông tin cá nhân của 1.068 khách hàng, chưa được gán nhãn có trả nợ hay không. Các đội phải sử dụng mô hình tìm ra được ở phía trên để dự đoán khả năng trả nợ của 1.068 khách hàng này. Kết quả các đội chạy cho tập này sẽ gửi BTC khi cuộc khi kết thúc.

Dataset sẽ được cung cấp kèm theo mô tả đầy đủ về các trường dữ liệu ở cuối bài.

Hình thức nộp bài:

– Submit file kết quả validation dataset: công bố vào 10h 23/11/2019
– Submit file kết quả testing dataset: công bố vào 10h 23/11/2019
– Nộp mã ngồn và bài trình bày về mô hình: muộn nhất là 23h59 03/12/2019

Điểm đánh giá:

Điểm đánh giá: Gini Score (https://en.wikipedia.org/wiki/Gini_coefficient).
Public Score: Score trên tập Validation, trả về kết quả ngay khi submit.
Private Score: Score trên tập Testing, được dùng để đánh giá sau ngày 01/12/2019. Đây sẽ là điểm đánh giá thứ tự cuối cùng của cuộc thi.

Các quy tắc:

– Mỗi người chỉ được tham gia duy nhất 1 đội.
– Mỗi đội được submit để tính public score tối đa 5 lần/ngày, không tính các lần file nộp bài bị lỗi.
– Mỗi đội chỉ được sử dụng một tài khoản để nộp bài.
– Các đội không được phép nộp bài với các kết quả được dự đoán bởi con người (gán nhãn bằng tay). Kết quả nộp bài sẽ được đối chiếu với mô hình ở cuối cuộc thi trước khi công bố trao giải.
– Không sử dụng thêm các field từ các nguồn ngoài Dataset trên.
– Chỉ các đội chia sẻ mã nguồn và có bài trình bày về mô hình mới được nhận giải thưởng. Mô hình và mã nguồn sẽ phải chia sẻ sau khi công bố kết quả tối đa 2 ngày.

DATASET:

Click vào ĐÂY để nhận Dataset

Mô tả dữ liệu:

File	Mô tả
columns_description.csv	Mô tả các trường thông tin của người dùng. Chú ý: các trường có tên dạng FIELD_* là các trường đã bị mã hoá tên, các đội chơi chỉ biết được giá trị và định dạng của trường.
train.csv	Tập dữ liệu training dành cho các đội, gồm có các thông tin: + phone: Số điện thoại (đã mã hoá) + id: ID của khách hàng + email: Kháchh hàng có email hay không (1 – có, 0 – không) + target: Khách hàng có nợ xấu hay không? (1 – có, 0 – không)
test.csv	Tập dữ liệu validation dành cho các đội, gồm có các thông tin: + phone: Số điện thoại (đã mã hoá) + id: ID của khách hàng + email: Kháchh hàng có email hay không (1 – có, 0 – không)
basic_info_1.csv	Các thông tin cơ bản của người dùng, định danh theo ID của kháchh hàng
basic_info_2.csv	Các thông tin cơ bản của người dùng, định danh theo ID của kháchh hàng
sample_submission.csv	Định dạng mẫu kết quả của file validation mà các đội cần cung cấp để tính public score (sẽ công bố cách submit vào 10h ngày 23/11/2019)

Link chia sẻ 12 giờ

Copy

Post Author: Do Pham Khac

Bài viết liên quan

CUỘC THI: HỌC MÁY CÙNG KALAPA
Việc xác định khả năng trả nợ của một khách hàng sau khi vay là công việc quan trọng và hóc búa hàng đầu mà mỗi Tổ chức tín dụng cần giải quyết, và KALAPA cũng không phải ngoại lệ. Vì vậy, KALAPA phát động cuộc thi "HỌC MÁY CÙNG…
Tags: hàng, khách, đội, các, hình, của, tin, thông, mô, không
EWAY Tech tổ chức đánh giá Thực tập sinh đợt 1/2019
Sáng hôm nay 9/8, tại khu Sinh hoạt chung, buổi tổng kết đánh giá giai đoạn 1 của chương trình Thực tập sinh team Tech EWAY đã diễn ra, nhằm tổng kết, đánh giá quá trình rèn luyện của các bạn sinh viên ngành CNTT đang học tập tại EWAY.…
Tags: tập, của, các, kết, sẽ, hình, được, có, để, tin
Đại hội Võ Lâm - Hội thao "độc nhất vô nhị" của EWAY
Giới thiệu Thuở hồng hoang khai sơ, muốn hỏi các vua Hùng làm sao có thể dựng nước, giữ nước, tạo lập cơ đồ 4000 năm văn hiến? Muốn hỏi quân dân nhà Trần làm sao có thể năm lần 7 lượt “tỉa” cho giặc Mông thua liểng xiểng, rồi…
Tags: sẽ, có, các, đội, được, của
Vén màn bí mật nhóm eTek Hub
Ít ai biết rằng, song song với group Facebook công ty có tồn tại nhiều group "bí mật" khác. Và một trong số đó là group chuyên về công nghệ do Giám đốc Công nghệ Phí Ngọc Chi thành lập vào tháng 8 năm 2015.
Tags: các, được, để, có, bài, kết, sẽ, thông, tin, của
10 điều bạn không thể làm trong Skype
Skype, Facebook có phải là đã đủ lắm rồi, vì sao chúng ta lại cần có Slack, MatterMost và bây giờ là Rocket.Chat?
Tags: có, không, để, sẽ, của, các, tin, được, thông