scikit-learnでクラス分類をさせる場合、1回毎の予測結果がどれくらい正しそうか、という確率のようなものを表示することができます。
端的に言葉で表現するのが難しいので例を挙げると、
2次元データである点が赤グループか青グループかという2クラス分類問題で、K近傍の識別器を学習させたとします。
そこで、ある点Aはどちらのグループであるかこの識別器に判断させます。
clf.predict(A)
こんなかんじで。
その結果として点Aの周りの点が赤グループ多数か青グループ多数かで判断し結果を返してきますが、判断結果が赤グループだった場合、周りの点が全部赤グループなので赤と判断されたのか、それとも赤グループと青グループが混在している中、僅差で赤グループと判断されたのか知りたくないか?ということです。要するに判断結果の信憑性です。
predict_proba を使うとこの投票結果が表示できます。
clf.predict_proba(A)
とすると、点Aが赤グループである可能性と青グループである可能性が少数2つの配列で返ってきます。
この時指数で表示されると見づらい場合があるので適当に
np.set_printoptions(suppress=True)
とか記述して指数で表示させないようにしておくといいかもしれません。