今天遇到這樣一個bug:客戶端POST到服務器的一段數據導致服務器端發生未知異常。服務器端確認是編碼轉換錯誤。于是截取網絡數據包進行分析,發現客戶端POST的json數據中包含下面一段(hex形式):
... 61 64 20 b7 20 52 69 63 ...
問題就出在這個b7上。查閱Unicode代碼表后發現,U+00b7是MIDDLE DOT,它的UTF-8表現形式應該是c2 b7,但為何客戶端發送的數據中它變成了b7?由于系統使用了ormlite、gson和async-http幾個庫,于是逐一排查。最后發現原來是向服務器發送數據時沒有指定文字編碼,導致async-http(實際是apache common http client)將數據以ISO-8559-1格式發送,U+00b7被編碼成b7,然后服務器試圖使用UTF-8解碼時發生錯誤。
出錯的代碼片段如下:
Gson gson = new Gson();
String json = gson.toJson(data);
StringEntity entity = new StringEntity(json);
httpClient.post(context, url, entity, "application/json", new TextHttpResponseHandler() ... );
第三行new StringEntity(json)時沒有指定編碼導致錯誤。改正后如下:
Gson gson = new Gson();
String json = gson.toJson(data);
StringEntity entity = new StringEntity(json, "utf-8");
httpClient.post(context, url, entity, "application/json;charset=utf-8", new TextHttpResponseHandler() ... );