[轉貼] PHP如何判斷是否為utf8編碼文件的方法－經驗交流分享與備忘｜痞客邦

部落格文章訂閱

貧窮不能等，因為時間久了，你就會貧窮習慣了；
夢想不能等，因為努力晚了，人老就無能為力了；
學習不能等，因為懂得少了，就沒本事夢想成真了；
健康不能等，因為身體垮了，人生的一切就都沒了。

自訂搜尋

找不到想要的文章嗎? 請直接再下面的搜尋框裡輸入要查詢文章內容關鍵字 ,就能夠更快速的取得想要閱讀的問題喔~~謝謝大家的支持與愛護～若有任何建議事項, 歡迎透過留言板留言給我喔！！

你不能決定生命的長度，但可以控制它的寬度；

你不能左右天氣，但可以改變心情；

你不能改變容顏，但可以展現笑容；

你不能控制他人，但可以掌握自己；

你不能預知明天，但可以利用今天；

你不能樣樣勝利，但可以事事盡力。

free counters

Jun 04 Fri 2010 11:47
[轉貼] PHP如何判斷是否為utf8編碼文件的方法

由於utf8編碼有固定格式，其可能有2~4個字節，我們可以將每一個字節拆開判斷
這個函示僅判斷每個中文字的第一個字節，應該夠了。

請參考 wikipedia 之 UTF8 說明 ,網址 http://zh.wikipedia.org/zh-tw/UTF8

//判斷字串是否為utf8
function  is_utf8($str)  {
    $i=0;
    $len  =  strlen($str);

    for($i=0;$i<$len;$i++)  {
        $sbit  =  ord(substr($str,$i,1));
        if($sbit  <  128)  {
            //本字節為英文字符，不與理會
        }elseif($sbit  >  191  &&  $sbit  <  224)  {
            //第一字節為落於192~223的utf8的中文字(表示該中文為由2個字節所組成utf8中文字)，找下一個中文字
            $i++;
        }elseif($sbit  >  223  &&  $sbit  <  240)  {
            //第一字節為落於223~239的utf8的中文字(表示該中文為由3個字節所組成的utf8中文字)，找下一個中文字
            $i+=2;
        }elseif($sbit  >  239  &&  $sbit  <  248)  {
            //第一字節為落於240~247的utf8的中文字(表示該中文為由4個字節所組成的utf8中文字)，找下一個中文字
            $i+=3;
        }else{
            //第一字節為非的utf8的中文字
            return  0;
        }
    }
    //檢查完整個字串都沒問體，代表這個字串是utf8中文字
    return  1;
}

底下是各別中文字字節的範圍

Unicode                                      1st  Byte  2nd  Byte  3rd  Byte  4th  Byte
-------------------------------------------------------------------------------
U+0000..007F                              00..7F
U+0080..07FF                              C2..DF     80..BF
U+0800..0FFF                              E0           A0..BF              80..BF
U+1000..CFFF                               E1..EC    80..BF              80..BF
U+D000..D7FF                               ED          80..9F              80..BF
U+E000..FFFF                               EE..EF     80..BF              80..BF
U+10000..3FFFF                            F0           90..BF              80..BF              80..BF
U+40000..FFFFF                            F1..F3      80..BF              80..BF              80..BF
U+100000..10FFFF                        F4            80..8F              80..BF              80..BF

文章轉貼至 http://203.68.102.46/online_book/content.php?chapter_sn=172

Frank

經驗交流分享與備忘

Frank 發表在痞客邦留言(0) 人氣()

E-mail轉寄

全站分類：進修深造
個人分類：PHP程式設計
此分類上一篇：使 PHP 支援 mb_string 環境
此分類下一篇： [轉貼] HTML的特殊字符
上一篇：使 PHP 支援 mb_string 環境
下一篇： [轉貼] 走出憂鬱的十個方法

歷史上的今天

2010: [轉貼] 走出憂鬱的十個方法

留言列表

參觀人氣

本日人氣：
累積人氣：

Bookmarks

CPANEL

異地求生

Yahoo UI Library

PU DBA 參考

攝影相關

YMCA Photo Club

工商服務

程式學習

腦力激盪

公益網站

旅遊相關

學無止盡

好站精選

開發元件

我的夥伴

推薦討論區

語言學習

JQuery

Banana-Pi, 樹梅派應用

文章分類

作業系統相關 (9)

投資理財 (2)

網頁設計相關 (6)

文章彙整

所有文章列表

動態訂閱

新聞交換(RSS)