文本文件utf,开头三个字符乱码问题

转自:

windows自带记事本导致文本文件(UTF-8编码卡塔尔国起初三个字符乱码难点,文本文件utf-8

转自:

在windows平台下,使用系统的记事本以UTF-8编码格式存款和储蓄了三个文书文件,但是出于Microsoft开拓记事本的团协会接受了七个特别奇怪的行为来保存UTF-8编码的公文,它们自作聪明地在每一种文件早前增加了0xefbbbf(十五进制卡塔 尔(英语:State of Qatar)的字符,所以大家就能超过重重不得要领的主题素材,举例,网页第意气风发行恐怕会来得叁个“?”,明明正确的主次一编写翻译就报出语法错误,等等。

上边为风流洒脱段测量试验程序,由记事本编辑的公文文件引致文件开始前七个字符乱码。

图片 1

#include <stdio.h>
#define MAX_LEN 100

int main()
{
    char strLine[MAX_LEN];
    int i = 0;
    memset(strLine,0x0,MAX_LEN);

    FILE * fp;
    fp = fopen("eng_query.txt","r");
    if(NULL == fp)
    {
        printf("open file fail.n");
        return -1;
    }

    while(fgets(strLine,MAX_LEN,fp))
    {
        printf("str = %s",strLine);//将每行字符串打印出来
        for(i=0; i<strlen(strLine); i++)//将每各字符串中的字符以十六进制格式打印出来
        {
            printf("%x  ",strLine[i]);
        }
        printf("nn");
    }
    fclose(fp);
    return 0;
}

图片 2

 

输入文件:

图片 3

tsinghua press
mp18
evaluating method for the double image
jiaoyuxvshi
balancing mechanism
hthr
amplification
bionic optimization algorithm
a r l
tcb

图片 4

 

输出文件:

图片 5

str = 锘縯singhua press
ffffffef  ffffffbb  ffffffbf  74  73  69  6e  67  68  75  61  20  70  72  65  73
  73  a

str = mp18
6d  70  31  38  a

str = evaluating method for the double image
65  76  61  6c  75  61  74  69  6e  67  20  6d  65  74  68  6f  64  20  66  6f
72  20  74  68  65  20  64  6f  75  62  6c  65  20  69  6d  61  67  65  a

str = jiaoyuxvshi
6a  69  61  6f  79  75  78  76  73  68  69  a

str = balancing mechanism
62  61  6c  61  6e  63  69  6e  67  20  6d  65  63  68  61  6e  69  73  6d  a

str = hthr
68  74  68  72  a

str = amplification
61  6d  70  6c  69  66  69  63  61  74  69  6f  6e  a

str = bionic optimization algorithm
62  69  6f  6e  69  63  20  6f  70  74  69  6d  69  7a  61  74  69  6f  6e  20
61  6c  67  6f  72  69  74  68  6d  a

str = a r l
61  20  72  20  6c  a

str = tcb
74  63  62  a

图片 6

 

咱俩得以开掘文件起头五个字符乱码,各种汉字占用三个字符,由此第二个字符本来为‘t’,也只能乱码展现出来。

进而,能够应用Notepad++取代记事本。供给将Notepad++的暗中认可编码设置为UTF-8
without BOM就可以;

图片 7

转自:
在windows平台下…

在windows平台下,使用系统的记事本以UTF-8编码格式存款和储蓄了叁个文件文件,但是由于Microsoft开采记事本的集体采取了三个不行好奇的行事来保存UTF-8编码的文件,它们布鼓雷门地在各类文件开头增添了0xefbbbf(十一进制卡塔尔国的字符,所以咱们就能遇到不少不得要领的难点,比方,网页第豆蔻梢头行恐怕会呈现一个“?”,明明准确的次第一编写翻译就报出语法错误,等等。

上边为意气风发段测量试验程序,由记事本编辑的文件文件导致文件开始前四个字符乱码。

图片 8

#include <stdio.h>
#define MAX_LEN 100

int main()
{
    char strLine[MAX_LEN];
    int i = 0;
    memset(strLine,0x0,MAX_LEN);

    FILE * fp;
    fp = fopen("eng_query.txt","r");
    if(NULL == fp)
    {
        printf("open file fail.n");
        return -1;
    }

    while(fgets(strLine,MAX_LEN,fp))
    {
        printf("str = %s",strLine);//将每行字符串打印出来
        for(i=0; i<strlen(strLine); i++)//将每各字符串中的字符以十六进制格式打印出来
        {
            printf("%x  ",strLine[i]);
        }
        printf("nn");
    }
    fclose(fp);
    return 0;
}

图片 9

 

输入文件:

图片 10

tsinghua press
mp18
evaluating method for the double image
jiaoyuxvshi
balancing mechanism
hthr
amplification
bionic optimization algorithm
a r l
tcb

图片 11

 

输出文件:

图片 12

str = 锘縯singhua press
ffffffef  ffffffbb  ffffffbf  74  73  69  6e  67  68  75  61  20  70  72  65  73
  73  a

str = mp18
6d  70  31  38  a

str = evaluating method for the double image
65  76  61  6c  75  61  74  69  6e  67  20  6d  65  74  68  6f  64  20  66  6f
72  20  74  68  65  20  64  6f  75  62  6c  65  20  69  6d  61  67  65  a

str = jiaoyuxvshi
6a  69  61  6f  79  75  78  76  73  68  69  a

str = balancing mechanism
62  61  6c  61  6e  63  69  6e  67  20  6d  65  63  68  61  6e  69  73  6d  a

str = hthr
68  74  68  72  a

str = amplification
61  6d  70  6c  69  66  69  63  61  74  69  6f  6e  a

str = bionic optimization algorithm
62  69  6f  6e  69  63  20  6f  70  74  69  6d  69  7a  61  74  69  6f  6e  20
61  6c  67  6f  72  69  74  68  6d  a

str = a r l
61  20  72  20  6c  a

str = tcb
74  63  62  a

图片 13

 

咱俩得以发掘文件起始多个字符乱码,各种汉字占用多个字符,因此第三个字符本来为‘t’,也只能乱码突显出来。

之所以,能够行使Notepad++替代记事本。供给将Notepad++的暗中同意编码设置为UTF-8
without BOM就能够;

图片 14