feat: initial success for processing float literal in lexical analysis phase

Gyumeijie · Gyumeijie · commit 6ba5f239ed4f · 2018-04-29T15:21:42.000+08:00
diff --git a/lex.c b/lex.c
@@ -1,17 +1,18 @@
 #include "lex.h"
 #include <stdio.h>
+#include <string.h>
 #include <stdlib.h>
 
 static const char* src;
 static int  *symbols;
 
-// fields of identifier
+// ��ʶ����������Ϣ 
 enum {Token, Hash, Name, Type, Class, Value, BType, BClass, BValue, IdSize};
 
-// types of variable/function
+// �������ߺ������� 
 enum { CHAR, INT, PTR };
 
-// type of declaration.
+//�������� 
 enum {Global, Local, Extern};
 
 
@@ -39,71 +40,94 @@ void next() {
         }
 
         else if (token == '#') {
-            // skip macro, because we will not support it
+            //�����궨�壬��Ϊ��֧��
             while (*src != 0 && *src != '\n') {
                 src++;
             }
         }
         
-
         //������ʶ��
-        else if ((token >= 'a' && token <= 'z') || (token >= 'A' && token <= 'Z') || (token == '_')) {
+        else if (is_valid_starting_character(token)) {
 
-            // parse identifier
             last_pos = (char*)src - 1;
             hash = token;
 
             char block_keyword[32];
-            while ((*src >= 'a' && *src <= 'z') || (*src >= 'A' && *src <= 'Z') || (*src >= '0' && *src <= '9') || (*src == '_')) {
+            while (is_valid_identifier_character(*src)) {
                 hash = hash * 147 + *src;
                 src++;
             }
            
-
-            // look for existing identifier, linear search
             // �������ű�
             // ����Ĭ�����õ�IdSize����ʶ���ĳ�����10������������ŵ�ǰ��10����
             // ��ͬ�ģ���ô�����ֲ�������,���Ը���ʵ������������������С
             current_id = symbols;
+            int id_len = src - last_pos;
             while (current_id[Token]) {
-                if (current_id[Hash] == hash && !memcmp((char *)current_id[Name], last_pos, src - last_pos)) {
-                    //found one, return
-                    //printf("find token %d\n", current_id[Token]);
+                if (current_id[Hash] == hash && 
+                    !memcmp((char *)current_id[Name], last_pos, id_len)) {
                     token = current_id[Token];
+
                     return;
                 }
                 //������һ����Ŀ
                 current_id = current_id + IdSize;
             }
 
-            // store new ID
+            //���û���ҵ������µ�symbols�����д���һ��ID��Ŀ
             current_id[Name] = (int)last_pos;
             current_id[Hash] = hash;
             token = current_id[Token] = Id;
+
             return;
         }
         
-        //TODO ���Ӹ�����������Ҳ������ζ��Ҫ
         //������������Ļ��ͼ�������ֵ
         else if (token >= '0' && token <= '9') {
-            // parse number, three kinds: dec(123) hex(0x123) oct(017)
+            //���渡������������֮����ת����������ת��
+            char float_string[32];
+            const char* string_begin = src - 1;
+
             token_val = token - '0';
             if (token_val > 0) {
-                // dec, starts with [1-9]
+                float_string[0] = token;
+                int idx = 1;
+                // ʮ����
                 while (*src >= '0' && *src <= '9') {
                     token_val = token_val*10 + *src++ - '0';
                 }
+                
+                //����Ƿ�����Ǹ���
+                if (*src == '.'){
+                    memcpy(&float_string[1], string_begin, src - string_begin);
+                    idx = idx + src - string_begin;
+                    float_string[idx] = '.';
+                    process_fraction(float_string, idx + 1);
+                    token_val = (int)strtod(float_string, NULL);
+                }
+
             } else {
-                // starts with number 0
+                // '0'��ͷ�������˽��ƻ���ʮ�����ƻ�����С��
                 if (*src == 'x' || *src == 'X') {
-                    //hex
+                    // ʮ������
                     token = *++src;
-                    while ((token >= '0' && token <= '9') || (token >= 'a' && token <= 'f') || (token >= 'A' && token <= 'F')) {
-                        token_val = token_val * 16 + (token & 15) + (token >= 'A' ? 9 : 0);
+                    while ((token >= '0' && token <= '9') || 
+                           (token >= 'a' && token <= 'f') || 
+                           (token >= 'A' && token <= 'F')) {
+                        token_val = token_val*16 + (token&15) + (token >= 'A' ? 9 : 0);
                         token = *++src;
                     }
-                } else {
-                    // oct
+                //TODO ���Ӹ�������
+                }else if(*src == '.'){
+                    // С��0.xxxx 
+                    float_string[0] = '0';
+                    float_string[1] = '.';
+
+                    process_fraction(float_string, 2);
+            
+                    token_val = (int)strtod(float_string, NULL);
+                }else{
+                    // �˽��� 
                     while (*src >= '0' && *src <= '7') {
                         token_val = token_val*8 + *src++ - '0';
                     }
@@ -114,15 +138,13 @@ void next() {
             return;
         }
 
-
         else if (token == '/') {
             if (*src == '/') {
-                // skip comments
+                //����ע�� 
                 while (*src != 0 && *src != '\n') {
                     ++src;
                 }
-            } else {
-                // divide operator
+            } else { 
                 token = Div;
                 return;
             }
@@ -158,7 +180,7 @@ void next() {
             return;
         }
         else if (token == '=') {
-            // parse '==' and '='
+            // ���� '==' �� '='
             if (*src == '=') {
                 src ++;
                 token = Eq;
@@ -168,7 +190,7 @@ void next() {
             return;
         }
         else if (token == '+') {
-            // parse '+' and '++'
+            // ���� '+' �� '++'
             if (*src == '+') {
                 src ++;
                 token = Inc;
@@ -178,7 +200,7 @@ void next() {
             return;
         }
         else if (token == '-') {
-            // parse '-' and '--'
+            // ���� '-' �� '--'
             if (*src == '-') {
                 src ++;
                 token = Dec;
@@ -188,15 +210,15 @@ void next() {
             return;
         }
         else if (token == '!') {
-            // parse '!='
+            // ����'!='
             if (*src == '=') {
                 src++;
                 token = Ne;
             }
             return;
         }
         else if (token == '<') {
-            // parse '<=', '<<' or '<'
+            // ���� '<=', '<<' or '<'
             if (*src == '=') {
                 src ++;
                 token = Le;
@@ -209,7 +231,7 @@ void next() {
             return;
         }
         else if (token == '>') {
-            // parse '>=', '>>' or '>'
+            //����'>='��'>>' ���� '>'
             if (*src == '=') {
                 src ++;
                 token = Ge;
@@ -222,7 +244,7 @@ void next() {
             return;
         }
         else if (token == '|') {
-            // parse '|' or '||'
+            //����'|'��'||'
             if (*src == '|') {
                 src ++;
                 token = Lor;
@@ -232,7 +254,7 @@ void next() {
             return;
         }
         else if (token == '&') {
-            // parse '&' and '&&'
+            //����'&'��'&&'
             if (*src == '&') {
                 src ++;
                 token = Lan;
@@ -261,7 +283,15 @@ void next() {
             token = Cond;
             return;
         }
-        else if (token == '~' || token == ';' || token == '{' || token == '}' || token == '(' || token == ')' || token == ']' || token == ',' || token == ':') {
+        else if (token == '~' || 
+                 token == ';' || 
+                 token == '{' || 
+                 token == '}' || 
+                 token == '(' || 
+                 token == ')' ||
+                 token == ']' || 
+                 token == ',' ||
+                 token == ':') {
             // directly return the character as token;
             return;
         }
@@ -277,3 +307,59 @@ void match(int tk) {
         exit(-1);
     }
 }
+
+static Boolean is_valid_starting_character(char ch)
+{
+
+    if ( (ch >= 'a' && ch <= 'z') ||
+         (ch >= 'A' && ch <= 'Z') ||
+         (ch == '_')){ 
+           return True;
+         }
+
+    return False;
+}
+
+
+static Boolean is_valid_identifier_character(char ch)
+{
+
+    if (is_valid_starting_character(ch) || is_digit(ch)){
+        return True;
+    }
+
+    return False;
+}
+
+static Boolean is_digit(char ch)
+{
+    return (ch >= '0' && ch <= '9') ? True : False;
+}
+
+
+static void process_fraction(char* float_string, int start_idx)
+{
+   int idx = start_idx;
+
+   token = *++src;
+   while ((token >= '0' && token <= '9')){ 
+       float_string[idx] = token;
+       idx++;
+       token = *++src;
+   }
+        
+   //�ж��Ƿ��ǷǷ��ĸ�����������
+   printf("trailing charater of float literal '%c'\n", token);
+   if (! (token == ',' || token == ';' || token == ' ')){
+       printf("bad float literal\n");
+       exit(-1);
+    }
+
+    float_string[idx] = '\0';
+    printf("float val:%lf\n", strtod(float_string, NULL));
+
+
+}
+
+
+
diff --git a/lex.h b/lex.h
@@ -2,9 +2,20 @@
 #define LEX_H
 
 #include "symbol.h"
+#include "types.h"
 
 extern void prepare_for_tokenize(const char* src_code, int* symbol_table);
+
 extern void next();
+
 extern void match(int tk); 
 
+static Boolean is_valid_starting_character(char ch);
+
+static Boolean is_valid_identifier_character(char ch);
+
+static Boolean is_digit(char ch);
+
+static void process_fraction(char* float_string, int start_idx);
+
 #endif
diff --git a/types.h b/types.h
@@ -0,0 +1,9 @@
+#ifndef TYPES_H
+#define TYPES_H
+
+typedef enum{
+    False = 0, 
+    True = 1
+} Boolean;
+
+#endif