当前位置 博文首页 > 苍林翠竹的博客:R语言学习(一)读取整理网站表格数据

    苍林翠竹的博客:R语言学习(一)读取整理网站表格数据

    作者:[db:作者] 时间:2021-07-15 09:51

    #读取中国财经网今日人民币外汇牌价表
    library(rvest)
    words <- read_html("http://app.finance.china.com.cn/forex/rmb/")
    table<-html_table(html_nodes(words, "table"),fill = TRUE,header=TRUE)[[1]]
    
    str(table)#查看各列数据类型
    
    #将字符型的“涨跌幅”列换成方便计算的数值型数据
    extent<-table$涨跌幅
    extent1<-data.frame(lapply(extent, function(x) as.numeric(sub("%", "", x))) )#去百分号变数值型
    extent2<-t(extent1)#转置
    table[8:8]<-extent2#放回原表
    colnames(table)[8] <- '涨跌幅%' #百分号放回列名中
    
    #查看整理好的网页数据
    table
    str(table)
    

    rvest包:爬取网络数据的
    函数:
    str(x)查看各列数据类型
    read_html("") 读取网站信息
    html_table(x,header= ,…)
    html_nodes(x,xpath)
    as.numeric(“字符串”/向量…)
    colnames(x)[8]第八列列名

    PS. R与c、python不同,数组从1开始,而不是0

    cs