当前位置 博文首页 > 苍林翠竹的博客:R语言学习(一)读取整理网站表格数据
#读取中国财经网今日人民币外汇牌价表
library(rvest)
words <- read_html("http://app.finance.china.com.cn/forex/rmb/")
table<-html_table(html_nodes(words, "table"),fill = TRUE,header=TRUE)[[1]]
str(table)#查看各列数据类型
#将字符型的“涨跌幅”列换成方便计算的数值型数据
extent<-table$涨跌幅
extent1<-data.frame(lapply(extent, function(x) as.numeric(sub("%", "", x))) )#去百分号变数值型
extent2<-t(extent1)#转置
table[8:8]<-extent2#放回原表
colnames(table)[8] <- '涨跌幅%' #百分号放回列名中
#查看整理好的网页数据
table
str(table)
rvest包:爬取网络数据的
函数:
str(x)查看各列数据类型
read_html("") 读取网站信息
html_table(x,header= ,…)
html_nodes(x,xpath)
as.numeric(“字符串”/向量…)
colnames(x)[8]第八列列名
PS. R与c、python不同,数组从1开始,而不是0
cs