由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 一个基于文本的机器学习程序的问题
进入Programming版参与讨论
1 (共1页)
n*********2
发帖数: 357
1
写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720
个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
除了stop words 后的数字)。
然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
不能提高 accuracy。这个一般是什么问题? 数据量不够?
多谢。
l*******m
发帖数: 1096
2
试试bert transform learning

:写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个
是去除了stop words 后的数字)。
o*******p
发帖数: 27
3
Target distribution怎么样?建议先来个baseline:WC + Logistical Regression,
看看accuracy如何。

720

【在 n*********2 的大作中提到】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。

h*i
发帖数: 3446
4
什么文本?自然语言的话,先做embedding再训练,保证训练效果有大幅度的提高。
当然了,你这个几百个数据量是小了点,怎么得整个几千个吧。试试embedding再说吧。
不用谢,这些都是常识。

720

【在 n*********2 的大作中提到】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。

1 (共1页)
进入Programming版参与讨论