办公:10分钟出用研报告
办公:10分钟出用研报告
2023年12月30日修改
15年前做市场调研,1个月做座谈会,1个月做街头问卷,1个月写报告。
10年前做网络调研,1天出调研报告。
现在只要粘贴一个商品网址,LLM可以在10分钟内输出用户洞察报告。
数据准备
1.
使用instant data scraper爬虫xreal air在amazon公开评论。因amazon只显示前100条consumer reviews,所以我们按1~5星各爬100条。
2.
样本分布有偏,XREAL实际口碑会比本文分析结果好。这里更多是展示LLM如何做文本挖掘过程。
3.
将raw data上传到GPTs的knowledge,让GPT根据知识库回答用研问题。
模型边界
1.
GPT擅长上下文预测,不擅长做文本归纳与推理,即难以做到1+1=2。
2.
BERT擅长本文横向统计,例如句子相似性分析,可以实现类似1+1=2的推理。
3.
假如要文本挖掘并输出统计数据,需同时调用GPT+BERT。
| 介绍 | 擅长 | 不擅长 |
GPT | 利用transformer的decoder解码器部分,擅长根据上文预测下文,但不擅长做文本相似统计。 | 原始数据:ABCDE 用户提问Query:B 系统响应Response:C | 原始数据:A1-B-α2-D-A2 用户提问Query:有多少个A 系统响应Response:[错误] |
BERT | 利用transformer的encoder编码器部分,擅长做文本做聚类、情感分析、相似性分析等。 | 原始数据:A1-B-α2-D-A2 用户提问Query:有多少个A类 系统响应Response:2个A类 | 原始数据:A1-B-α2-D-a1 用户提问Query:有多少个A1 系统响应Response:3个A1[错误] |