は次のように私はPythonのデータフレームがあるとし、Pythonのデータフレーム間で類似したテキストが
data['text']
abc.google.com
d-2667808233512566908.ampproject.net
d-27973032622323999654.ampproject.net
def.google.com
d-28678547673442325000.ampproject.net
i1-j4-20-1-1-13960-2081004232-s.init.cedexis-radar.net
d-29763453703185417167.ampproject.net
poi.google.com
d-3064948553577027059.ampproject.net
i1-io-0-4-1-20431-1341659986-s.init.cedexis-radar.net
d-2914631797784843280.ampproject.net
i1-j1-18-24-1-11326-1053733564-s.init.cedexis-radar.net
を探す私は同様の一般的なテキストやグループにそれを見つけたいです。例えば、abc.google.com、def.google.com、poi.google.comはgoogle.comを指すとなりますなど
必要な出力があり、
google.com
ampproject.net
ampproject.net
google.com
ampproject.net
s.init.cedexis-radar.net
ampproject.net
google.com
ampproject.net
s.init.cedexis-radar.net
ampproject.net
s.init.cedexis-radar.net
それは、より多くのデータのようなものです私は不要な部分をきれいにすることができます。 1つの方法は、可能なすべてのグループを手動で検査してコード化することです。しかし、私は数百万のテキストを持っているでしょう。だから、これを行うためのpythonの方法/パッケージはありますか?
申し訳ありませんが何も試してこないでください。私はこれを多くの成功なしで研究しようとしました。どのように私は開始する必要がありますか分からない。もし誰かが私に取っておかなければならないアプローチを知らせることができれば、それは私の役に立つかもしれません。あなたは、データセット内のテキストセグメントの特定の形式がどうなるかを確信している場合
おかげ
感謝。私が尋ねたように出力を得るのを助けてくれますか?このコードをその要件に変更することは困難です。 – Observer
@Observer自分のコードを更新しました。それがあなたを助けるならば、upvoteを忘れることはなく、あなたの必要性を支えているなら、それを答えとして受け入れることもできます。 –
ありがとう!それは働いた – Observer